Google anuncia el inicio del proyecto OCRopus, un OCR libre de alta calidad

Apr 12, 2007

Álvaro Martínez Majado

Según Thomas Breuel, “el objetivo es avanzar en el estado de la técnica del reconocimiento óptico y tecnologías relacionadas, y proveer un OCR de alta calidad adecuado para la conversión de documentos, bibliotecas electrónicas, usuarios con dificultades de visión, análisis de documentos históricos y uso general”.

Álvaro Martínez Majado – OCRopus, nombre que recibe el proyecto, fue anunciado el 9 de abril en Google Code, blog oficial de Google.

Lo dirige Thomas Breuel, profesor de Ingeniería Informática en la Technical University of Kaiserslautern (Alemania) y máximo responsable grupo de investigación Image Understanding and Pattern Recognition que depende del German Research Center for Artificial Intelligence. Cuenta con una amplia experiencia en el campo y de su currículum destaca el trabajo como investigador realizado centros de prestigio como el Xerox PARC o el IBM Almaden Research Center.

Su desarrollo, que durará al menos tres años, se basará en parte en el OCR Tesseract desarrollado por HP y que Google liberó hace unos meses, otro proyecto de Google de modelización del lenguaje y porciones de software de reconocimiento de escritura.

El equipo de desarrollo pretende que este OCR pueda trabajar con textos escritos en el mayor número de idiomas posible. El hecho de que OCRopus genere archivos HTML es una ventaja en este sentido puesto que existe la posibilidad al menos teórica de reproducir muchos idiomas de forma estándar. Además será capaz de reconocer SPAM basado en imágenes e incluso de romper algunos CAPTCHAs, aunque esto último no es una característica en la que se esté centrando el trabajo.

Más información

Página oficial de OCRopus
Announcing the OCRopus Open Source OCR System, la nota oficial de Google
Google impulsa un OCR de código abierto, discusión en Barrapunto