Google anuncia l’inici del projecte OCRopus, un OCR lliure d’alta qualitat

Apr 13, 2007

Álvaro Martínez Majado

Segons Thomas Breuel, “l’objectiu de és avançar en l’estat de la tècnica del reconeixement òptic i tecnologies relacionades, i proveir un OCR d’alta qualitat adequat per a la conversió de documents, biblioteques electròniques, usuaris amb dificultats de visió, anàlisi de documents històrics i ús general”.

Álvaro Martínez Majado – OCRopus, nom que rep el projecte, va ser anunciat el 9 d’abril en el Google Code, blog oficial de Google.

El dirigeix Thomas Breuel, professor d’Enginyeria Informàtica en la Technical University of Kaiserslautern (Alemanya) i màxim responsable grup d’investigació Image Understanding and Pattern Recognition que depèn del German Research Center for Artificial Intelligence. Compta amb una àmplia experiència en el camp i del seu currículum destaca el treball com investigador realitzat centres de prestigi com el Xerox PARC o l’IBM Almaden Research Center.

El seu desenvolupament, que durarà almenys tres anys, es basarà en part en l’OCR Tesseract desenvolupat per HP i que Google va alliberar fa uns mesos, un altre projecte de Google de modelització del llenguatge i porcions de programari de reconeixement d’escriptura.

L’equip de desenvolupament pretén que aquest OCR pugui treballar amb textos escrits en el major nombre d’idiomes possible. El fet que OCRopus generi arxius HTML és un avantatge en aquest sentit ja que existeix la possibilitat almenys teòrica de reproduir molts idiomes de forma estàndard. A més serà capaç de reconèixer SPAM basat en imatges i fins i tot de trencar alguns CAPTCHAs, encara que això últim no és una característica en la qual s’estigui centrant el treball.

Més informació

Pàgina oficial d’OCRopus
Announcing the OCRopus Open Source OCR System, la nota oficial de Google
Google impulsa un OCR de codi obert, discussió a Barrapunto

Aquest text es pot distribuir segons l’establert en la llicència Creative Commons Reconeixement 2.5 Espanya