OCRisierung von Altgriechischen Texten

OCR = Optical character recognition steht für die Fähigkeit eines Programms, die reine Bilddatei einer Seite in les- und bearbeitbaren Text umzuwandeln. Nicht nur für diesen Blog habe ich es immer wieder mit hebräischen und altgriechischen Texten zu tun. Was Altgriechisch angeht, hier eine gute Nachricht: die Perseus Digital Library hat eine verbesserte Trainingsdatei für Tesseract veröffentlicht – ich konnte das Ergebnis bereits testen – es ist herausragend gut. Hier findet man einen Link zu detaillierten Hinweisen, wie man Tesseract einsetzen kann. Ich selbst verwende am liebsten VietOCR als grafische Benutzeroberfläche.

Schreibe einen Kommentar

Schreibe einen Kommentar Antwort abbrechen