OCR = Optical character recognition steht für die Fähigkeit eines Programms, die reine Bilddatei einer Seite in les- und bearbeitbaren Text umzuwandeln. Nicht nur für diesen Blog habe ich es immer wieder mit hebräischen und altgriechischen Texten zu tun. Was Altgriechisch angeht, hier eine gute Nachricht: die Perseus Digital Library hat eine verbesserte Trainingsdatei für Tesseract veröffentlicht – ich konnte das Ergebnis bereits testen – es ist herausragend gut. Hier findet man einen Link zu detaillierten Hinweisen, wie man Tesseract einsetzen kann. Ich selbst verwende am liebsten VietOCR als grafische Benutzeroberfläche.