Täuscht mich der Eindruck? Ich beobachte im Zusammenhang mit Bibel-Software ein ziemliches Artensterben, leider auch in der Open Source Welt.
Kategorie: Computer
OCRisierung von Altgriechischen Texten
OCR = Optical character recognition steht für die Fähigkeit eines Programms, die reine Bilddatei einer Seite in les- und bearbeitbaren Text umzuwandeln. Nicht nur für diesen Blog habe ich es immer wieder mit hebräischen und altgriechischen Texten zu tun. Was Altgriechisch angeht, hier eine gute Nachricht: die Perseus Digital Library hat eine verbesserte Trainingsdatei für Tesseract veröffentlicht – ich konnte das Ergebnis bereits testen – es ist herausragend gut. Hier findet man einen Link zu detaillierten Hinweisen, wie man Tesseract einsetzen kann. Ich selbst verwende am liebsten VietOCR als grafische Benutzeroberfläche.