OCRisierung von Altgriechischen Texten

OCR = Optical character recognition steht für die Fähigkeit eines Programms, die reine Bilddatei einer Seite in les- und bearbeitbaren Text umzuwandeln. Nicht nur für diesen Blog habe ich es immer wieder mit hebräischen und altgriechischen Texten zu tun. Was Altgriechisch angeht, hier eine gute Nachricht: die Perseus Digital Library hat eine verbesserte Trainingsdatei für Tesseract veröffentlicht – ich konnte das Ergebnis bereits testen – es ist herausragend gut. Hier findet man einen Link zu detaillierten Hinweisen, wie man Tesseract einsetzen kann. Ich selbst verwende am liebsten VietOCR als grafische Benutzeroberfläche.

Inhaltsverzeichnis des Codex Leningradensis

Masoretische Beobachtungen VII

Bekanntlich kann eine digitalisierte Fassung des Codex Leningradensis legal und frei aus dem Netz heruntergeladen werden. Für weniger geübte Leser und Leserinnen habe ich hier einmal ein Inhaltsverzeichnis des Codex erstellt. „Inhaltsverzeichnis des Codex Leningradensis“ weiterlesen