OCRopus
OCRopus wird zur Texterkennung und Dokumentanalyse verwendet. Der äußerst modulare Entwurf verbindet die Analyse des Dokumentaufbaus mit der optischen Zeichenerkennung und der Nutzung von statistischen Sprachmodellen. Einzelne Komponenten können dabei durch Zusatzmodule bequem ausgetauscht werden.
Das kostenlose OCRopus eignet sich sowohl für den Heimbereich als auch für Unternehmen. Prominentester Anwender ist die Google Büchersuche. Entsprechend wird der Entwickler Thomas Breuel (Deutsches Forschungszentrum für Künstliche Intelligenz) auch von der Google Inc. unterstützt. Mittlerweile existiert die Anwendung mit einer Apache-Lizenz in der Version 2.0. Sie wird in C++ und Python mit Jam als Build-System unter Ubuntu Linux entwickelt.
Aktuell steht OCRopus nur das Tesseract von Hewlett-Packard als Erkennungsmodul zur Verfügung. Zukünftig sollen jedoch auch andere Module eingebunden werden können. Seine Analysen sind bereits besser als jene von Tesseract alleine, allerdings existiert von OCRopus bislang kein eigenes Sprachmodellsystem. Sobald eine erste offizielle Version des OpenFST-Projekts existiert, soll dieses dafür verwendet werden.
Betriebssystem: Linux | Website / Download: http://code.google.com/p/ocropus
GOCR
Das Texterkennungsprogramm GOCR ist auch unter dem Namen JOCR bekannt. Da es bereits ein Projekt mit dem Namen GOCR gab, mussten die Entwickler sich einen Alternativnamen aussuchen, während der ursprüngliche Name bereits in aller Munde war. Die Dopplung ist erst durch die Veröffentlichung von dem Sourcecode deutlich geworden, als dieser auf www.sourceforge.net eingetragen werden sollte.
GOCR basiert auf Kommandozeilen-Befehle. Es erschien zunächst nur unter Linux und ist daher auch in allen gängigen Linuxdistributionen enthalten. Mittlerweile ist GOCR aber auch für OS/2 und Windows anwendbar. Die dafür nötigen Binärdateien wurden von den externen Programmierern Franz Bakan und Peter B. L. Meijer veröffentlicht. Das Programm ist kostenlos.
GOCR wird beispielsweise für Scannersoftware unter KDE verwendet. Es erkennt dabei ohne den Zugriff auf eine Datenbank einige Druckerschriftarten und eindimensionale Strichcodes. Dies macht die Anwendung von GOCR zwar besonders einfach, aber im Vergleich zu kommerziellen Angeboten können diese Fähigkeiten nicht mithalten.
Betriebssystem: Linux, Windows, OS2, Mac OSX | Website / Download: http://www.gocr.de
CuneiForm
CuneiForm ist eine Texterkennungssoftware für gedruckte Vorlagen. Handschriften kann das Programm hingegen nicht erkennen, dafür aber Tabellenstrukturen. Das Sprachmodell ist für 20 Sprachen anwendbar und die Ergebnisse lassen sich als HTML, RTF oder ASCII-Text speichern oder direkt in Word oder Excel exportieren. Dabei werden Schriftarten und die Struktur des Dokuments nicht verändert.
CuneiForm ist erst seit Kurzem eine Open Source Software. Sie wurde von dem russischen Unternehmen Cognitive Technologies entwickelt und bedeutet soviel wie Keilschrift (aus dem englischen cuneiform = keilförmig). Erst seit April 2008 ist auch eine kommerzielle Verwendung möglich, da der Sourcecode erst seit dem verfügbar ist. Von Jussi Pakkanen existiert eine portable Version von CuneiForm.
Betriebssystem: Linux, BSD, Mac OS X und Windows | Website / Download: http://openocr.org
Tesseract
Tesseract wurde zwischen 1985 und 1995 von Hewlett-Packard entwickelt, lag jedoch nach dem Ausstieg von HP aus dem OCR-Markt für 10 Jahre brach. Nach Übergabe an das Information Science Research Institute wurde der Kontakt zum ehemaligen Entwickler Ray Smith bei Google hergestellt. Dieser brachte den Standard über Google Code auf den neuesten Stand und hat ihn mit einer Apache-Lizenz über SourceForge freigegeben.
Tesseract zeichnet sich durch seine Eigenschaft als reines Zeichenerkennungsprogramm aus, als welches es sehr gute Ergebnisse liefert. Es ist jedoch nicht zur Analyse von Seitengestaltungen oder für die Verwendung statistischer Sprachmodelle geeignet. Eine grafische Benutzeroberfläche ist ebenfalls nicht zu finden.
Tesseract dient dem Programm OCRopus als kostenloses Texterkennungsmodul und wird beispielsweise für die Google Buchsuche verwendet. Durch diese Verschmelzung kann auch die Dokumentgliederung analysiert und ein statistisches Sprachmodell angeboten werden. Neben Deutsch existieren Texterkennungsdaten auch für Englisch, Französisch, Spanisch, Italienisch und Niederländisch. Auch Fraktur-Texte können in Ansätzen bereits erkannt werden.
Betriebssystem: Windows, Linux, Mac | Website / Download: http://code.google.com/p/tesseract-ocr/









Mit einer entsprechenden OCR-Software-