claraocr.org

  • Full Screen
  • Wide Screen
  • Narrow Screen
  • increase font size
  • Default font size
  • decrease font size

Was ist OCR?

OCR wird als Texterkennung oder als auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) bezeichnet und beschreibt die automatische Texterkennung in Bildern.

Anwendungen von OCR!

Mit einer entsprechenden OCR-Software-Anwendung können Textinformationen aus Bilddateien gewonnen werden. Die erhaltenen Daten lassen sich anschliessend mit Hilfe einer Textverarbeitungssoftware editieren oder elektronisch durchsuchen.

OCR Software

Für OCR-Software gibt es ein breites Angebot an  kommerziellen und Open Source-Lösungen, die sich auf den unterschiedlichsten Plattformen (Linux, MAC, Windows) nutzen lassen.

OCR Open Source Lösungen

OCRopus

OCRopus wird zur Texterkennung und Dokumentanalyse verwendet. Der äußerst modulare Entwurf verbindet die Analyse des Dokumentaufbaus mit der optischen Zeichenerkennung und der Nutzung von statistischen Sprachmodellen. Einzelne Komponenten können dabei durch Zusatzmodule bequem ausgetauscht werden.

Das kostenlose OCRopus eignet sich sowohl für den Heimbereich als auch für Unternehmen. Prominentester Anwender ist die Google Büchersuche. Entsprechend wird der Entwickler Thomas Breuel (Deutsches Forschungszentrum für Künstliche Intelligenz) auch von der Google Inc. unterstützt. Mittlerweile existiert die Anwendung mit einer Apache-Lizenz in der Version 2.0. Sie wird in C++ und Python mit Jam als Build-System unter Ubuntu Linux entwickelt.

Aktuell steht OCRopus nur das Tesseract von Hewlett-Packard als Erkennungsmodul zur Verfügung. Zukünftig sollen jedoch auch andere Module eingebunden werden können. Seine Analysen sind bereits besser als jene von Tesseract alleine, allerdings existiert von OCRopus bislang kein eigenes Sprachmodellsystem. Sobald eine erste offizielle Version des OpenFST-Projekts existiert, soll dieses dafür verwendet werden.

Betriebssystem: Linux | Website / Download: http://code.google.com/p/ocropus

 

GOCR

Das Texterkennungsprogramm GOCR ist auch unter dem Namen JOCR bekannt. Da es bereits ein Projekt mit dem Namen GOCR gab, mussten die Entwickler sich einen Alternativnamen aussuchen, während der ursprüngliche Name bereits in aller Munde war. Die Dopplung ist erst durch die Veröffentlichung von dem Sourcecode deutlich geworden, als dieser auf www.sourceforge.net eingetragen werden sollte.

GOCR basiert auf Kommandozeilen-Befehle. Es erschien zunächst nur unter Linux und ist daher auch in allen gängigen Linuxdistributionen enthalten. Mittlerweile ist GOCR aber auch für OS/2 und Windows anwendbar. Die dafür nötigen Binärdateien wurden von den externen Programmierern Franz Bakan und Peter B. L. Meijer veröffentlicht. Das Programm ist kostenlos.

GOCR wird beispielsweise für Scannersoftware unter KDE verwendet. Es erkennt dabei ohne den Zugriff auf eine Datenbank einige Druckerschriftarten und eindimensionale Strichcodes. Dies macht die Anwendung von GOCR zwar besonders einfach, aber im Vergleich zu kommerziellen Angeboten können diese Fähigkeiten nicht mithalten.

Betriebssystem: Linux, Windows, OS2, Mac OSX | Website / Download: http://www.gocr.de

 

CuneiForm

CuneiForm ist eine Texterkennungssoftware für gedruckte Vorlagen. Handschriften kann das Programm hingegen nicht erkennen, dafür aber Tabellenstrukturen. Das Sprachmodell ist für 20 Sprachen anwendbar und die Ergebnisse lassen sich als HTML, RTF oder ASCII-Text speichern oder direkt in Word oder Excel exportieren. Dabei werden Schriftarten und die Struktur des Dokuments nicht verändert.

CuneiForm ist erst seit Kurzem eine Open Source Software. Sie wurde von dem russischen Unternehmen Cognitive Technologies entwickelt und bedeutet soviel wie Keilschrift (aus dem englischen cuneiform = keilförmig). Erst seit April 2008 ist auch eine kommerzielle Verwendung möglich, da der Sourcecode erst seit dem verfügbar ist. Von Jussi Pakkanen existiert eine portable Version von CuneiForm.

 

Betriebssystem: Linux, BSD, Mac OS X und Windows | Website / Download: http://openocr.org

 

Tesseract

Tesseract wurde zwischen 1985 und 1995 von Hewlett-Packard entwickelt, lag jedoch nach dem Ausstieg von HP aus dem OCR-Markt für 10 Jahre brach. Nach Übergabe an das Information Science Research Institute wurde der Kontakt zum ehemaligen Entwickler Ray Smith bei Google hergestellt. Dieser brachte den Standard über Google Code auf den neuesten Stand und hat ihn mit einer Apache-Lizenz über SourceForge freigegeben.

Tesseract zeichnet sich durch seine Eigenschaft als reines Zeichenerkennungsprogramm aus, als welches es sehr gute Ergebnisse liefert. Es ist jedoch nicht zur Analyse von Seitengestaltungen oder für die Verwendung statistischer Sprachmodelle geeignet. Eine grafische Benutzeroberfläche ist ebenfalls nicht zu finden.

Tesseract dient dem Programm OCRopus als kostenloses Texterkennungsmodul und wird beispielsweise für die Google Buchsuche verwendet. Durch diese Verschmelzung kann auch die Dokumentgliederung analysiert und ein statistisches Sprachmodell angeboten werden. Neben Deutsch existieren Texterkennungsdaten auch für Englisch, Französisch, Spanisch, Italienisch und Niederländisch. Auch Fraktur-Texte können in Ansätzen bereits erkannt werden.

Betriebssystem: Windows, Linux, Mac | Website / Download: http://code.google.com/p/tesseract-ocr/

You are here: OCR OCR Software Open Source OCR