claraocr.org

  • Full Screen
  • Wide Screen
  • Narrow Screen
  • increase font size
  • Default font size
  • decrease font size

Was ist OCR?

OCR wird als Texterkennung oder als auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) bezeichnet und beschreibt die automatische Texterkennung in Bildern.

Anwendungen von OCR!

Mit einer entsprechenden OCR-Software-Anwendung können Textinformationen aus Bilddateien gewonnen werden. Die erhaltenen Daten lassen sich anschliessend mit Hilfe einer Textverarbeitungssoftware editieren oder elektronisch durchsuchen.

OCR Software

Für OCR-Software gibt es ein breites Angebot an  kommerziellen und Open Source-Lösungen, die sich auf den unterschiedlichsten Plattformen (Linux, MAC, Windows) nutzen lassen.

Was ist OCR?

OCR (Optical Character Recognition) ist eine Software für automatische Texterkennung. Technisch betrachtet operiert OCR allerdings auf Basis des Mustervergleichs von einzelnen Wörtern oder Zeichen. Vor diesem Mustervergleich wird die Vorlage strukturiert und in ihre einzelnen Elemente zerlegt, damit am Ende nur noch die Einzelzeichen der Wörter vorliegen. Die entstehenden Ergebnisse können durch verschiedene Verfahren verbessert und präzisiert werden. Die optische Zeichenerkennung erfolgt in der Regel über einen Scanner oder eine Digitalkamera und verläuft nach einem 3-Stufen-Modell.

In der ersten Phase werden die Bilddateien in relevante und nicht relevante Bereiche aufgeteilt. Als wichtige Bereiche gelten Texte und Bildunterschriften wohingegen Abbildungen, Weißflächen und Linien nicht weiter beachtet werden. Anhand dieser Aufspaltung entsteht ein brauchbares Muster, das nach bestimmten Kriterien weiterverwertet wird.

Im zweiten Schritt werden die Muster mit bekannten Daten abgeglichen und ggf. korrigiert. Mit Hilfe von Datenbanken werden so Fehlerkorrekturen auf Zeichen- und Wortebene durchgeführt. Durch diese Mustererkennung wird die Fehlerquote beim Einlesen minimiert und lässt sich bei unsicherer Erkennung zudem manuell korrigiert.

Die dritte und letzte Phase ist die Codierung in das Ausgabeformat. Je nach Programm kann die Ausgabe des Textes in verschiedenen Formaten erfolgen. Die gängigsten Formate sind HTML, XML oder PDF.

Allerdings hängt die Qualität der Texterkennung von verschiedenen Faktoren ab. Entscheidend ist vor allem die Güte des Originaldokuments, bei dem es besonders auf Farbigkeit, Kontrast, Layout und Schriftart ankommt. Je besser diese Merkmale ausgeprägt sind, desto besser kann das Muster erkannt werden. Eine weitere Schnittstelle ist das Einscannen oder Abfotografieren eines Textes. Hier ist die Auflösung und die Bildqualität für den weiteren Aufbereitungsprozess sehr wichtig. Bei den einzelnen OCR-Programmen gibt es zudem Unterschiede in Umfang und Qualität der Muster-Datenbanken und Wörterbücher. Das wiederum kann es zu unterschiedlichen Ergebnissen bei der Fehlerkorrektur führen. Eine reine Mustererkennung erreicht normalerweise eine Fehlerfreiheit von bis zu 80 Prozent, während gute Programme mit leistungsfähigen Algorithmen eine Fehlerfreiheit von bis zu 99 Prozent erreichen. Der Vorteil bei diesen Algorithmen ist die Erkennung der Buchstaben als dreidimensionale Kurven mit charakteristischen Merkmalen.

 

Entwicklung der OCR-Software

Ursprünglich wurde für die automatische Texterkennung eine eigene Schriftform entworfen, um mögliche Erkennungsfehler auszuschließen. Die Schriftart wurde so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Berechnungsaufwand erkannt werden konnten. Die 1968 entstandene Schriftart OCR-A zeichnet sich besonders durch die voneinander unterschiedlichen Zeichen aus. Die Anfang der 1970er Jahre weiterentwickelte OCR-B Schrift wurde eher nicht-proportional entworfen, um eine klare Unterscheidung der Zeichen hervorzurufen. Die neueste Schrift nennt sich OCR-H und wurde handgeschriebenen Ziffern und Großbuchstaben nachempfunden.

Durch die stetige Leistungssteigerung von Computern und die damit einhergehende Verbesserung der Algorithmen kann eine OCR-Software mittlerweile auch normale Druckerschriftarten und Handschriften erkennen. Moderne Texterkennungen können zudem schon weitaus mehr als nur die einzelnen Zeichen erkennen. Mit Hilfe von Intelligent Character Recognition (ICR) werden OCR-Ergebnisse korrigiert und verbessert. So wird beispielsweise eine „8“ in ein „B“ geändert, wenn der Buchstabe in einem Kontext steht.

You are here: OCR Alles über OCR Was ist OCR