optical character recognition

OCR (Optische Zeichenerkennung )

Die optische Zeichenerkennung (OCR) begann mit maschinenlesbare Schriften, die als Alternative zum Strichcode zu sehen sind. Zu diesem Zweck wurden von nationalen und internationalen Standardisierungsgremien eigene Schriften entwickelt. OCR-A ist eine solche Schrift, die mit stark stilisierten Schrifttypen arbeitet und kaum Verwechselungsmöglichkeiten bietet. Diesen Schrifttyp findet man auf Eurocheques, er ist unter DIN 66 008 genormt.

Maschinenlesbare OCR-Schrift: OCR-A
Maschinenlesbare OCR-Schrift: OCR-A lexikon, kompendium, computer, it, elektronik

Einen breiteren Ansatz hat der Schrifttyp OCR-B, der von der ECMA entwickelt und national vom deutschen Institut für Normung e.V. (DIN 66 009) standardisiert wurde. Diesen Schrifttyp findet man auf maschinenlesbaren Einzahlungsscheinen.

Darüber hinaus gibt es noch OCR-H, die in DIN 66 225 spezifiziert ist und als Referenzschrift für handgeschriebene Blockschrift dient.

Maschinenlesbare OCR-Schrift: OCR-B
Maschinenlesbare OCR-Schrift: OCR-B lexikon, kompendium, computer, it, elektronik

Da die optische Zeichenerkennung allgemein und nicht auf maschinenlesbare Schriften beschränkt, interessante Anwendungen umfasst, wurde das OCR-Thema in der PC-Technik breiter gefasst und hat sich dort rasant entwickelt. Heute versteht man unter OCR eine Software für die schriftunabhängige Zeichenerkennung. Basis der OCR-Technik ist die Mustererkennung. Dazu werden die Texte über einen Scanner oder Lesestift erfasst und im Computer verarbeitet. Da der Computer einen abgetasteten Text als Grafik erkennt, ist es erforderlich, diesen in einzelne Buchstaben zu zerlegen, die anschließend in einem Textprogramm bearbeitet werden können. Dazu vergleicht das Programm die einzelnen Grafikbuchstaben mit einer vorgegebenen Buchstabenmaske und erzeugt dann einen Buchstaben, wenn eine gewisse Übereinstimmung zwischen dem abgetasteten und Maskenbuchstaben erkannt wird.

Die mittels OCR erkannten Buchstaben, Ziffern und Zeichen können so in ihrer ursprünglichen Form wieder rekonstruiert werden. OCR ist Bestandteil von PC-basierten Fax-Programmen. Trotz der ständigen Verbesserung der Erkennung bleiben je nach Qualität der Erfassung bis zu 10 % des Textes fehlerhaft.

Querverweise von optical character recognition nach:

Querverweise nach optical character recognition von: