OCR (optical character recognition)

Die optische Zeichenerkennung (OCR) begann mit maschinenlesbaren Schriften, die als Alternative zum Strichcode zu sehen sind. Zu diesem Zweck wurden von nationalen und internationalen Standardisierungsgremien eigene Schriften entwickelt.


OCR-A ist eine alphanumerische Schrift, die mit stark stilisierten Schrifttypen arbeitet und kaum Verwechselungsmöglichkeiten bietet. Diesen Schrifttyp findet man im Schecknummernfeld auf Schecks, er ist unter DIN 66008 genormt.

Einen breiteren Ansatz hat der SchriftsatzOCR-B, der von der European Computer Manufacturers Association (ECMA) entwickelt und national vom deutschen Institut für Normung e.V. (DIN 66009) standardisiert wurde. Er besteht aus Ziffern, sowie aus großen und kleinen Buchstaben. Diesen Schrifttyp findet man auf maschinenlesbaren Einzahlungsscheinen.

Maschinenlesbare OCR-A-Schrift

Maschinenlesbare OCR-A-Schrift

Darüber hinaus gibt es noch OCR-H, die in DIN 66225 spezifiziert ist und als Referenzschrift für handgeschriebene Blockschrift dient.

Da die optische Zeichenerkennung für viele Anwendungen interessant ist, wurde das OCR-Thema für die PC-Technik breiter gefasst und hat sich dort rasant entwickelt. Es geht bei der schriftunabhängigen Texterkennung um die intelligente Zeichenerkennung und die Handschrifterkennung.

Bei allen Verfahren der Zeichenerkennung werden die Texte über einen Scanner oder Lesestift erfasst und im Computer verarbeitet. Da der Computer einen abgetasteten Text als Grafik erkennt, ist es erforderlich, diesen in einzelne Buchstaben zu zerlegen, die anschließend in einem Textprogramm bearbeitet werden können. Dazu vergleicht das Programm die einzelnen Grafikbuchstaben mit einer vorgegebenen Buchstabenmaske und erzeugt dann einen Buchstaben, wenn eine gewisse Übereinstimmung zwischen dem abgetasteten und Maskenbuchstaben erkannt wird.

Maschinenlesbare OCR-Schrift: OCR-B

Maschinenlesbare OCR-Schrift: OCR-B

Die mittels OCR erkannten Buchstaben, Ziffern und Zeichen können so in ihrer ursprünglichen Form wieder rekonstruiert werden. OCR ist Bestandteil von PC-basierten Fax-Programmen. Trotz der ständigen Verbesserung der Erkennung bleibt je nach Qualität der Erfassung ein geringer Anteil der Texterfassung fehlerhaft.

Informationen zum Artikel
Deutsch: Optische Zeichenerkennung - OZE
Englisch: optical character recognition - OCR
Veröffentlicht: 11.05.2017
Wörter: 284
Tags: #Datenverarbeitung
Links: DGT (digit), DIN (Deutsches Institut für Normung e.V.), ECMA (European computer manufacturers association), Grafik, Handschrifterkennung