OCR (optical character recognition)
OZE (Optische Zeichenerkennung)
Die optische Zeichenerkennung (OCR) begann mit maschinenlesbaren Schriften, die als Alternative zum Strichcode zu sehen sind. Zu diesem Zweck wurden von nationalen und internationalen Standardisierungsgremien eigene Schriften entwickelt. OCR-A ist eine alphanumerische Schrift, die mit stark stilisierten Schrifttypen arbeitet und kaum Verwechselungsmöglichkeiten bietet. Diesen Schrifttyp findet man im Schecknummernfeld auf Schecks, er ist unter DIN 66008 genormt.
![]() |
Maschinenlesbare
OCR-A-Schrift ![]() |
Einen breiteren Ansatz hat der Schriftsatz OCR-B, der von der ECMA entwickelt und national vom deutschen Institut für Normung e.V. (DIN 66 009) standardisiert wurde. Er besteht aus Ziffern, sowie aus großen und kleinen Buchstaben. Diesen Schrifttyp findet man auf maschinenlesbaren Einzahlungsscheinen.
Darüber hinaus gibt es noch OCR-H, die in DIN 66 225 spezifiziert ist und als Referenzschrift für handgeschriebene Blockschrift dient.
![]() |
Maschinenlesbare OCR-Schrift: OCR-B ![]() |
Da die optische Zeichenerkennung für viele Anwendungen interessant ist, wurde das OCR-Thema für die PC-Technik breiter gefasst und hat sich dort rasant entwickelt. Heute versteht man unter OCR eine Software für die schriftunabhängige Texterkennung. Basis der OCR-Technik ist die Mustererkennung. Dazu werden die Texte über einen Scanner oder Lesestift erfasst und im Computer verarbeitet. Da der Computer einen abgetasteten Text als Grafik erkennt, ist es erforderlich, diesen in einzelne Buchstaben zu zerlegen, die anschließend in einem Textprogramm bearbeitet werden können. Dazu vergleicht das Programm die einzelnen Grafikbuchstaben mit einer vorgegebenen Buchstabenmaske und erzeugt dann einen Buchstaben, wenn eine gewisse Übereinstimmung zwischen dem abgetasteten und Maskenbuchstaben erkannt wird.
Die mittels OCR erkannten Buchstaben, Ziffern und Zeichen können so in ihrer ursprünglichen Form wieder rekonstruiert werden. OCR ist Bestandteil von PC-basierten Fax-Programmen. Trotz der ständigen Verbesserung der Erkennung bleiben je nach Qualität der Erfassung bis zu 10 % des Textes fehlerhaft.





