Bei der Texterkennung (OCR) geht es darum, dass eine Software Dokumente, die der Anwender eingescannt oder abfotografiert hat, in editierbaren Text umwandelt.
Das klingt leichter, als es ist. Denn für den PC ist solch ein Scan nicht anderes als eine Bilddatei mit schwarzen, weißen und farbigen Punkten. Daher benötigt man eine OCR-Software, die darin den Text erkennt.
Einfache OCR-Programme arbeiten nur mit einer Mustererkennung. In der gescannten Abbildung trennen sie zunächst Objekte voneinander, die sie für Buchstaben halten und berechnen bestimmte Parameter dieser Schriftzeichen, beispielsweise die diagonal gemessene Dichte schwarzer Punkte. Sie vergleichen die berechneten Parameter mit denen von Musterschriftzeichen in ihrer Datenbank und wählen die passendste Entsprechung. Dieses Verfahren ist recht fehleranfällig.
Weiterentwickelte OCR-Software versucht hingegen die natürlichen und intelligenten Erkennungsmechanismen des Menschen nachzuahmen. Dabei kommen drei Prinzipien zum Tragen. Das Prinzip der Einheit besagt, dass man Objekte nicht nur einzeln, sondern mitsamt ihrer Umgebung betrachten muss, um sie korrekt zu erfassen.
Beim Prinzip der Zweckdienlichkeit geht es darum, verschiedene Hypothesen aufzustellen, worum es sich bei einem Objekt handeln könnte. Unter Zuhilfenahme von charakteristischen Merkmalen in der Umgebung lässt sich dann die wahrscheinlichste Vermutung finden. Die Fähigkeit, aus Erfahrungen lernen zu können, beschreibt das Prinzip der Anpassungsfähigkeit.
Diese Prinzipien macht sich zum Beispiel die OCR-Software
Abbyy Finereader 9.0 zunutze. Sie sucht den Scan nach Elementen ab, die von ihrer Struktur und Annordnung her wie Text aussehen (Prinzip der Einheit). Bei der Buchstabenerkennung durchsucht Finereader nicht tausende von Mustern nach der passenden Entsprechung, sondern stellt mehrere Hypothesen über sie auf und verifiziert jede von ihnen.
Hält das Programm das untersuchte Objekt für den Buchstaben A, wird es gezielt nach unverwechselbaren Eigenschaften suchen, die auf der Darstellung vorhanden sein müssen, wenn es sich wirklich um das A handelt (Prinzip der Zweckdienlichkeit). Daraufhin verifiziert Finereader seine Hypothese.
Das Programm greift dabei auf seine Erfahrung zurück, die es mit dem gleichen Buchstaben in anderen Abschnitten des Dokuments gemacht hat - was dem Prinzip der Anpassungsfähigkeit entspricht. Wenn der erste Erkennungsvorgang unbefriedigende Ergebnisse geliefert hat, versucht es Finereader ein zweites Mal und greift auf die Erfahrungen des ersten Durchlaufs zurück.
Lesen Sie auf der nächsten Seite:
Lesen Sie in diesem Beitrag