Werbung

Das Herausziehen von Text aus Bildern war dank der OCR-Technologie (Optical Character Recognition) noch nie so einfach wie heute.

Mit OCR können wir alle möglichen nützlichen Dinge tun, z. B. mithilfe von Textabfragen nach Bildern suchen, Dokumente reproduzieren, ohne sie von Hand zu tippen, und sogar Konvertieren von handgeschriebenem Text in digitalen Text So konvertieren Sie ein Bild mit Handschrift mithilfe von OCR in TextMüssen Sie handschriftliche Notizen zur Bearbeitung digitalisieren oder für später speichern? Hier sind die besten OCR-Tools zum Konvertieren von Handschrift in Text. Weiterlesen .

Aber was ist optische Zeichenerkennung? Wie funktioniert es eigentlich? Es mag Ihnen wie schwarze Magie erscheinen, aber am Ende dieses Artikels haben Sie ein solides Verständnis dafür, wie Computer Buchstaben und Wörter erkennen können.

Funktionsweise der optischen Zeichenerkennung

Um zu verstehen, wie Text aus einem Bild extrahiert wird, müssen wir zunächst verstehen, was Bilder sind und wie sie auf Computern gespeichert werden.

instagram viewer

EIN Pixel ist ein einzelner Punkt einer bestimmten Farbe. Ein Bild ist im Wesentlichen eine Sammlung von Pixeln. Je mehr Pixel ein Bild enthält, desto höher ist seine Auflösung. Ein Computer weiß nicht, dass ein Bild eines Wegweisers wirklich ein Wegweiser ist. Er weiß nur, dass das erste Pixel diese Farbe ist, das nächste Pixel diese Farbe und zeigt alle Pixel an, die Sie sehen können.

Dies bedeutet, dass sich Text und Nicht-Text nicht von einem Computer unterscheiden. Deshalb ist die optische Zeichenerkennung so schwierig. In diesem Sinne funktioniert es folgendermaßen.

Schritt 1: Vorverarbeitung des Bildes

Bevor Text abgerufen werden kann, muss das Bild auf bestimmte Weise massiert werden, um die Extraktion zu vereinfachen und die Wahrscheinlichkeit eines Erfolgs zu erhöhen. Dies wird als Vorverarbeitung bezeichnet, und verschiedene Softwarelösungen verwenden unterschiedliche Kombinationen von Techniken.

Die gebräuchlichsten Vorverarbeitungstechniken umfassen:

Binarisierung
Jedes einzelne Pixel im Bild wird entweder in Schwarz oder Weiß konvertiert. Ziel ist es, klar zu machen, welche Pixel zum Text und welche zum Hintergrund gehören, was den eigentlichen OCR-Prozess beschleunigt.

Binarisierung zur optischen Zeichenerkennung

Deskew
Da Dokumente selten mit perfekter Ausrichtung gescannt werden, können Zeichen schräg oder sogar verkehrt herum angezeigt werden. Ziel ist es, horizontale Textzeilen zu identifizieren und das Bild dann so zu drehen, dass diese Linien tatsächlich horizontal sind.

Despeckle
Unabhängig davon, ob das Bild binärisiert wurde oder nicht, kann es zu Rauschen kommen, das die Identifizierung von Zeichen beeinträchtigen kann. Despeckling beseitigt dieses Rauschen und versucht, das Bild zu glätten.

Leitungsentfernung
Identifiziert alle Linien und Markierungen, bei denen es sich wahrscheinlich nicht um Zeichen handelt, und entfernt sie dann, damit der eigentliche OCR-Prozess nicht verwechselt wird. Dies ist besonders wichtig, wenn Sie Dokumente mit Tabellen und Feldern scannen.

Zoneneinteilung
Trennt das Bild in verschiedene Textblöcke, z. B. zum Identifizieren von Spalten in mehrspaltigen Dokumenten.

Zoning für die optische Zeichenerkennung
Bildnachweis: WayneRay /Wikimedia

Schritt 2: Verarbeiten des Bildes

Das Wichtigste zuerst: Der OCR-Prozess versucht, die Grundlinie für jede Textzeile im Bild festzulegen (oder wenn sie in der Vorverarbeitung in Zonen unterteilt wurde, durchläuft sie jede Zone einzeln). Jede identifizierte Zeichenzeile wird einzeln behandelt.

Für jede Zeichenzeile identifiziert die OCR-Software den Abstand zwischen Zeichen, indem sie nach vertikalen Zeilen von Nicht-Text-Pixeln sucht (was bei korrekter Binärisierung offensichtlich sein sollte). Jeder Pixelblock zwischen diesen Nicht-Textzeilen wird als "Token" markiert, das ein Zeichen darstellt. Daher wird dieser Schritt aufgerufen Tokenisierung.

Bildverarbeitung zur optischen Zeichenerkennung

Sobald alle potenziellen Zeichen im Bild mit einem Token versehen sind, kann die OCR-Software zwei verschiedene Techniken verwenden, um zu identifizieren, welche Zeichen diese Token tatsächlich sind:

Mustererkennung
Jedes Token wird Pixel für Pixel mit einem ganzen Satz bekannter Glyphen verglichen - einschließlich Zahlen, Interpunktion und anderen speziellen Symbolen - und die engste Übereinstimmung wird ausgewählt. Diese Technik wird auch als Matrixanpassung bezeichnet.

Hier gibt es mehrere Nachteile. Erstens müssen die Token und Glyphen eine ähnliche Größe haben, sonst stimmt keiner von ihnen überein. Zweitens müssen die Token eine ähnliche Schriftart wie die Glyphen haben, was eine Handschrift ausschließt. Wenn jedoch die Schriftart des Tokens bekannt ist, kann die Mustererkennung schnell und genau sein.

Feature-Extraktion
Jedes Token wird mit verschiedenen Regeln verglichen, die beschreiben, um welche Art von Zeichen es sich handelt. Zum Beispiel sind zwei gleich hohe vertikale Linien, die durch eine einzelne horizontale Linie verbunden sind, wahrscheinlich ein Großbuchstabe H.

Diese Technik ist nützlich, da sie nicht auf bestimmte Schriftarten oder Größen beschränkt ist. Es kann auch nuancierter sein, wenn die subtilen Unterschiede zwischen einem Großbuchstaben I, Kleinbuchstaben L und der Zahl 1 erkannt werden. Der Nachteil? Das Programmieren der Regeln ist viel komplexer als das einfache Vergleichen der Pixel in einem Token mit den Pixeln in einem Glyphen.

Schritt 3: Nachbearbeitung des Bildes

Sobald alle Token-Übereinstimmungen abgeschlossen sind, kann die OCR-Software sie einfach einen Tag lang aufrufen und Ihnen die Ergebnisse präsentieren. Aber normalerweise muss ein bisschen mehr Fudging gemacht werden, um sicherzustellen, dass Sie bei Kauderwelschergebnissen nicht mit den Augen rollen.

Lexikalische Einschränkung
Alle Wörter werden mit einem Lexikon genehmigter Wörter verglichen, und alle Wörter, die nicht übereinstimmen, werden durch das am besten passende Wort ersetzt. Ein Wörterbuch ist ein Beispiel für ein Lexikon. Dies kann helfen, Wörter mit fehlerhaften Zeichen wie „Dorn“ anstelle von „Dorn“ zu korrigieren.

Anwendungsspezifische Optimierungen
Wenn OCR in Nischeneinstellungen verwendet wird, z. B. für medizinische oder rechtliche Dokumente, kann eine spezielle Art von OCR verwendet werden, die speziell für diese Einstellung entwickelt wurde. In diesen Fällen sucht die OCR-Software möglicherweise nach mathematischen Gleichungen, branchenspezifischen Begriffen usw.

Natürliche Sprache
Diese fortschrittliche Technik korrigiert Sätze mithilfe eines Sprachmodells, das beschreibt, wie wahrscheinlich es ist, dass auf bestimmte Wörter andere Wörter folgen. Es ähnelt der Technologie, die vorhersagt, welches Wort Sie als Nächstes auf einer mobilen Tastatur eingeben möchten.

Wenn dies gut gemacht wird, kann dies zu bemerkenswert lesbarem Text führen.

Empfohlene optische Zeichenerkennungswerkzeuge

Nachdem Sie nun wissen, wie OCR funktioniert, sollte es leicht zu erkennen sein, dass nicht alle OCR-Tools gleich sind. Die Genauigkeit Ihrer Ergebnisse hängt stark davon ab, wie gut die Software die verschiedenen in diesem Artikel beschriebenen OCR-Techniken implementiert.

Wir empfehlen OneNote sehr, was nur ein Grund ist warum es Evernote für Notizen schlägt Evernote vs. OneNote: Welche Notiz-App passt zu Ihnen?Evernote und OneNote sind erstaunliche Notizen-Apps. Es ist schwer, zwischen den beiden zu wählen. Wir haben alles von der Benutzeroberfläche bis zur Notizorganisation verglichen, um Ihnen bei der Auswahl zu helfen. Was funktioniert am besten für Sie? Weiterlesen . Wenn Sie bereit sind, für eine Premium-Lösung zu bezahlen, ziehen Sie OmniPage in Betracht. Sehen Sie unsere Vergleich von OneNote vs. OmniPage für OCR Kostenlos vs. Bezahlte OCR-Software: Microsoft OneNote und Nuance OmniPage im VergleichMit der OCR-Scanner-Software können Sie Text in Bildern oder PDFs in bearbeitbare Textdokumente konvertieren. Ist ein kostenloses OCR-Tool wie OneNote gut genug? Lass es uns herausfinden! Weiterlesen . Bei mobilen Dokumenten sollten Sie diese überprüfen OCR-Apps für Android-Geräte 6 besten Android OCR Apps zum Extrahieren von Text aus BildernMüssen Sie gedruckten Text digitalisieren, damit Sie eine weiche Kopie davon verwalten können? In diesem Fall benötigen Sie lediglich ein OCR-Tool (Optical Character Recognition). Weiterlesen .

Wie benutzt man OCR? Haben Sie Lieblings-OCR-Tools, die wir nicht erwähnt haben? Lass es uns in den Kommentaren unten wissen!

Joel Lee hat einen B.S. in Informatik und über sechs Jahre Berufserfahrung im Schreiben. Er ist Chefredakteur von MakeUseOf.