Inhalte erstellen - advanced

OCR/Scannen

Von: Eva Obermüller - 25.01.2007
Text, der nicht in digitaler Form vorliegt, muss entweder abgetippt oder aber auch gescannt werden. Verwendet man dabei Programme mit automatischer Texterkennung, können die Dateien einfach weiterverarbeitet werden.

Wenn Text nicht bereits in digitaler Form vorliegt, also in einer vom Computer lesbaren Datei (die häufigsten Endungen von Textdateien sind .doc, .txt, .rtf, .mcw, .ans oder .asc), muss er entweder abgetippt oder aber gescannt werden.

Für die Digitalisierung von mit Schreibmaschine geschriebenen Vorlagen oder Kopien können sogenannte OCR-Programme („Optical Character Recognition“) zur Texterkennung verwendet werden. Die Texterkennung hat den Vorteil, dass eine Textdatei entsteht, die mit einem Textverarbeitungsprogramm wie z. B. Microsoft Word weiterverarbeitet werden kann und die üblichen Vorteile von digitalem Text bietet (z. B. Durchsuchbarkeit).

Voraussetzung ist eine gute Vorlage: OCR-Programme erkennen die Einzelzeichen auf einem gescannten Schriftgut über ein Mustervergleichsverfahren. Voraussetzung hierfür ist, dass über Bildanalyseverfahren das Schriftgut bereits derart 'zerlegt' wurde, dass dem OCR-Programmteil bereits nur diejenigen Einzelteile zur Erkennung vorgelegt werden, die einen einzelnen Buchstaben darstellen könnten. Werden der OCR z.B. optisch zusammenklebende Buchstaben geliefert, schlägt die Erkennung fehl. Die OCR-Erkennung liefert keine absoluten Ergebnisse, sondern ermittelt Wahrscheinlichkeiten für bestimmte Buchstaben. Das Lektorat der OCR-bearbeiteten Texte ist also unbedingt zu empfehlen.

Ist die Vorlage zu schlecht für eine Texterkennung, kann sie als Grafik digitalisiert werden. Ungünstig ist dabei jedoch, dass der Text nicht weiterverarbeitet werden kann und die entstehende Datei trotz schlechter Darstellungsqualität recht groß sein kann.

Einstellungen beim Scannen allgemein

  • Farbtiefe: Je mehr Farben dargestellt werden können, desto besser ist einerseits die Darstellungsqualität, andererseits steigt das benötigte Speichervolumen. Für eine einfache Grafik können zwei Farben ausreichen: Schwarz und Weiß (1 Bit). Mehr Differenzierungen bieten Graustufen, hier kann in der Regel zwischen 64 (6 Bit) und 256 (8 Bit) Abstufungen gewählt werden. Die Farbtiefe für farbige Abbildungen beginnt meist bei 256 Farben (8 Bit), dies kann beispielsweise für ein Comic ausreichen, die getreue Abbildung eines Fotos erfordert dagegen mehr Farben: „High Color“ (16 Bit, 65536 Farben) oder „True Color“ (24 Bit, 16,7 Millionen Farben).
  • Auflösung: Eine wichtige Einstellung ist die Auflösung, die in dpi („dots per inch“) oder ppi („pixel per inch“) angegeben wird. Je höher die Auflösung, desto besser ist die Qualität der gescannten Abbildung, desto höher ist jedoch das Speichervolumen der entstehenden Datei. Als Faustregel gilt: so hoch wie nötig, so niedrig wie möglich.

Die richtige Einstellung der Farbtiefe und der Auflösung hängt von der Art der Vorlage und vom Verwendungszweck der entstehenden Datei ab.

Einstellungen beim Scannen von Texten mit Texterkennung

  • Farbtiefe: Für die Texterkennung empfehlen wir die Einstellung Graustufen (8 bit).
  • Auflösung: Um einen Text per Texterkennung zu scannen ist je nach Vorlage eine Auflösung zwischen 300 und 600 dpi notwendig.

Einsatz in der technologisch unterstützten Lehre

Verwendung von nicht elektronisch vorhandenen Textdokumenten für die Lehre.

Tipps und Tricks

  • Projekt ELibrary Austria: Hier kann man nachschauen, ob Bücher, aber auch Diplom- und Doktorarbeiten bereits digitalisiert sind. http://www.literature.at/elib/www/wiki/index.php/ELibraryAustria:Portal
  • Bei größeren Datenmengen empfiehlt sich Outsourcing. Es gibt günstige Anbieter im In- und Ausland.
  • Achtung bei downloadbaren Dokumenten: Eingescannte Dateien werden immer sehr groß!

Bezugsquellen

In der Regel gehört Software zur Texterkennung zum Lieferumfang moderner Scanner. Eine Produktübersicht aktueller Texterkennungsprogramme finden Sie bei softguide.de. 

Literatur

Links

http://www.literature.at/elib/www/wiki/index.php/ELibraryAustria:Portal