Dienstag, 06. Januar 2009, 06:05:27 Uhr, NZZ Online
(hir.) Beim Digitalisieren wertvoller Bibliotheksbestände sind Computer dem menschlichen Auge noch immer unterlegen besonders wenn das Papier vergilbt ist und der Bildkontrast für den Computer nicht ausreicht, um Buchstaben zu erkennen. Eine von der Carnegie-Mellon-Universität in Pittsburgh entwickelte Methode nutzt die Hilfe von Millionen Internetnutzern, um antiquarische Bücher und Zeitungsartikel in digitale Textdateien zu transkribieren. Die Helfer wissen dabei zumeist noch nicht einmal etwas von ihrer Mitwirkung an dem Digitalisierungsprojekt («Science» online vom 14. 8. 2008).
Der Trick beruht auf einem sogenannten Captcha-Test (Captcha: Completely Automated Public Turing test to tell Computers and Humans Apart), mit dem Websites die Identität ihrer Besucher kontrollieren. Captchas sind verzerrt dargestellte Zeichenfolgen, die von Menschen, aber nicht von Computern erkannt werden können. Bevor man Zugang zu seinem E-Mail-Postfach erhält, einen Leserbrief verfassen oder ein Konzertticket kaufen kann, wird man daher immer öfter mit einem Captcha konfrontiert, den man in Klarschrift übersetzen muss. So wird verhindert, dass Websites durch automatisierte Computerangriffe missbraucht werden.
Das Projekt reCaptcha der Carnegie-Mellon-Universität beliefert Website-Betreiber mit solchen verzerrten Zeichenfolgen, die aus eingescannten Büchern stammen. Die Benutzer der jeweiligen Website transkribieren diese Zeichen, um Zugang zu erhalten. Der Website-Betreiber schickt die Transkription der Zeichenfolge zurück an reCaptcha. So entsteht nach und nach eine vollständige digitale Version des eingescannten Werkes.
Leser-Kommentare: 1 Beiträge