Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Ein Algorithmus holt die Werke bemerkenswerter Autoren der Geschichte aus dem Grab

von Katharina Brunner
Algorithmus schlägt vor: Diese gemeinfreien Werke sollten digitalisiert werden.

Am 1. Januar 2015 ist der alljährliche „Public Domain Day“. Die Werke von 1280 Autoren werden dann in Europa gemeinfrei, da in der Europäischen Union und in den USA die Regelschutzfrist 70 Jahre nach Ableben eines Autoren abläuft und die hinterlassenen Werke so für die Öffentlichkeit digitalisiert werden können. Doch welche dieser enorm vielen Bücher sollen beispielsweise beim Project Gutenberg als lizenzfreie E-Books angeboten werden? Ein Algorithmus kombiniert eine Liste von gemeinfreien Büchern mit Wikipedia und erstellt so ein Ranking mit den Werken, die für die Allgemeinheit am wertvollsten sind.

Auf Platz eins bis drei liegen die Autoren Arthur Quiller-Couch, Alfred W. Pollard und Ethel Lina White.

Allen B. Riddell hat den Algorithmus entwickelt, der die „Autoren bemerkenswerter Arbeiten im Laufe der Geschichte identifiziert“.  Das Ergebnis findet sich in einer Rangliste, der „Public Domain Rank“. Auf Platz eins bis drei für den 1. Januar 2015 liegen Arthur Quiller-Couch, Alfred W. Pollard und Ethel Lina White.
 
Der Prozess der Digitalisierung ist jedoch aufwendig: Ab welchem Zeitpunkt lohnt sich die Arbeit der Freiwilligen, die die Bücher eines neu frei gewordenen Autoren scannen, Texte manuell eintragen oder korrekturlesen? Riddells Algorithmus hilft bei dieser Entscheidung. Er wertet die Wikipedia-Artikel von bereits verarbeiteten Autoren aus und schließt aus diesen Daten der Vergangenheit auf die Zukunft: „Existiert bereits eine digitale Ausgabe, ist das ein starkes Signal dafür, dass die Arbeit über eine Anhängerschaft verfügt“, so Riddell. Er kombiniert eine Liste von über einer Million veröffentlichter freier Bücher bei „The Online Books Page“ der University of Pennsylvania mit strukturierten und unstruktuierten Daten aus der Wikipedia. Je mehr die Wikipedia-Seiten von Künstlern, deren Bücher bereits digitalisiert sind, den Seiten von zukünftig gemeinfreien Autoren ähneln, desto besser. In den Vergleich fließen Metadaten ein, die Auskunft geben auf Fragen wie: Wie lang ist ein Artikel? Wann wurde er erstellt und zuletzt verändert? Wie oft wird der Artikel gelesen?

Die Nachteile von Wikipedia beeinflussen auch den Algorithmus


Perfekt ist der Algorithmus nicht: Durch die Abhängigkeit von der Wikipedia beeinflussen deren Nachteile auch die Rangliste. Beispielsweise sind Artikel von Frauen signifikant kürzer und haben so negativen Einfluss auf den Ranking-Platz. Bisher spielen auch nur alle englischsprachigen Wikipedia-Artikel zu Autoren und Autorinnen eine Rolle. Dennoch betont Riddell, dass sein Ranking dem bereits bestehender, nicht-automatisierter Ranglisten ähnlich ist: Den Büchern, die vom Verlag Modern Library als Klassiker bezeichnet und gedruckt werden, würde auch sein Algorithmus einen hohen Rang zuweisen. Für das Jahr 2016 tummeln sich im „Public Domain Rank“ auf den vorderen Plätzen jedoch Namen, die nicht unbedingt in ihrer Funktion als guter Autor bekannt geworden sind: Benito Mussolini, Josef Goebbels und Adolf Hitler.

GQ Empfiehlt