Computerprogramme als Journalisten:Vollautomatische Berichterstattung
Lesezeit: 5 Min.
Computerprogramme analysieren neuerdings Baseball- und Football-Spiele, Börsentrends und Millionen Twitter-Nachrichten und fabrizieren daraus Texte. Sie übernehmen somit die Arbeit von Journalisten. Doch können sie deren Leistung auch ersetzen?
Christoph Behrens
"Für die Angels sah es düster aus, als sie im neunten Inning zwei Runs zurücklagen. Doch dank der Einzelleistung Vladimir Guerreros erholte sich Los Angeles und gewann sieben zu sechs gegen die Boston Red Sox. 'Ja, das war sicher der wichtigste Schlag meiner Karriere', sagte Guerrero, 'ich widme ihn einem früheren Mitspieler'. . ."
Diesen Bericht über ein amerikanisches Baseball-Spiel hat kein Mensch geschrieben. Ein Computer hat das Spiel analysiert, Fouls, Treffer und das Endergebnis gescannt, Vladimir Guerrero als herausragenden Spieler identifiziert und sogar online ein Zitat von ihm herausgesucht. Und er hat anschließend in rund zwei Sekunden einen Artikel geschrieben, für den ein Mensch deutlich länger gebraucht hätte.
Stellen Sie sich vor, man könnte einen Knopf drücken und damit auf magische Weise eine Geschichte über ein Baseball-Spiel erzeugen", heißt es auf der Website der Northwestern University aus Chicago. "Genau das tut das Stats Monkey System." Aus rohen, von Menschen vorgefertigten Textbausteinen destilliert das System einen dynamischen Text, der das Baseballspiel beschreibt.
War es ein Kantersieg? Lag eine Mannschaft zuerst vorne, verlor dann aber die Nerven? Oder ging es ständig zwischen beiden Teams hin und her? All das entscheidet die Software selbstständig in Sekundenbruchteilen und strickt daraus ihre Erzählung.
Stats Monkey entstand 2009 aus einer Spielerei des Informatik-Professors Larry Birnbaum. Er setzte Informatik-Studenten und Journalistenschüler zusammen in eine Klasse, und gab ihnen den Auftrag, eine Software zu schreiben, die rohe Daten in eine Erzählung verwandeln kann. Die Journalisten lieferten die Textbausteine, die Techniker puzzelten sie zusammen.
Einer der Studenten schrieb für die Lokalzeitung über College-Baseball, er lieferte die Buchstaben-Ursuppe für den Computer, brachte ihm bei, wie Baseball funktioniert. Relativ schnell wurde ein Investor aufmerksam. Mit einer Finanzspritze von sechs Millionen Dollar gründete das Team 2010 die Firma Narrative Science.
Einer der ersten Kunden war ein Nachrichtenportal für College-Sport. In den USA spielen die Begegnungen zwischen Universitäten in Football, Basketball oder Baseball eine große Rolle, doch Journalisten finden nicht immer die Zeit, über jedes Spiel zu berichten.
Die Text-Maschine fand hier eine perfekte erste Nische. 2011 schrieb sie nach Informationen der US-Zeitschrift Wired selbständig bereits rund 400.000 Artikel - in diesem Jahr sollen es rund 1,5 Millionen sein. Auch für Kinder-Ligen, für die Daten nicht online verfügbar sind, funktioniert die Technik. Hier können die Eltern über das iPhone einfach selbst Treffer und Spielergebnisse ihrer Kinder eintippen, die Software schreibt dann den passenden Text.
Und Sport ist erst der Anfang: Das renommierte Wirtschaftsmagazin Forbes lässt den Computer seit neuestem automatische Gewinnausblicke für börsennotierte Konzerne schreiben ("Analysten sind uneins über Exxon Mobil, aber sieben von 14 raten dazu, die Aktie zu halten. Die Wallstreet hat sich die letzten drei Monate für das Papier erwärmen können. . ."). Narrative Science gilt heute, weniger als drei Jahre nach ihrer Gründung, als eine der innovativsten Firmen Chicagos.
"Anfangs dachte ich, wir seien auf Sport, Finanzen und Immobilien beschränkt", sagt Robbie Allen, Gründer der Firma Automated Insights, die heute als schärfster Konkurrent von Narrative Science gilt. Allens Projekt statsheet.com bündelt über 400 Websites, die vollautomatisch über amerikanischen College- und Profisport berichten. Doch relativ schnell machte Allen eine Entdeckung: "Die Möglichkeiten, wie wir Daten in Inhalte verwandeln können, sind nahezu unbegrenzt."
Mittlerweile wird seine Firma von Anfragen überschüttet. "Alle möglichen Firmen wollen, dass wir Texte für sie produzieren, vom Energiesektor über das Gesundheitswesen bis hin zum Domainverwalter." Überall, wo große Datenmengen verfügbar seien, die kein Mensch mehr überblicken könne, sei die Technik sinnvoll. Selbst den Ton der Meldungen könne man variieren. "Wenn die Kunden etwas Trockenes wollen, schreiben wir etwas Trockenes", schwärmt Allen. "Wenn sie etwas wollen, das ungewöhnlich klingt oder eine gewisse Persönlichkeit hat, bauen wir einfach die jeweiligen Adjektive und Formulierungen mit ein."
Für menschliche Autoren ist es eine gruselige Vorstellung, dass allmählich eine maschinelle Konkurrenz heranwächst, die Abnehmer findet und so etwas wie menschliche Schwächen nicht kennt. Die Maschine schläft nicht, sie braucht keine Kaffeepause, ist ständig konzentriert, hochproduktiv (allein auf Forbes.com veröffentlicht sie täglich rund fünf Artikel) und absolut akkurat - Zahlen lügen nicht. Sie fordert niemals mehr Gehalt und fürchtet keine Schreibblockade.
"Wir ersetzen nicht den Journalisten", wehrt Allen solche Bedenken ab. "Wir stellen Inhalte in Dimensionen bereit, die ein menschlicher Schreiber unmöglich bewerkstelligen kann. Er müsste tausende, Millionen gleichartiger Dokumente schreiben, die für einen ganz bestimmten Zweck zugeschnitten sind." Allen träumt davon, für jeden Manager und jede Branche genau zugeschnittene Texte zu liefern, vollautomatisch.
Der Mensch hat in dieser Welt zwei mögliche Plätze: "Eine Art, wie wir mit Journalisten zusammenarbeiten, ist, dass der Computer drei Viertel des Textes schreibt", sagt Allen. "Der Mensch fügt dann etwas Farbe hinzu oder sucht noch ein Bild aus." Oder der Journalist könne alternativ, falls er über einen "analytischen" Verstand verfüge, auch selbst an der Entwicklung solcher Systeme mitarbeiten, dem Robo-Reporter also die Textschnipsel zuliefern.
"Man darf nicht zu viel erwarten", beruhigt der Computerlinguist Sebastian Padó von der Uni Heidelberg. Die Systeme würden zwar langsam besser darin, zusammenhängende Texte zu erzeugen. "Aber was ihnen fehlt, ist das gesamte Weltwissen eines Menschen." Das soll heißen: Der Computer schreibt zwar, hat aber keine Vorstellung davon, was er schreibt. "Für ihn sind das nur Zeichenketten ohne Bedeutung", sagt Padó.
Einen Text, bei dem jeder Satz auf den vorangehenden aufbaut, bekomme der Computer noch nicht hin. "Teilweise liest sich das noch holprig, wie bei einer maschinellen Übersetzung auch." Padó würde solche Systeme deshalb nicht dort einsetzen, wo es wirklich darauf ankommt, "etwa bei der Zusammenfassung von Krankenakten".
"Um sinnvollen Text zu produzieren, ist ein tieferes Verständnis gar nicht unbedingt notwendig", glaubt hingegen der Philosoph Klaus Mainzer von der Technischen Universität München. Der Mensch verstehe Sprache auch ganz ähnlich wie ein Computer, indem er bestimmte Muster im Gehirn abgleiche. "Bei uns sind vielleicht noch Emotionen und visuelle Reize im Spiel, aber im Grunde ist es dasselbe."
Mainzer wäre sogar dankbar über einen Computer, der für ihn schreibt. Oft müsse er etwa Texte für die Verwaltung produzieren, die langweilige Routine seien. "Mein Bauchgefühl sagt mir: Das kann ein Computer auch", sagt Mainzer. Auch wissenschaftliche Fachartikel seien oft nach einem ganz bestimmten Muster verfasst. "Ich könnte mir vorstellen, dass selbst die Wissensproduktion mit solchen Systemen automatisiert wird." Mainzer sieht darin sogar Vorteile: "Der Mensch kann sich dann vielleicht wieder auf das Wesentliche konzentrieren: auf seine eigene Kreativität."
Schon jetzt beschränken sich Roboter-Reporter nicht mehr nur auf Zahlenmaterial, wie es bei Baseballspielen und Aktienkursen reichlich vorhanden und maschinell verwertbar ist. Der Trend geht dahin, auch unstrukturierte Daten wie Millionen von Twitter-Mitteilungen als Futter für Geschichten und Analysen zu benutzen. "Das ist die nächste große Sache", sagt Robbie Allen, auch er habe da mehrere Projekte laufen. Der Narrative-Science-Algorithmus berichtete beispielsweise schon über den US-Republikaner Newt Gingrich. Der Computer fasste einfach knapp zusammen, was Wähler über ihn und seine Wahlkampfthemen twitterten.
Eine ganze Reihe von Unternehmen hat erkannt, welche Schätze in Online-Datenbergen wie Twitter versteckt liegen - und angefangen, sie zu bergen. "Die Stimmung auf Twitter sagt den Aktienmarkt voraus", stellten etwa Informatiker um Johan Bollen 2010 im Journal of Computational Science fest. Die Firma Dataminr macht sich diese Erkenntnis zunutze - ihre Computer lesen jeden Tweet, der weltweit veröffentlicht wird und leiten daraus automatische Empfehlungen für Finanzkonzerne ab. Die Algorithmen des Start-Ups Marketbrief scannen täglich tausende Eingaben bei der US-Börsenaufsicht SEC und erstellen damit automatische Wirtschaftsmeldungen. "Eins ist klar", warnt der Philosoph Mainzer. "Gerade im Aktienmarkt könnte der Mensch hier ein Stück Kontrolle an die Maschinen abgeben."
Bislang kommen die Maschinen am besten mit Englisch zurecht - deutsche Texte kann noch kein Computer kommerziell produzieren. Noch nicht. "Bei Sprachtechnologien kommt Deutsch gleich hinter Englisch", sagt der Computerlinguist Padó. Unternehmer Allen sieht keine Hindernisse: "Es gibt nichts, was uns davon abhält, in anderen Sprachen zu schreiben."
Das sei sogar einer der wesentlichen Vorteile von automatisierten Inhalten, einen Artikel in mehreren Sprachen gleichzeitig produzieren zu können. Und es klingt fast wie eine Art Warnung, wenn Allen sagt: "Wir werden uns in andere Sprachen ausbreiten. Es ist nur eine Frage der Zeit, bis uns die ersten Kunden darum bitten."