Fällt einem Redakteur keine geistreiche Bildunterschrift ein, dann - so ist es am einfachsten - schreibt er eben auf, was auf dem Foto zu sehen ist. Etwa: "Angela Merkel steigt aus dem Flugzeug." Oder "Eine Rakete bringt Lasten ins All."
Was Menschen noch einigermaßen leicht fällt, ist für Computer noch eine große Herausforderung: Komplexe Situationen auf Bildern in wenigen Worten zu beschreiben und daraus eine verständliche, lesbare und auch übersetzbare Bildbeschreibung zu machen. Wissenschaftler des Google Research Lab haben nun eine Methode entwickelt, die genau das leisten soll.
Kombination aus bekannten Methoden
Mittels "Neural Image Caption" (NIC) soll eine möglichst natürliche Beschreibung eines Bildes generiert werden. Das Neue an dem Verfahren ist, dass die Google-Forscher dabei Methoden aus der digitalen Bildverarbeitung und der Verarbeitung natürlicher Sprache kombinieren. Die Idee für das System haben sie aus einer Methode, die bei Übersetzungen verwendet wird, dem sogenannten rückgekoppelten neuralen Netzwerk (RNN). Vereinfacht gesagt wird hierbei durch ein mathematisches Verfahren ein Bild beschrieben.
Zusätzlich werden durch einen weiteren Ansatz, das sogenannte Convolutional Neural Networks (CNN), die sich im Bild befindlichen Objekte klassifiziert und nach der Wahrscheinlichkeit des Auftretens bewertet. So wird beispielsweise aus einem Bild, auf dem sich viele Menschen und viel Gemüse befinden, ein gut besuchter Markt mit Gemüsestand.
Mithilfe vorgegebener Bildern und Beschreibungspaare wird das System weiter trainiert, bis die Beschreibungen die besten Ergebnisse erzielen.
Erleichterung für Sehbehinderte
Das Verfahren soll zum einen natürlich die hauseigene Google-Bildersuche vereinfachen und für die Nutzer zu besseren Treffern führen. Zum anderen könnte es auch das Leben von Sehbehinderten erleichtern, da die automatisch generierten Bildunterschriften auch vom Computer selbst vorgelesen werden können. Und uninspirierten Redakteuren könnte es eines Tages Konkurrenz machen.