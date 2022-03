Netzwerkraum in Google-Rechenzentrum in Council Bluffs in Iowa.

Von Helmut Martin-Jung

Man stelle sich vor: Ein Buch mit Billionen von Seiten - kein Mensch kann das lesen. Man könnte darin allenfalls suchen, aber wie soll das gehen, bei der Masse? Zu allem Übel verändern sich auch noch viele der Seiten ständig, und täglich werden es mehr. Also wie erschließt man dieses Riesenbuch, das natürlich kein Buch ist, sondern die elektronisch gespeicherten Informationen der Menschheit - das World Wide Web? Im Prinzip genauso wie bei einem gewöhnlichen Buch. Mit einem Inhalts- oder besser: Stichwortverzeichnis, auch Index genannt.

Bevor jemand einen Suchbegriff eingibt und auf die Return-Taste drückt, hat Google, die weltweit führende Suchmaschine, also schon vorgearbeitet und einen Index zusammengestellt. Das erledigen an vorderster Front sogenannte Crawler - das kann man mit Kriechtier oder Raupe übersetzen. Sie fressen sich durchs Netz wie die kleine Raupe Nimmersatt. Die Suchprogramme folgen allen Links auf einer Seite, und dort wiederum den Links, die sich auf der neuen Seite finden. Und so weiter.

Die Seiten werden heruntergeladen. Dann sieht sich das System die Seiten an - allerdings anders als ein Mensch. Es achtet auf Links und darauf, welche Wörter auf der Seite vorkommen, versucht zu erkennen, was auf Bildern zu sehen ist, und entsprechend einzuordnen. Jedes Wort kommt in den Index - also das Stichwortverzeichnis - und befindet sich in Gesellschaft gleicher Wörter, die auf anderen Webseiten gefunden wurden. Allein dieser Index ist etwa hundert Millionen Gigabyte groß - dafür braucht es Zehntausende von Festplatten.

Mehr als nur Wörter

Als Google-Nutzer aber weiß man, dass die Suche weit mehr kann, als nur das Netz nach einzelnen Wörtern zu durchforsten. Das würde bei den meisten Anfragen zu unbefriedigenden Ergebnissen führen. Daher gibt es Algorithmen, also mathematische Verfahrensregeln, mit deren Hilfe die Ergebnisse verbessert und schließlich gewichtet werden. Die ursprüngliche Idee (und der Grundstein für Googles Überlegenheit im Vergleich mit anderen Suchmaschinen) war der Page-Rank-Algorithmus. Die Annahme: Seiten, auf die viel verlinkt wird, haben wohl relevante Informationen.

Noch heute spielt der Page Rank eine Rolle, ist aber nur noch ein Kriterium unter vielen. Es gibt mittlerweile einige Hundert Algorithmen, und die werden ständig verändert. Meist merkt man zumindest als gewöhnlicher Nutzer nicht viel davon, manchmal gibt es aber auch größere Veränderungen. Ein Grund dafür kann zum Beispiel sein, dass Google Tricks zu unterbinden versucht, mit denen sich Seitenbetreiber in der Reihenfolge der Suchergebnisse nach vorne mogeln wollen.

Was wollen die Nutzer eigentlich?

Google ist bekannt dafür, alles zu automatisieren - bei der Größe des imaginären Buches ist es auch gar nicht anders möglich. Längst spielt künstliche Intelligenz (KI) eine große Rolle dabei, welche Suchergebnisse Nutzern präsentiert werden. Das beginnt schon damit, überhaupt zu erkennen, was ein Nutzer eigentlich will. Wann etwa meint ein Nutzer mit "Bank" ein Geldinstitut, wann eine Parkbank? Immer neue, immer ausgeklügeltere KI-Systeme sorgen dafür, dass die Suche immer öfter auf Anhieb gute Ergebnisse anzeigt - auch für wesentlich komplexere Fragen. Das ist auch nötig, denn etwa 15 Prozent aller Anfragen wurden noch nie gestellt. Das liegt zum Beispiel an aktuellen Ereignissen wie etwa Sportveranstaltungen oder politischen Entwicklungen.

Tausende Server helfen mit

Um Ergebnisse schnell anzeigen zu können, kann eine Suchanfrage kurzfristig tausend verschiedene Server-Computer in einem der Rechenzentren von Google beschäftigen - das schon deshalb, weil der Index so groß ist und deshalb auf viele Server aufgeteilt werden muss. Schließlich versuchen Algorithmen zu interpretieren, was gesucht wird, und legen die Reihenfolge fest, in der die Ergebnisse angezeigt werden. Vieles wird dabei berücksichtigt, darunter auch, ob man von einem Handy aus sucht oder einem Desktop-Computer, oder ob es sich um ein aktuelles Thema handelt, etwa das Ergebnis des jüngsten Spiels einer Fußballmannschaft. Die Nutzer können in den Einstellungen festlegen, welche ihrer Daten Google verwenden darf, zum Beispiel die aktuelle Position. Je nachdem, wie viele Daten man preisgibt, kann die Suche individuell passendere Ergebnisse zeigen.

Dass die Suche mittlerweile immer öfter zu guten Ergebnissen führt, liegt auch daran, dass die KI-Algorithmen durch Training an Massen von Daten immer besser erraten, was wirklich gesucht wird. Wie also die Suchbegriffe, die eine Nutzerin eingibt, zusammenhängen, welcher Kontext gemeint ist - auch wenn der eigentliche Begriff dafür nicht in der Suchanfrage auftaucht. Google hat dafür eine Art universelles System entwickelt, das weitgehend unabhängig von den Sprachen ist, auf die es angewendet wird.

Doch ohne Menschen geht es trotzdem nicht. Jede Veränderung an einem Algorithmus wird erst an einer Testgruppe erprobt, bevor er auf alle Google-Nutzer losgelassen wird. Derartige Massen von Daten haben nur die ganz großen Anbieter, für mögliche Konkurrenten wird es schwer, da mitzuhalten. Ihnen fehlen sowohl die Daten als auch die Rechenkapazität, sie zu verarbeiten.

Dieser Artikel gehört zum Themenschwerpunkt "Googles Schatz". Die gesamte Recherche und Links zu weiteren Artikeln finden Sie hier: sz.de/GooglesSchatz