Wissenschaft:Gib mir ein "e"!

Lesezeit: 3 min

(Foto: Illustration: Marika Marini)

Welcher Buchstabe kommt im Internet am häufigsten vor? Informatikprofessorin Ulrike von Luxburg verrät die Antwort.

Von Ulrike von Luxburg

Diesmal mit Informatikprofessorin Ulrike von Luxburg von der Universität Tübingen: "Das klingt nach einer einfachen Frage, einfach im Sinne von eindeutig. Als ob völlig klar wäre, wonach eigentlich gefragt wird. Aber das ist nicht so. Deswegen werde ich einen Teil meiner Antwort nutzen, um die Frage genauer abzuklopfen. Und sie am Schluss so genau stellen, dass man sie auch beantworten kann.

Jeder, der schon mal Galgenraten gespielt hat, weiß, dass Buchstaben unterschiedlich häufig vorkommen. Die Top 10 in deutschen Texten sieht so aus: e, n, i, s, r, a, t, d, h, u. Diese zehn decken etwa 75 Prozent ab, also drei von vier Buchstaben. Durchschnittlich jeder vierzehnte Buchstabe ist ein "i", jeder zehnte ein "n". Ein "x" oder ein "q" hingegen kommen fast nie vor (jeder 3300. und jeder 5000.) und bringen einem fast immer einen Strich beim Galgenspiel ein. Star unter den deutschen Buchstaben ist das "e". Jeder sechste Buchstabe ist ein "e". Also ist "e" der häufigste Buchstabe im Intern...

Moment! Könnte man nicht auch das Leerzeichen zu den Buchstaben zählen? Und gibt es davon nicht viel mehr? Ein Leerzeichen trennt Wörter voneinander. Die durchschnittliche Wortlänge - berücksichtigt man alle Wörter im Duden - liegt bei zehn Buchstaben. Aber da sind viele lange Wörter dabei, die kaum benutzt werden. Schaut man sich zum Beispiel diesen Text hier an, liegt die durchschnittliche Wortlänge bei ein bisschen mehr als fünf Buchstaben. Danach kommt immer ein Leerzeichen, wäre also das sechste Zeichen. Damit ist das Leerzeichen ungefähr genauso häufig wie das "e". Also sind "e" oder Leerzeichen die häufigsten Buchstaben im Int...

Moment! Im Internet findet man ja nicht hauptsächlich deutsche Texte, oder? Jeder Vierte liest auf Englisch. Jede fünfte Nutzerin und jeder fünfte Nutzer ist Chinesin oder Chinese. Für die Buchstabenhäufigkeit sind aber nicht die Nutzerinnen und Nutzer entscheidend, sondern die Sprache der Seiten. Nur jede 70. Seite ist auf Chinesisch, immerhin jede zwölfte auf Russisch, jede 50. auf Deutsch.

Absoluter Platzhirsch ist das Englische: drei von fünf Seiten. Englische Texte haben durchschnittlich kürzere Wörter, nur viereinhalb Buchstaben. Das heißt: Im Englischen ist fast jedes fünfte Zeichen ein Leerzeichen ..

. Aber lassen wir das Leerzeichen beiseite, ein richtiger Buchstabe ist das ja doch nicht. Auch im Englischen ist das "e" der häufigste Buchstabe, etwa jeder achte. Damit ist das "e" der häufigste Buchsta...

Moment! Das Internet, was ist damit eigentlich gemeint? Heißt: Wonach wird hier eigentlich gefragt? Das, was wir sehen, wenn wir googeln oder einen Text auf logo.de oder sz.de lesen? Oder ist vielleicht etwas anderes gemeint? Wie Texte auf Webseiten aussehen sollen, wird nämlich in einer Art Programmiersprache beschrieben. Die sieht mitunter sehr komisch aus:

Meine Ueberschrift Uni Tuebingen 4.1 City state

Spitze Klammern kommen da sehr häufig vor, Anführungszeichen noch mal doppelt so oft. Wenn eine Seite sehr viele html-Elemente enthält, also Überschriften, Aufzählungen, Seitenstile, gibt es mehr Anführungszeichen als "e". Dann ist also das Anführungszeichen der häufigste Buchstabe im Interne...

Moment! Der Computer kennt eigentlich gar keine Anführungszeichen und auch kein "e". Auf der untersten Ebene werden nämlich alle Zeichen in einem Computer mit Nullen und Einsen codiert. Das Wort "Kind" sieht bei ihm zum Beispiel so aus: 01001011 01101001 01101110 01100100. Bei dieser Art zu codieren ist die Null leicht im Vorteil. Man kann also sagen, dass die Null das häufigste Zeichen im Intern...

Moment! Das sind alles bisher nur Vermutungen. Als Wissenschaftlerin würde ich mich erstens auf eine genaue Fragestellung festlegen und dann die Vermutungen, die wir für die verschiedenen Bereiche gefunden haben, überprüfen. Also: Bei den Inhalten der Webseiten des Internets ist der häufigste Buchstabe ein "e" (oder das Leerzeichen, falls wir das mitzählen wollen). Bei html-Darstellung der Webseiten: entweder das Anführungszeichen oder das "e". Auf technischer Ebene ist es die Null. Überprüfen könnte das für uns zum Beispiel ein maßprogrammierter Bot. Der könnte dann für uns durchs Internet spazieren und ein, zwei Wochen nachzählen."

© SZ vom 01.10.2022 - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: