11. Januar 2019, 17:04 Uhr Kinderbuch-Analyse So sind wir an die Daten gekommen

In der SZ-Datenanalyse zu Geschlechterrollen in Kinderbüchern wurden mehr als 50 000 Bilder-, Kinder- und Jugendbücher aus 70 Jahren sowie 42 000 Buchcover analysiert.

Entscheidend bei der Auswertung waren die Verbindungen zwischen den im Schnitt jeweils etwa 20 Schlagwörtern pro Buch und die Netzwerke, die sich daraus ergeben.





Von Katharina Brunner , Sabrina Ebitsch und Martina Schories

Welche Bücher haben wir analysiert?

Genau genommen haben wir nicht die Bücher selbst, sondern deren Metadaten mit datenjournalistischen Mitteln recherchiert und untersucht. Basis war der größte Katalog von Kinderliteratur im deutschsprachigen Raum: die Datenbank der Bibliothek für Jugendbuchforschung an der Universität Frankfurt, in der seit knapp 70 Jahren mehr als 50 000 Bilder-, Kinder- und Jugendbücher von Verlagen aus Deutschland, Österreich und der Schweiz gespeichert werden. Von all diesen Büchern haben wir Angaben wie Titel, Erscheinungsjahr, Autor, Verlag und vor allem die für das jeweilige Werk eingegebenen Schlagwörter ausgewertet. Jedes Buch ist im Schnitt mit 20 Begriffen verschlagwortet, die es charakterisieren sollen - von rein formalen (also etwa "Ich-Erzählung") bis hin zu konkret-inhaltlichen (etwa "Pirat" oder "Dschungel" oder "Verlieben").

Wie genau sind wir bei Recherche und Auswertung vorgegangen?

Der erste Schritt war, alle Informationen zu allen Büchern automatisiert aus der Datenbank zu kopieren. Das Kernstück der Datenanalyse ist die Verknüpfung einzelner Bücher mit den insgesamt 1,4 Millionen Schlagwörter und deren Bezug untereinander. Die zwei wichtigsten lauten "männlicher Protagonist" und "weiblicher Protagonist". Sie erlauben eine Auswertung nach Geschlecht der Hauptfiguren. Die Verbindungen zwischen den Schlagwörtern lassen sich mit Methoden der Netzwerkanalyse untersuchen: Welche Schlagwörter kommen häufig gemeinsam vor? Welche Schlagwörter sind zentral? Welche direkten und indirekten Beziehungen gibt es unter ihnen? Wie unterscheiden sich die Netzwerke für Jungen und Mädchen? Zudem wurden von 42 000 Buchcovern mit Hilfe von Google Vision die wichtigsten Farben ermittelt (siehe letzte Frage).

Sind das alle Bücher für Kinder und Jugendliche, die seit dem Zweiten Weltkrieg erschienen sind?

Viele, aber nicht alle. Auch der sehr umfassende Katalog der Frankfurter Bibliothek kann keinen Anspruch auf Vollständigkeit erheben. Zum einen ist das Institut auf die Kooperation der Verlage angewiesen, die ein Exemplar jeder Neuerscheinung nach Frankfurt schicken sollen. Es gibt aber - anders als bei der Deutschen Nationalbibliothek - keine Verpflichtung, dies zu tun, und gerade bei jungen Verlagen oft kein Wissen um diese Vereinbarung. Bei Werken von besonderer Relevanz recherchiert die Bibliothek dies nach und fragt auch gezielt Verlage an. Letztendlich sind aber durch die Kapazitäten Grenzen gesetzt: Wie viele Bücher pro Jahr erfasst werden können, ist auch von der Personaldecke des Instituts selbst abhängig.

Wie werden die Bücher in der Bibliothek für Jugendbuchforschung erfasst?

Jedes Buch wird mit den entsprechenden Angaben (siehe erste Frage) in die Datenbank eingespeist. Grundlage ist die Schlagwort-Normdatei, ein festes Set an Schlagwörtern, mit dem auch die Deutsche Nationalbibliothek arbeitet. Wenn neue Schlagwörter, wie in jüngerer Zeit etwa "Regenbogenfamilie" hinzukommen, stimmen sich die Bibliotheken ab. Das Eingeben übernehmen Bibliothekare und studentische Hilfskräfte. Sie vergeben die Schlagwörter auf Basis von Rezensionen und Klappentext und nach persönlichem Ermessen: Wie Bücher inhaltlich erschlossen und verschlagwortet werden, ist also in Teilen subjektiv.

Welche Schlüsse kann man daraus ziehen - und welche nicht?

Durch die große Menge an Werken und die noch größere an Schlagwörtern ist eine breite und damit aussagekräftige Datenbasis entstanden - trotz der beschriebenen Einschränkungen. Dadurch lassen sich zum einen rein quantitative Verhältnisse erkennen, zum anderen inhaltliche Tendenzen. Also: Wir können zum Beispiel davon ausgehen, dass es insgesamt im untersuchten Zeitraum mehr männliche als weibliche Protagonisten gibt, obwohl es mutmaßlich immer wieder kleinere Lücken im Bestand gibt. Konkrete Beispiele und Experteneinschätzungen sollen unsere Interpretationen stützen. Wo dagegen die Datenbasis zu dünn oder die Schwankungsbreite bei den erfassten Büchern zu groß wurde, haben wir auf eine Auswertung und weitere Interpretationen verzichtet. Deswegen treffen wir beispielsweise keine datenbasierten Aussagen über die zeitliche Entwicklung der Geschlechterrollen über die vergangenen Jahrzehnte, sondern lassen dies von Experten aus verschiedenen Disziplinen einordnen und bewerten.

Wie werden die Farben der Buchcover ermittelt?

Wir wollten herausfinden, ob und wie sich das Design unterscheiden, je nachdem ob die Geschichte von männlichen oder weiblichen Protagonisten handelt. Dabei hat uns eine Schnittstelle von Google geholfen: Bei Google Vision lädt man ein Bild hoch und bekommt eine Auswertung unter anderem der zehn häufigsten Farben dieses Bildes. Insgesamt können das 16,7 Millionen unterschiedliche Farbwerte sein. Bei unserer Auswertung haben wir die Ergebnisse unserer Farbanalysen jeweils in etwa 100 übergeordnete Cluster zusammengeführt, um sie vergleichbar zu machen - so wurden zum Beispiel einzelne Schattierungen von Rosa einem Haupt-Rosa-Wert untergeordnet.