Fehlerhafte Publikationen:Wenn Excel Gene verschluckt

Fehlerhafte Publikationen: Illustration: Stefan Dimitrov

Illustration: Stefan Dimitrov

In Publikationen von Genforschern finden sich massenhaft Fehler - weil das Tabellenprogramm die Namen von Genen eigenmächtig in Datumsangaben ändert.

Von Berit Uhlmann

Wenn Harry Potter mit dem Voltmeter ringt, war das nicht J. K. Rowlings Idee, sondern die der Autokorrektur, die den fiesen Lord "Voldemort" nicht kennt. Und dass in alten EU-Dokumenten so gerne die US-Stadt Cupertino beschworen wird, ist ebenfalls einem Rechtschreibprogramm geschuldet. Es ersetzte Anfang des Jahrtausends beharrlich das Wort "cooperation" mit dem Namen des kalifornischen Ortes.

Cupertino-Effekt werden solche sinnlosen Substitutionen seither genannt. Mit einer Abart dieses Effekts kämpfen bis heute Genforscher, wenn sie Excel-Tabellen verwenden. Tragen sie beispielsweise das Kürzel SEPT2 für das Gen Septin2 in die Windows-Tabelle ein, verwandelt es das Programm automatisch in ein Datum. Dann steht der 2. September in der Genliste. Das MARCH1-Gen wird zum 1. März.

Jede fünfte publizierte Tabelle enthält Fehler - je renommierter das Journal, desto mehr

Nun ist das Problem selbst schon älteren Datums, bereits vor mehr als zehn Jahren wurde erstmals darauf hingewiesen, dass die Panne mindestens 30 Gen-Abkürzungen betrifft. Geändert hat sich die Situation seither jedoch eher zum Schlechten, wie australische Mediziner jetzt im Fachblatt Genome Biology zeigen.

Mittlerweile enthält jede fünfte Excel-Tabelle, die einer Publikation von Genforschern angehängt ist, derartige Fehler. Die Wissenschaftler um Mark Ziemann haben zehn Jahrgänge von 18 wichtigen Fachjournalen gesichtet. Der Anteil der fehlerhaften Abkürzungen stieg im Laufe der Jahre immer weiter - und zwar deutlich schneller als der Output der Zeitschriften. Das ist nicht nur eine Skurrilität à la Cupertino: "Die Dateien sind wichtige Quellen der Community, die oft wiederverwendet werden", schreiben die Forscher. Bestimmte Gene könnten so dauerhaft aus dem Blick der Forscher verschwinden.

Am häufigsten waren die unsinnigen Datumsangaben im renommierten Fachblatt Nature: Etwa jeder dritte Tabellenanhang war betroffen. Für die Wissenschaftler ist das kein Zufall. Ihrer Auswertung nach kommen die Fehler umso häufiger vor, je höher der Impact-Faktor des Journals ist, also je mehr Zitate dessen Artikel erzielen. Ursache dürfte sein, dass die Publikationen dieser angesehenen Zeitschriften besonders umfangreiche Anhänge haben.

Die Fehler fanden sich auch im Journal BMC Bioinformatics. Es ist ausgerechnet jene Zeitschrift, die das Problem zum ersten Mal beschrieb und erläuterte, wie es umgangen werden kann. Eine Möglichkeit ist, die entsprechenden Zellen der Tabelle zu markieren und vor Eingabe der Namen die Format-Einstellung "Text" für sie auszuwählen.

Unglücklicherweise lassen sich derartige Formatierungen nicht permanent einrichten. Es gibt auch keinen Automatismus, der zum Datum konvertierte Namen wieder herstellen könnte. Immerhin einen Lichtblick liefern die Autoren der aktuellen Studie: Das Programm Google Sheets behält die kritischen Gen-Namen bei, selbst wenn die Dateien später mit Excel geöffnet werden.

Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: