Alle Daten müssen ans Licht

 

Der Forscher schaut verstohlen über die Schulter, niemand ist so spät noch im Labor. Er öffnet die Datei mit seinen Messwerten. Wie er es dreht und wendet – was seine Messapparatur heute ausgespuckt hat, passt einfach nicht zu seiner Lieblingshypothese. Mit diesem verflixten Experiment steht und fällt aber die Reputation, die weitere Karriere des ehrgeizigen Forschers. Er schaut nochmal ganz genau auf seine Tabelle. Wenn man dort ein paar Zahlen verändert und hier einen Wert rausstreicht, dann sieht doch alles gleich viel schöner aus. Ist ja nur dieses eine Mal…

Ungefähr dieses Bild haben wahrscheinlich viele im Kopf, wenn man sich einen Forscher auf Abwegen vorstellt – und so ganz falsch ist die Vorstellung nicht, die man sich so von wissenschaftlichem Fehlverhalten macht, wie immer neue Beispiele in den vergangenen Jahren gezeigt haben. Aber die ganz große Mehrheit der Forscher ist sich wohl einig, dass Datenmanipulation dieser Art eine Todsünde ist.

Umstrittener ist da schon, was die British Medical Association jetzt ebenfalls als Fehlverhalten (misconduct) definiert hat, per Mehrheitsbeschluss der Delegiertenversammlung:

i)     Selective non-publication of unflattering trial data is research misconduct;

ii)    Registered medical practitioners who give grounds to believe they have been involved in such conduct should have their fitness to practice assessed by the GMC.

Daten aus klinischen Studien nicht zu veröffentlichen und einfach auf ewig in der Schublade liegen zu lassen, bis Gras darüber gewachsen ist, kann ab sofort für britische forschende Mediziner also drastische Konsequenzen haben; im schlimmsten Fall verlieren sie sogar ihre Zulassung als Arzt. Ergebnisse klinischer Studien müssen veröffentlicht werden – so die klare Ansage der British Medical Association.

Ein Berg unveröffentlichter Studien?
Foto: via Wikimedia PD

Wenn man das überzogen findet, dann hat das vielleicht mit unserem Gerechtigkeitsgefühl zu tun. Schaden anrichten durch Nichts-Tun empfinden die meisten Menschen weniger schlimm als aktives, verwerfliches Handeln. Und es ist vielleicht auch weniger offensichtlich, wieso es der Wissenschaft insgesamt schadet, wenn Daten nicht an die Öffentlichkeit kommen. Aber die BMA hat gute Gründe für ihre Entscheidung – Schätzungen gehen davon aus, dass die Hälfte aller abgeschlossenen Studien über die Wirksamkeit von Medikamenten unveröffentlicht bleiben.

Ein paar Beispiele (keine vollständige Liste) wieso Forscher ihre Daten manchmal nicht veröffentlichen:

 

1. Die Studienleiter brechen das Vorhaben ab, bevor solide Ergebnisse eintreffen – z.B. weil das Geld ausgeht oder weil nicht genügend Teilnehmer mitmachen.

2. Das Ergebnis der Studie ist negativ, „die Null-Hypothese kann nicht verworfen werden“, sagt der Statistiker nach Analyse der Daten. Somit wird es schwer, die Arbeit in einer angesehenen Fachzeitschrift unterzubringen. Der Aufwand des Zusammenschreibens und detaillierten Auswertens lohnt sich aus Sicht der Studienleiter dann vielleicht nicht, die Forscher verlieren das Interesse und haben bald andere Prioritäten.

3. Das Ergebnis passt den Studienleitern nicht in den Kram – zum Beispiel weil ein Medikament nicht die erwartete Wirkung zeigt und eventuell die Zulassung riskiert.

Nur Fall (1) ist vielleicht eher harmlos, weil die Gründe, die zum Abbruch führen, nichts mit den Ergebnissen zu tun haben. In den Fällen (2) und (3) verzerren die Publizier-Verweigerer die Datenlage in der Literatur – mit Folgen, die  ähnlich schwerwiegend sein können wie das skrupellose Fälschen von Daten durch einen richtigen Bösewicht.

Das Stichwort ist Publication Bias – also der Unterschied zwischen „echter Datenlage“ und „publizierter Wahrheit“.

Wieso ist der Publication Bias so hinterhältig und oft so schwer zu erkennen? Nehmen wir mal an, es sei eine brennende wissenschaftliche Frage unter Münzexperten, ob eine in die Luft geworfene Euro-Münze öfter mit „Kopf“ oder „Zahl“ nach oben zu liegen kommt.

Die Nullhypothese ist: Kopf und Zahl kommen etwa gleich häufig – das Ergebnis interessiert keinen, weil das eh alle vermuten.

Die Alternativhypothese: eine Seite kommt öfter als die andere – das wäre das sensationelle Ergebnis, das zu Ruhm und Ehre führt, Lehrstühle und Forschungsgelder verspricht.

Weil das so ein immens spannendes Forschungsthema ist, machen sich weltweit 50 Arbeitsgruppen an eine Versuchsreihe, unabhängig voneinander. Der Wettbewerb ist hart, große Geheimniskrämerei umgibt die elitäre Münzforscherszene, auf Konferenzen wird höchstens getuschelt über neue Lösungsansätze.

Trotzdem denken sich alle einen ähnlichen, raffinierten Versuchsaufbau aus, der immer auf eine Variante des folgenden Vorgehens herausläuft: Ein Mob Doktoranden kidnappt einen Erstsemester-Studenten in der Mensa und hält ihn solange im Labor fest, bis er 20 mal ein Euro-Stück geworfen hat. Der Professor höchstpersönlich führt eine Strichliste und übergibt die Daten seinen Mitarbeitern zur statistischen Auswertung.

Ich hab das mal schnell durchgespielt – also ohne die blumigen Details, ich hab einfach einen Zufallsgenerator 50 mal je 20 „Münzen“ werfen lassen, entweder 0 (für Zahl) oder 1 (für Kopf) ausspucken lassen. Ich hab in dieser Simulation schon angenommen, dass beide Seiten in der Tat gleich wahrscheinlich sind (pKopf=pZahl=0,5). Wir haben es also wirklich mit einer „fairen“ Münze zu tun.

 Das kam dabei heraus:

 

 

 

 

 

 

 

 

 

 

 

 

Absolut keine Überraschung. Die große Mehrheit der 50 simulierten Forschergruppen findet so in etwa ein 50:50 Verhältnis nach 20 Münzwürfen, aber es gibt eben auch ein paar Ausreisser – das erwartet man auch, ist schliesslich alles Zufall.

Man kann die Erwartung für 20 Würfe z.B. in einer Bernoulli-Verteilung darstellen:

 

 

 

 

 

 

 

 

 

 

 

In diesem Diagramm kann man zum Beispiel ablesen, dass die Wahrscheinlichkeit für „genau 10 mal Kopf in 20 Würfen“ 0,18 beträgt. Die Wahrscheinlichkeit für 16 oder mehr „Kopf“ ist niedrig (etwa 0,006, wenn man die Werte für “genau 16,17… aufaddiert ) –  aber eben bei 50 unabhängigen Serien von jeweils 20 Würfen wohl innerhalb des Erwartbaren.

( Leser, die mehr von Statistik verstehen als ich, sind herzlich eingeladen, dazu ausführlich zu kommentieren, p-Werte anzugeben, ein- vs. zweiseitige Tests einzuführen, Bayes Theorem auszupacken, was immer ihr wollt )

Aber was passiert jetzt in unserer Forscher-Community, wenn niemand die negativen Ergebnisse berichtet? Sagen wir mal, die meisten unserer Forscher schämen sich im Nachhinein, dass sie so ein albernes Experiment überhaupt in Angriff genommen haben. Sie sprechen nicht mehr darüber und lassen die Daten in der Schublade verschwinden.

Nicht der Forscher, der die 16 „Kopf“ geworfen hat. Die Presse rennt ihm die Türen ein, der Bundesbankpräsident verleiht ihm einen Preis für seine bahnbrechende Arbeit an der Kopflastigkeit der Euro-Münze. Alles für ein falsch-positives Ergebnis, wie sich vielleicht später doch noch herausstellt – sobald nämlich jemand versucht, das Experiment nachzumachen; dann wird’s vielleicht peinlich.

Ironie jetzt: Schuld an der peinlichen Situation sind dann nicht die Forscher, die das falsch-positive Ergebnis hervorbrachten – die können ja nichts für die Launen des Zufalls. Schuld an der Misere sind die anderen Münzwurf-Forscher, die ihre ‘negativen’ Resultate zurückgehalten haben.

Zugegeben, wieder mal eine alberne Parabel die ich euch heute zugemutet habe – aber es macht hoffentlich doch deutlich, dass Nicht-Publizieren von experimentellen Daten richtig viel Verwirrung stiften kann.

Und das betraf jetzt nur die statistischen Ausreisser. Über „systematische“ Fehler in echten Experimenten, zum Beispiel Probleme im Versuchsaufbau, vertauschte Pufferlösungen und andere Fallen des Laboralltags haben wir noch gar nicht gesprochen. In diesem Beispiel haben alle Münzforschergruppen im Prinzip alles richtig gemacht – aber wenn man ein Experiment ordentlich ausführt, muss man es eben auch veröffentlichen, egal was rauskommt.

Die Mediziner sind eher sensibilisiert für dieses Thema als die Biologen. Das liegt vielleicht daran, dass es ethisch äusserst bedenklich ist, Daten aus Versuchen mit Menschen zu verstecken. Wahr ist aber auch:eine große klinische Studie läuft nach einem standardisierten Schema ab. In der Grundlagenforschung funktioniert der Erkenntnisgewinn anders, ein Doktorand kann dort auch mal „explorativ“ etwas ausprobieren und der Reihe nach experimentelle Ansätze fallenlassen, wenn sie nicht weiterführen. Muss man dieses Vortasten ins Unbekannte wirklich immer veröffentlichen? Nutzen und Aufwand stehen dann vielleicht in keinem Verhältnis mehr.

Aber trotzdem finde ich: Biologen und Grundlagenforscher könnten sich an den zunehmend strengen Veröffentlichungsregeln der klinischen Forscher ein Beispiel nehmen – denn gerade in der Grundlagenforschung hat sich herausgestellt, dass viel zu viele publizierte Ergebnisse nicht reproduzierbar sind. Der Publication Bias lässt grüßen.

 

Andere Blogs zum Thema “Ehrlichkeit in der Wissenschaft” beim Bloggewitter der Scilogs:

http://www.scilogs.de/artikel/1064849