Ein paar Gedanken zu einem spannenden Symposion über den „Decline Effect“, einem erstaunlichen Phänomen, das in letzter Zeit die Runde macht. Der New Yorker publizierte Ende 2010 einen Bericht unter dem Titel „The truth wears off“, frei übersetzt: „Wenn die Wahrheit Federn lässt“, über die Forschungen des Kognitionspsychologen Jonathan Schooler, der in Santa Barbara lehrt, früher in Vancouver war, und der eine Serie hervorragend kontrollierter Präkognitionsexperimente gemacht hatte. Auf der Tagung vor 5 Jahren in Santa Barbara hatte ich ihm vorausgesagt: wenn er seine Präkognitionsexperimente, wie geplant, mehrfach wiederholen würde, dann würden die Effekte verschwinden und sich womöglich gar umkehren; das ergibt sich aus unserem Modell (1,2). Er wiederholte die Experimente, und siehe da, der Effekt verschwand.
Zweieinhalb Tage kamen Fachleute unterschiedlicher Disziplinen bei einem Symposion zum Decline-Effect in Santa Barbara, USA zusammen.
Nun versammelte Schooler eine kleine Konferenz von Spezialisten zum Thema. Ich hatte das Privileg, mit von der Partie zu sein. Zweieinhalb Tage kamen Fachleute unterschiedlicher Disziplinen zusammen. Ganz normale „Mainstreamforscher“, wie Hal Paschler, ein Sozialpsychologe aus San Diego, Leif Nelson, ein Wirtschaftspsychologe aus Berkeley, Brian Nosek, der an der University of Virginia das Open Science Projekt organisiert. Es waren aber auch Parapsychologen da, wie Daryl Bem aus Ithaca, der die letzte grosse Serie von parapsychologischen Experimenten gemacht hat (3), Dean Radin, der die vielleicht spektakulärsten Ergebnisse auf diesem Gebiet erarbeitet hat und zwar deswegen, weil er nach eigenen Angaben nie ein Experiment wiederholt. Jetzt macht er eine Ausnahme und alle sind gespannt, was passiert. Jessica Utts, die Leiterin des Statistik-Instituts der University of California Irvine war da. Dick Bierman aus Amsterdam, genauso wie Bob Kaplan, der Chef der Social and Behavioral Science Abteilung am NIH, um nur einige zu nennen. Das ganze wurde organisiert vom Fetzer-Franklin Fund des Fetzer-Instituts.
Das Spannende: in allen möglichen Disziplinen taucht der ominöse Decline-Effekt auf.
Der Decline-Effekt: Daten medizinischer Versuchsreihen, biologischer Experimente und psychologischer Experimente weisen einen Abfall der Effektstärke oder der Signifikanz auf, wenn man sie wiederholt, nicht nur solche aus parapsychologischen Experimenten. In der Parapsychologie wurde, wie Dean Radin zeigte, das Phänomen jedoch zum ersten Mal festgestellt und der Begriff geprägt. Interessanterweise gibt es das Phänomen aber auch in der Medizin, in der Biologie, in der Psychologie.
Am bemerkenswertesten waren die Berichte der Psychologen – die ich in diesem Blogbeitrag erstmal nur in Kürze anreissen kann. Sie begannen mit dem einstimmigen Lamento: wir wissen nicht mehr, was wir glauben sollen in unserer Disziplin, der Sozial- oder Persönlichkeitspsychologie. So viele Ergebnisse, die nicht replizierbar sind, nie repliziert wurden, unwahrscheinlich sind, oder wieder verschwinden, nachdem sie ein oder zweimal repliziert worden waren.
Dagegen kam mir die Datenbasis der Parapsychologie, bei allen Replikationsschwierigkeiten, richtig solide vor.
Dagegen kam mir die Datenbasis der Parapsychologie, bei allen Replikationsschwierigkeiten, richtig solide vor. Hier gibt es wenigstens ein paar neuere Meta-Analysen, die eine stabile Effektstärke suggerieren, auch wenn nicht jedes einzelne Experiment positiv war (4, 5). Und was noch viel erstaunlicher ist: in der Parapsychologie gibt es wesentlich mehr Replikationen, als in manchem psychologischen Mainstream-Paradigma. Es wird zwar gerne von Replikation geredet und konzeptuell sind Replikationen extrem wichtig. Aber es gibt sie weniger, als man denkt, vor allem in der Psychologie, aber auch anderswo (6).
So wies etwa Hal Paschler darauf hin, dass Paradigmen wie das soziale Priming, auf dem ganze Generationen von jungen Forschern ihre Karriere aufbauen und die durch den ganzen Blätterwald gingen, sich hartnäckig allen Replikationen entziehen. Dennoch verschwinden sie nicht aus den Lehrbüchern und aus der psychologischen Mythensammlung. Dahinter verbirgt sich das häufig zitierte, angebliche Phänomen, dass z.B. Leute, die Aufgaben zu lösen haben, die mit Worten in Verbindung stehen, die mit Alter assoziiert sind, anschließend angeblich langsamer gehen als andere, und derlei Dinge. Möglicherweise alles eine Mär, weil nicht replizierbar. Auch antipsychotische Substanzen, so hörten wir, wirken im Lauf der Zeit weniger stark.
Es kann nämlich sein, dass sich hinter dem Decline-Effekt einfach wissenschaftliche Schlamperei verbirgt.
Die Fragen, die sich daraus ergeben, sind kitzlig: Die erste ist zu klären, ob das Phänomen des Decline-Effektes wirklich überall vorkommt und wenn ja, ob es eines ist, das überall gleich erklärbar ist. Es kann nämlich sein, dass sich hinter dem Decline-Effekt einfach wissenschaftliche Schlamperei verbirgt. Wenn man z.B. am Anfang öfter mal Versuche macht, die positiven publiziert, die negativen ignoriert, dann ergibt sich die Illusion von positiven Effekten, die anschließend nicht mehr replizierbar sind. Pure Publikations-Verzerrung wegen der Unterschlagung negativer Ergebnisse also. Daran sind die Forscher, die natürlich für positive Befunde und nicht für fehlgeschlagene Replikationen bekannt werden, mit schuld.
Aber auch die Editoren von Zeitschriften, die tendenziell auch keine negativen, sondern nur positive Befunde publizieren wollen, und die Gutachter von Stiftungen. Wir hatten das vor Jahren selbst mal erfahren, als wir einen Antrag beim NIH-Placebo-Call eingereicht hatten. Wir wollten mit einer Serie von Replikationen angeblich bewährter Experimente beginnen. Der Gutachter schrieb, sinngemäß, es wäre kein wissenschaftlicher Gewinn darin zu erkennen, etwas replizieren zu wollen, was bereits publiziert und bekannt sei. Siehe hierzu auch Kapitel 7 meiner Methodenlehre für Anfänger, Decline-Effekte in den Medien.
Eine Hauptthese der Erklärung des Decline-Effekts wäre: methodische Artefakte.
Wenn eine solche Betonung positiver Ergebnisse vor allem am Anfang einer Forschungstradition steht mit einer Unterschlagung negativer Befunde, und die negativen erst im Lauf der Zeit bekannt werden, dann kommt es zum Anschein eines Abfalls der Effektstärke (7). Das gleiche passiert, wenn systematisch Daten so frisiert werden, dass eigentlich unentschiedene oder negative Ergebnisse durch statistische Politur plötzlich positiv werden, „p-hacking“, wie Leif Nelson das nennt. Er hat ein probates Mittel dagegen: „p-curving“; das werde ich demnächst vorstellen.
Wie auch immer: eine Hauptthese der Erklärung des Decline-Effekts wäre: methodische Artefakte. Dagegen helfen einige probate Mittel, die in der klinischen Forschung und in der Parapsychologie schon lange angewandt werden: Registrierung aller Studien, schon im Konzeptionsstadium. Das macht das Unterschlagen negativer Ergebnisse schwieriger. Das leistet die Open Science Plattform von Brian Nosek, zusätzlich zu schon existierenden Instrumenten wie dem Klinischen Register clinicaltrials.gov. Und das andere ist die publikatorische Disziplin, alle, aber auch wirklich alle Ergebnisse konsequent zu publizieren. In der Parapsychologie haben sich vor etwa 30 Jahren alle Forscher und Publikationsorgane auf diese Strategie geeinigt. Daher dürfte die Parapsychologie auch die einzige Disziplin sein, in der wirklich eine einigermassen vollständige Datenbasis existiert.
Wenn man und wo man es mit nicht-lokalen Effekten zu tun hat, da ist eine Abnahme der Effektstärke eine notwendige Konsequenz
Eine andere Erklärung für den Decline-Effekt habe ich selber vorgestellt. Sie ergibt sich aus unserem Modell. Wenn man und wo man es mit nicht-lokalen Effekten zu tun hat, da ist eine Abnahme der Effektstärke eine notwendige Konsequenz, wenn man solche Effekte versucht als kausale zu beweisen. Denn falls dem so wäre, würde man in Zeitparadoxa laufen, und diese scheint das Universum nicht zu mögen. Darüber schreibe ich später mal mehr.
Zum Abschluß noch eine wirklich faszinierende Nachricht, eigentlich eine Zeitbombe, die Bob Kaplan legte. Er stellte die Ergebnisse aller 29 Mega-Studien vor, die das National Heart and Lung Institute in den letzten Jahren gesponsort hat. Jede dieser Studien war dazu gedacht, eine finale Evaluation einer in Vorstudien angeblich wirksamen und vielversprechenden Intervention zu sein, etwa aggressive Blutzuckersenkung bei Herzinfarktpatienten, Lipidsenkung zur Primärprävention von Herzinfarkt, etc. Was, meine geneigten Leser, glauben Sie ist das Ergebnis? Es ist unfassbar, aber keine einzige der Studien konnte die vorher aufgestellten Behauptungen belegen. Sie alle hatten ein Null-Resultat und alle zusammen ergaben, dass Intervention und Kontrolle genau gleich gut war. Alles unwirksam. Und das richtig Spannende: viele der Interventionen werden immer noch durchgeführt.
Die Wahrheit lässt Federn, aber viele haben nackte Hühner ohnedies lieber als gefiederte….
- Walach, H., & Stillfried, N. v. (2011). Generalised Quantum Theory—Basic idea and general intuition: A background story and overview. Axiomathes, DOI 10.1007/s10516-010-9145-5.
- Lucadou, W. v., Römer, H., & Walach, H. (2007). Synchronistic Phenomena as Entanglement Correlations in Generalized Quantum Theory. Journal of Consciousness Studies, 14, 50-74.
- Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425.
- Tressoldi, P. E. (2011). Extraordinary claims require extraordinary evidence: the case of non-local perception, a classical and Bayesian review of evidence. Frontiers in Psychology, 2(2), Art 117.
- Schmidt, S. (2012). Can we help just by good intentions? A meta-anaylsis of experiments on distant intention effects. Journal of Alternative & Complementary Medicine, 18, 529-533.
- Schmidt, S. (2009). Shall we really do it again? The powerful concept of replication is neglected in the Social Sciences. Review of General Psychology, 13, 90-100.
- Schooler, J. (2011). Unpublished results hide the decline effect. Nature, 470, 437.