 Das geht um Wissenschaft. Der Talk heißt die dreckige Empirie. Die Wissenschaft ist eine von vielleicht zwei Methoden, aber immerhin die beste Methode, die wir überhaupt uns ausgedacht haben, um Sinn von Unsinn zu unterscheiden. Wie geht Wissenschaft? Wenn ich sage, im Kühlschrank ist noch Bier, könnt ihr mir das glauben? Das ist dann Religion. Wenn ihr aufsteht und nachgucken geht, ob im Kühlschrank noch Bier ist, ist das Wissenschaft, und zwar Empirie. Denn die Wissenschaft trifft Annahmen über die Realität und versucht dann diese Annahmen durch das Gewinn von Daten, also nachgucken, ob im Kühlschrank noch Bier ist, in irgendeiner Form zu bestätigen oder zu widerlegen. Jetzt könnte man eigentlich sagen, es ist ja eine prima Sache, also glauben wir der Empirie. Das Problem ist jetzt, und das ist zum Beispiel auch ein Problem, dass die Psychologie insbesondere hat. Es ist ganz angenehm, dass wir eine Psychologie haben, die sogenannte Replikationskrise. Das heißt, es gibt jede Menge empirische Studien, da kommt ein Ergebnis raus, alle P sind Q, und wenn man es dann versucht zu reproduzieren, dann kommt ein ganz anderes Ergebnis raus. Das heißt, im Zweifelsfall könnten wir den Studien, die wir da lesen und vor allen Dingen den Dingen, die wir über diese Studien lesen, nicht trauen. Und da könnt ihr mir vertrauen, denn ich bin Wissenschaftsjournalist. Wie ihr trotzdem herausfinden könnt, ob eine Studie funktioniert oder nicht, das erfahren wir hoffentlich jetzt, denn Aiko hat einen kleinen Vortrag vorbereitet. Ja, auch von mir erstmal guten Morgen. Willkommen zu die Dreckige Empirie. Ich dachte, ich lockere es etwas auf, indem ich euch erstmal zeige, was ich nicht kann, zeichnen. Und nein, eigentlich ist die Einführung so ein bisschen dafür gedacht zu erklären, warum ich diesen Talk überhaupt halten will. Und ja, ich lese es einfach mal vor, damit man, wenn man das nicht so gut lesen kann. Puh, so viele Leute hier und mir ist schwindelig. Wenn ich umkippe, hilft mir sicher niemand. Was? Warum das? Kennst du nicht den Bystandereffekt? Wenn viele Leute da sind, hilft keiner. Ich habe das in einer Studie gelesen, die das bewiesen hat. Und jetzt kommen die drei Reaktionen, die ich oft kriege und die mich unglaublich nerven. Erstens, kann nicht stimmen. Mir hat auf dem Kopf schon mal jemand geholfen. Das kann gar nicht stimmen. Die Studie von Borgs & Pentra hat gefunden, dass Menschen in Gruppen gar nicht seltener helfen. Und das Beste, tja, sag ich doch immer, traue keiner Statistik, die du nicht selbst gefälscht hast. Immer fantastisch das zu hören als Wissenschaftlerin. Genau, und aus diesen Gründen habe ich mir folgende Leitfragen für euch überlegt, die ich gerne versuchen würde, mit euch zu klären. Nämlich, eigentlich kann man empirische Studien trauen. Und dazu wollen wir uns ein bisschen damit beschäftigen, wie funktioniert empirische Forschung überhaupt? Was sagen Studien eigentlich aus? Was ist eine gute Studie und was unterscheidet sie von der schlechten? Und was mache ich, wenn ich unterschiedliche Ergebnisse habe in zwei verschiedenen Studien? Und am Ende, wie eben auch schon angekündigt, wollen wir uns noch ein bisschen damit befassen, welche Probleme die Wissenschaft so allgemein hat. Erst mal zu mir, wer bin ich? Mein Name ist Anna Klinghauf. Ich bin Psychologin. Momentan arbeite ich an der Uni Kassel im Fachbereich Menschmaschinesystemtechnik. Das auf dem Bild bin ich. Ich bin das Links. Das Rechts ist mein Kollege. Nein, also wir machen viel mit Technik und eben der Schnittstelle zum Menschen relativ spannend. Gut, damit das Ganze nicht so trocken wird, habe ich euch eine Studie mitgebracht, an der wir das Ganze jetzt mal beispielhaft durchexercieren können. Und zwar ist das eine Studie zur Facial Feedback Hypothese. Und diese Hypothese, also diese Annahme besagt, dass nicht nur unsere Emotionen einen Einfluss auf unseren Gesichtsausdruck haben, also wenn wir glücklich sind, dann lachen wir, sondern es funktioniert auch andersrum. Nämlich hat unser Gesichtsausdruck Einfluss auf die Emotionen relativ spannende These, wie ich finde. Und hier geht es jetzt im speziellen darum, dass lächeln die positive Stimmung verstärkt. Also wenn ich lächle beim Glücklichsein, bin ich noch glücklicher. Und nicht lächeln, schwächt meine positive Stimmung ab. Und in der Zeit, in der diese Studie rausgekommen ist, gab es dazu zwei große Erklärungsansätze, nämlich einmal den kognitiven Ansatz, der besagt, das ist alles Selbstwahrnehmung. Also ich beobachte mich im Grunde genommen durchgehend selbst und wenn ich lächle, dann schließe ich daraus, dass ich sehr glücklich bin und das macht mich nur glücklicher. Und der andere Ansatz ist, das ist physiologisch. Also es geht um die Muskeln, die beim Lächeln angespannt werden und die hängen einfach direkt mit meiner Stimmung zusammen. Und jetzt ist die Frage, wie kriegt man raus, welcher dieser zwei Erklärungsansätze zutrifft. Und ich habe meiner Meinung nach eine sehr spannende Studie rausgesucht, die mich in meinem Studium auch schon sehr begeistert hat, und zwar von Fritz Strack. Und da geht es genau darum, rauszufinden, welche dieser beiden Theorien jetzt zutrifft. Und an dieser Studie möchte ich jetzt mit euch durchgehen, wie funktioniert empirische Forschung überhaupt und was sagen Studien aus. Die Idee dahinter ist, wie eben schon kurz angekündigt, Vertrauen ist was anderes als Verstehen. Also wenn ich euch jetzt sage, ja, empirische Studien kann man trauen, dann müsst ihr mir das glauben und dann haben wir nicht viel gewonnen. Aber wenn ihr versteht, wie empirische Forschung funktioniert, dann könnt ihr besser einschätzen, welcher Studie ihr trauen könnt und welcher nicht. Kurz als Einordnung. Ich will mich hier hauptsächlich mit quantitativer Forschung beschäftigen. Das bedeutet, quantitative Forschung ist dazu da, Annahmen zu prüfen, die man schon hat. Der Gegensatz dazu wäre qualitative Forschung. Also ich frage wenige Leute dafür genauer und will erstmal meine Hypothesen, also meine Annahmen entwickeln. Darum soll es heute nicht so sehr gehen, nur damit sich hinterher keiner beschwert. Okay, was brauchen wir, um jetzt diese empirische Forschung zu machen? Zuerst brauchen wir eine Hypothese. Meine Hypothese hier wäre Lächeln, verstärkt positive Emotionen. Das ist eigentlich relativ einfach gesagt. Und wie läuft so ein Experiment jetzt ab? Das ist eigentlich bei den meisten Experimenten sehr ähnlich. Deswegen orientieren wir uns jetzt aber an unserem Beispiel. Also zuerst muss man Versuchsperson auswählen, an dem man das Ganze testen will. Und dann muss man eine Manipulation vornehmen. Das klingt jetzt erstmal schlimm, ist es aber nicht. Das ist einfach ein Fachbegriff dafür, dass ich die eine Gruppe von Leuten dazu bringe, zu lächeln und die andere nicht zu lächeln. Das ist meine Manipulation. Und dann am Ende muss ich natürlich auch noch messen, was mich interessiert. In dem Fall hier die positiven Emotionen. Und am Ende muss ich das Ganze vergleichen. Und dazu brauche ich Statistik. Nur kurz falls jemand Angst bekommt, es sind keine Formeln in den Folien. Okay, zu den Versuchspersonen. Also in einer idealen Welt würden wir natürlich alle Menschen testen, die das betrifft, lächeln. Das machen alle Menschen, also müssten wir alle Menschen testen. Das wäre unsere Population. Realistisch ist das natürlich nicht. Und deswegen versuchen wir einfach eine möglichst große Stichprobe auszuwählen. Also wir wählen aus allen Leuten mehr oder weniger zufällig einfach welche aus, die wir dann testen. Ideal wäre, wenn wir repräsentativ eine Stichprobe ziehen würden. Das bedeutet, unsere Stichprobe sollte genauso aufgebaut sein, wie die Population, die wir untersuchen sollen. Also wir sollten genauso viele Junge wie Alte haben, wie auch Männer und Frauen. Das ist aber auch nicht realistisch in der Forschung. Und deswegen macht man das so, dass man Theorie geleitet sagt, ist es denn in Ordnung, wenn ich jetzt nur bestimmte Leute teste? In dem Fall heißt das, ich nehme eigentlich nicht an, dass Männer unterschiedlich lächeln wie Frauen oder Junge anders wie Ältere. Und deswegen ist es okay, wenn ich einfach irgendwelche Leute nehme, weil ich ja annehme, dass das bei allen gleich funktioniert. Und wonach dann am Ende wirklich ausgewählt ist, wird es auf die Verfügbarkeit. Also wer erklärt sich überhaupt bereit, wenn er das Studie teilzunehmen, Leute, die sich nicht bereit erklärt haben, das macht nicht so gut mit. Was wir auch noch sehen müssen, ist, dass wir hier eine zufällige Auswahl treffen. Also wenn ich 100.000 Leute habe und wähle da jetzt 10 draus aus, dann spielt er der Zufall mit rein. Und natürlich ist dieser Zufallseinfluß dann auch in meinen Daten drin. Das heißt, je nachdem, ob ich jetzt am oberen Ende irgendwelche Leute erwische oder am unteren Ende von irgendeinem Merkmal, dass ich mir ausdenke, das macht einen Unterschied. Ich glaube noch zuhören, dass es wichtig ist. Hier bei der Studie wurden jetzt 92 Studierende benutzt. Okay, zur Manipulation. In unserer Studie wollen wir rausfinden, ist der Effekt, wenn wir einen Effekt sehen. Also wenn manche Leute glücklicher sind als andere, kommt das wirklich von diesem Lächeln, was wir den eingeflüstert haben. Und wichtig dafür ist, dass wir alles andere zwischen den beiden Gruppen gleichhalten. Weil wenn wir noch irgendeinen Unterschied hätten, wie einen anderen Cartoon sehen als den anderen, dann könnte es ja auch am Cartoon liegen. Und deswegen ist es wichtig, dass alles andere gleich bleibt, nur das Lächeln ändert sich, eben ob sie lächeln oder nicht lächeln. Und was auch noch wichtig ist, ist hier, dass man keine direkte Anweisung zum Lächeln gibt, weil das im Zweifel unsere Studie verfälschen könnte. Weil wenn die Leute, dann werden die Leute ja nochmal darauf hingewiesen, aha, jetzt lächle ich. Und das könnte man dann hinterher nicht mehr rausrechnen, ob die denken, sie müssen sich jetzt so verhalten. Also um Verfälschung zu vermeiden, sollten wir hier den Sinn verschleiern. Und das ist, warum ich diese Studie eigentlich begeistert, weil sie so klasse von der Durchführung ist, finde ich. Und zwar haben die sich gedacht, wie machen wir das ohne den Leuten zu sagen, lächeln? Wir lassen sie einen Stift in den Mund nehmen. Und zwar entweder zwischen den Zähnen oder zwischen den Lippen. Und wer einen Stift dabei hat, darf das jetzt gerne ruhig mitmachen. Ich demonstriere das mal kurz. Wenn man den Stift zwischen die Zähne nimmt, werden dabei die gleichen Muskeln angespannt wie auch beim Lächeln. Man zieht so die Mundwinkel hoch, so. Und wenn man den Stift zwischen die Lippen nimmt, dann werden die Muskeln auch angespannt, aber die werden so zusammen gepresst, so als würde man ein verkniffenes Gesicht machen. Und dadurch ist es dann unmöglich, gleichzeitig zu lächeln, so. Und dazu, da kriegt man die Leute dazu entweder zu lächeln oder nicht zu lächeln, ohne ihnen das zu sagen. Und ich finde das sehr klasse. Und das Gute an diesem Ansatz ist, dass man mit dieser Manipulation jetzt rauskriegen kann, welche der beiden Theorien trifft eigentlich zu. Denn dadurch, dass wir den Leuten ja einen Grund geben, warum sie die Mine so doof verziehen, kann diese kognitive Theorie ja gar nicht mehr greifen. Wenn die sich selbst beobachten, denken die nicht, ach ich lächle, sondern ach ich hab ein Stift im Mund. Das heißt, wenn wir jetzt mit dieser Studie trotzdem noch den Effekt finden, dass Leute, die die Mundwinkel hochziehen, die das Ganze lustiger finden oder glücklicher sind, dann liegt es wirklich daran, dass die Muskeln direkt über diese physiologische Theorie mit der Stimmung verknüpft sind. Okay, und jetzt gehen wir einen Schritt weiter. Wir müssen die ganze Sache noch messen. Und hier ist jetzt eine Sache wichtig, die generell in der Psychologie uns vor große Probleme stellt. Nämlich das meiste, was wir messen wollen, ist gar nicht direkt messbar. Emotionen sind nicht direkt messbar. Man kann anders als in der Chemie oder so nicht einfach irgendwie in Thermometer reinstecken, sagen, ah, glücklich, fünf von zehn, sondern man muss das indirekt messen, meistens indem man die Leute befragt. Und damit man das auch vergleichen kann zwischen zwei verschiedenen Leuten, nimmt man dazu meistens so eine Skala. Wie glücklich sind sie auf einer Skala von eins bis zehn? Okay, und weil unsere Hypothese ja ist, dass Emotionen nur verstärkt werden, müssen wir die Leute erst mal glücklich machen oder beziehungsweise fröhlich machen, sie in gute Stimmung versetzen. Und das wurde in der Studie hier gemacht, indem sie einen lustigen Karton angeschaut haben. Der Karton wurde natürlich vorher getestet, ob der lustig ist. Und einen Fachbegriff würde ich jetzt hier gerne einführen, einfach wenn man den häufig braucht und das ist der Fachbegriff Operationalisierung. Das bedeutet, ich mache Dinge messbar, die eigentlich nicht messbar sind. Und dieses den Fragebogen anwenden, wäre eine Operationalisierung. Was ja auch ganz wichtig sind, ist, dass Messungen einfach per se immer ungenau sind. Und zwar alle Messungen. Selbst wenn ich jetzt mit einem Maßband an einem Tisch rangehe und versuche auszumessen, wie lang der ist, wenn ich das fünfmal mache, kriege ich nicht jedes Mal exakt den gleichen Wert. Das sind zufällige Fehler, die da auftreten. Einfach, wie ich vom Winkel her gucke oder wie ich das Maßband ziehe. Die Messungen sind per se ungenau. Und das trifft natürlich umso mehr zu, wenn ich gar nicht das Merkmal, was ich eigentlich messen will, diese Emotion-Direktmesse, sondern wenn ich sie indirekt messe. Das macht das Ganze einfach noch ein bisschen anfälliger für zufällige Fehler. Das waren jetzt die wichtigen Sachen. Ich fasse das Experiment nochmal ganz kurz zusammen, weil ich es wichtig finde, dass jeder verstanden hat, was jetzt hier gemacht wurde. Also die Versuchspersonen wurden eingeladen. Das war wieder zwischen den Zähnen, zwischen den Lippen oder in der Hand. Und dadurch wurde eben Hand ist einfach die Kontrollgruppe. Da hat man die Idee, das hat keinen Einfluss auf die Emotionen, aber einfach damit man so eine Baseline hat. Dann mussten sie in Kartun schauen und bewerten, wie gut sie von der Stimmung sind. Also ob sie eine gute Stimmung haben oder nicht. Kleiner Funfact. Natürlich muss man den Leuten irgendwas erzählen, damit sie ins Labor kommen und einen Stift in den Mund nehmen. Hier hat man den Leuten erzählt, dass die Menschen mit Behinderung, die so mit dem Stift im Mund schreiben und man möchte da erforschen, wie sich das in verschiedenen Lebenslagen auswirkt. Das war so die Cover Story. Natürlich wurden die am Ende aufgeklärt, was wirklich erforscht wurde. Okay, kommen wir jetzt zu dem methodischen Teil, dem Vergleichen. Der ist mir auch wichtig. Ich finde, dass ihr jetzt die komplette Statistik von A bis Z durchrechnen könnt, sondern einfach ein gewisses Verständnis dafür, wie so eine Statistik funktioniert. Was wir wollen, ist, dass wir vergleichen wollen, die beiden Gruppen. Und zwar, was die bewertet haben, wie lustig das Ganze ist oder in wie guter Stimmung sie sind. Also positive Stimmung. Und da wir in jeder Gruppe mehrere Personen haben, würde es sich anbieten, einfach den Gruppendurchschnitt zu nehmen. Also ich rechne das Zusammenbildendurchschnitt. Und jetzt ist die Frage, kann ich das direkt vergleichen? Kann ich sagen, der Gruppendurchschnitt hat eine super Studie bestätigt? Nein, das wäre ein bisschen zu einfach. Da hätte ich mir lange Jahre Statistikstudium sparen können. Warum? Es gibt eben diese zufälligen Fehler, die ich erwähnt habe. Erstens, die du durchs Messen an sich kommen. Und zweitens, die dadurch aufgetreten sind, dass ich ja nicht alle Menschen befragt habe, sondern nur eine gewisse Stichprobe. Und da habe ich nochmal Zufallseinfluss drin. Das heißt, ich habe jetzt zwei Werte, die sich voneinander unterscheiden. Ich habe hier ein paar Zufallseinflusschritte gefunden. Unterscheiden die sich, weil da wirklich ein Effekt hinterliegt? Oder ist das einfach nur Zufall? Unterscheiden die sich zufällig voneinander? Hier habe ich euch jetzt mal die Original-Tabelle mitgebracht aus der eben gesehenen Studie. Da sieht man jetzt hier bei Min Funniness, das zweite von unten. Das wären jetzt hier unsere Mittelwerte, die wir gebildet haben. Okay, was machen wir jetzt damit? Das war wirklich sehr groß. Also es gibt sehr, sehr viele statistische Verfahren, die für verschiedene Zwecke geeignet sind. Das bekannteste ist, glaube ich, der T-Test. Der ist dafür da, einfach zwei Mittelwerte miteinander zu vergleichen. Funktioniert hier nicht. Wir haben mehr als zwei Gruppen. Zähne, Lippen, Hand. Und deswegen wurde hier eine Varianzanalyse angewendet. Damit kann man mehr als zwei Gruppen vergleichen. Und zwar wurde eine besondere Art von Varianzanalyse angewendet. Die heißt geplante Kontraste. Und das bedeutet einfach nur, dass ich nicht nur vergleiche, unterscheiden sich die Werte voneinander, sondern ich kann vorher aussuchen, welches Muster ich erwarte. Und dann kann ich prüfen, ob das stimmt. Ich will euch jetzt kurz die Grundzüge dieser Varianzanalyse erklären. Ich hoffe, das klappt. Genau. Was ich eben schon gesagt habe, die Grundfrage ist, unterscheiden sich die Werte zufällig voneinander und eigentlich will ich testen, bei diesem geplanten Kontraste-Ding, wie wahrscheinlich ist es, dass ich durch Zufall so ein Muster bekomme. Ich habe es einfach mal hier aufgezeichnet. Und das sind jetzt hier die drei Gruppen. Man sieht, die unterscheiden sich voneinander. Die Frage ist, ist das Zufall oder nicht? Und was ich jetzt machen kann, ist, ich kann die Varianz berechnen. Deswegen heißt das Ding Varianzanalyse. Die Varianz ist im Grunde der Unterschied der einzelnen Messwerte zu ihrem Gruppenmittelwert. Also von jedem einzelnen Punkt zum Mittelwert. Das wird dann in eine Formel gepackt, wird zusammengerechnet. Ist nicht ganz wichtig, wie die Formel genau aussieht. Es wird dann noch quadriert, damit man keine Vorzeichen hat. Und dann kriegt man einen Wert. Und den nennen wir jetzt Varianz innerhalb einer Gruppe. Und das machen wir natürlich für jede Gruppe. Und was wir dann noch machen können, ist, dass wir das Gleiche mit den verschiedenen Gruppen machen. Wir vergleichen nämlich die Gruppenmittelwerte mit dem Gesamtmittelwert, den ich ja auch berechnen kann. Einfach den Mittelwert von allen Personen. Und hier kann ich wieder eine Varianz berechnen. Also wieder der Unterschied der einzelnen Gruppen zum Gesamtmittelwert. Und diese zwei Varianzen kann ich jetzt im Verhältnis zueinander setzen. Und kann sagen, ist die Varianz innerhalb einer Gruppe einfach riesig groß, das würde dann bedeuten, die Leute in der Gruppe sind ganz uneinheitlich, wie glücklich oder wie gut die Stimmung ist. Und dann kann man noch sagen, ist der Unterschied zwischen den Gruppen eher groß oder eher klein. Wenn die Varianz zwischen den Gruppen groß ist, heißt das, da ist ein Riesenunterschied, ob ich jetzt in der Zähnegruppe oder in der Lippengruppe bin. Und wenn ich diese beiden Varianzen, die ich berechnet habe, dann habe ich einen F-Wert. Und da kann ich dann in der Tabelle nachgucken, wie wahrscheinlich ist es, dass ich dieses Verhältnis durch Zufall rausbekommen habe. Und das ist im Grunde schon, wie eine Varianzanalyse funktioniert. Natürlich mit ein bisschen mehr Formeln. Man rechnet das dann noch hoch und schätzt da verschiedene Werte. Aber im Grunde genommen reicht es, zu verstehen, was hier gemacht wird. Und zwar, dass wir dann am Ende sagen können, dass wir jetzt mal zu den geplanten Kontrasten, das wäre jetzt einfach, was ich erwarten würde. Also die Gruppe in der Hand wäre in der Mitte, Zähne wäre erhöht und Lippen wäre niedrig. Das wäre, was ich erwarten würde. Und jetzt kann ich testen, trifft das so zu oder nicht. Gut. Was sagt uns das jetzt, oder was machen wir jetzt damit? Also wir haben jetzt berechnet, die Wahrscheinlichkeit, dass es nicht nur Zufall ist, sondern dass da wirklich was hintersteckt. Das ist ein ziemlich unrealistisches Ziel, weil wir eben so viele Zufallseinflüsse da drin haben. Wäre es richtig gruselig, wenn das wirklich zu 100 % sicher wäre. Und deswegen hat man sich überlegt, dass man so eine Irrtumswahrscheinlichkeit einführt, auf die sich alle einigen, die noch in Ordnung ist. Und meistens nimmt man dafür 5 % oder 1 %. Und berechnet eben so eine Irrtumswahrscheinlichkeit, die ist in allen Studien noch immer drin, die nennt sich P oder P-Wert. Und dann sage ich einfach, wenn meine Irrtumswahrscheinlichkeit kleiner als 0,05 ist, also kleiner als diese 5 %, dann nenne ich das Ganze signifikant und sag, okay, ich gehe davon aus, dass der Unterschied echt ist und dass das nicht nur Zufall ist. Und ich finde, das ist ganz wichtig, um einzuschätzen, was Studien eigentlich aussagen. Man darf nicht darauf kommen, okay, Signifikanz bedeutet es unbedingt so, sondern auch signifikant bedeutet, man hat noch eine Irrtumswahrscheinlichkeit drin. Und wenn man in dieser Studie, die ich euch mitgebracht habe im ersten Experiment, ist die Irrtumswahrscheinlichkeit P gleich 0,03, also 3 %, nun mal so zur Einschätzung. Was machen wir jetzt mit diesem Ergebnis? Wir haben jetzt gerechnet und haben rausgefunden, unser Test wird signifikant. Also geht der beobachtete Unterschied, dass nämlich die einen in ne positiver gestimmt sind als die anderen, geht wahrscheinlich auf unsere Manipulation zurück, nämlich dass die einen gelächelt haben und da wir ja ausgeschlossen haben, also da wir die Annahme haben, dass das, was wir machen, ausschließt, dass die Leute das kognitiv verarbeiten, schließen wir jetzt daraus, dass die physiologische Theorie, die ich am Anfang vorgestellt habe, wahrscheinlicher wird. Ganz wichtig, das ist kein Beweis, dass sie wirklich zutrifft. Es ist halt nur kein Gegenbeweis und es unterstützt die Hypothese, die wir haben mit einer gewissen Irrtumswahrscheinlichkeit. Gut, das wäre es von mir zu dem Teil, wie empirische Forschung funktioniert. Die Studie könnt ihr nachlesen. Das habe ich euch am Ende auch nochmal zusammengefasst. Und jetzt würde ich mich mit euch gerne kurz damit beschäftigen, was eine gute Studie überhaupt ausmacht. Woran erkenne ich das? Hier mal zusammengefasst. Ich gehe auf die Punkte nochmal näher ein. Zum ersten brauchen wir eine gute Operationalisierung. Wir brauchen da angemessene Stichproben. Wir müssen eine ordentliche Statistik berechnen. Ganz wichtig, natürlich Korrelation und Kausalität auseinanderhalten. Und als zwei Hinweiswerte, die man hinzuziehen kann, gibt es noch Peer Reviews und Impact Factor. Da gehe ich auch noch kurz darauf ein. Was ist eine gute Operationalisierung? Also das Messbar machen von nicht messbaren Dingen. Zum Beispiel standardisierte Tests. Das ist immer relativ gut, wenn man sowas nutzen kann, weil das eben schon von jemand anderem getestet wurde, aber das ist auch immer sehr interessiert. Was ich auch immer sehr wichtig finde, kriege ich in einer Studie, die ich lese, eine sinnvolle Erklärung, warum so gemessen wird, wie gemessen wird. Und auch wichtig, gibt der Autor der Studie an, welche Qualitätskriterien seine Messart hat. Wenn man zum Beispiel so einen standardisierten Fragebogen hat, hat man so Qualitätskriterien, die heißen zum Beispiel Reliabilität und Validität. Und dazu gibt es Werte. Und die sollten angegeben sein. Manipulation Check durchführt. Das bedeutet, wenn die Autoren am Ende nochmal prüfen, hat das wirklich funktioniert, was ich machen wollte. Also lächeln die Leute auch wirklich mit diesem Stift im Mund oder haben die irgendeine Art gefunden, den so zwischen den Zähnen einzuklemmen, dass sie dabei doch nicht lächeln. Das wäre der Manipulation Check. Auch hilfreich ist immer, wenn man sich nicht sicher ist, dass das eine gute Operationalisierung andere Studien suchen, die was Ähnliches messen und einfach mal vergleichen. Ist das vielleicht sinnvoller, als das, was ich hier jetzt gerade vorgesetzt bekomme. Auch wichtig, eine angemessene Stichprobe. Es gibt da so eine Daumenregel, die besagt, wenn man verschiedene Gruppen hat, sollte man mindestens 30 Leute pro Gruppe haben, damit die Daten auch wirklich aussagekräftig sind. Das ist natürlich nicht immer möglich, aber man sagt, das sollte ungefähr erfüllt sein, damit man mit der Stichprobe zufrieden sein kann. Ein ständiges Problem, was ich euch nicht vorenthalten möchte, ist, in vielen Studien werden Studierende als Stichprobe ausgewählt. Einfach, weil sie da sind und bereit sind, mitzumachen. Das kann ein Problem sein, nämlich wenn Unterschiede zu anderen denkbar sind. Also wenn man jetzt politische Einstellungen erforscht, dann ist es klar, dass Studierende da vielleicht ein bisschen anders ticken als die Gesamtbevölkerung. Dann ist es ein Problem. Darauf sollte man achten, wenn man so eine Studie liest, kann man sich da aber noch was anderes vorstellen. Und wenn es um so etwas wie lächeln geht, ist das weniger ein Problem. Und was auch sehr sinnvoll ist, ist, wenn in dem Artikel in der Studie irgendwo drin steht, wurde überprüft, ob die Versuchspersonen durchschaut haben, was man messen wollte. Weil wenn sie das merken, dann kann man die Ergebnisse unter Umständen nicht mehr gebrauchen. Das wäre für mich auch ein Qualitätsmerkmal, wenn das da drin steht. Ordentliche Statistik, das bedeutet vor allen Dingen, das richtige statistische Verfahren zu verwenden. Das heißt, wenn man so etwas kann passieren, wenn man das falsche Verfahren verwendet, wenn man viele Einzeltests rechnet. Also wenn ich jetzt anstatt alles zu vergleichen sage, ich vergleiche 1 mit 2, 2 mit 3, 1 mit 3, dann habe ich ganz viele Tests gerechnet statt einem großen. Und das ist nicht gut, weil die Eertumswahrscheinlichkeit ja immer nur für einen Test gilt. Und wenn ich mehrere Tests rechne und damit aber eine Frage beantworten will, dann habe ich hinterher, weil sich diese Eertumswahrscheinlichkeiten summieren, habe ich eine größere Eertumswahrscheinlichkeit, als ich eigentlich haben wollte. Und dann ist mein Ergebnis weniger sicher. Ob etwas das richtige statistische Verfahren ist, ist für Leinschwer einzuschätzen. Das gebe ich zu. Das ist eher schwierig. Was man sich da angucken kann, wird genau berichtet. Also werden alle Kennwerte reingeschrieben und wäre es einem Profi möglich, das Ganze vielleicht auch nochmal durchzurechnen. Das spricht immer dafür, dass es nicht so gut ist. Korrelation und Kausalität ganz kurz, ich glaube, das wissen die meisten auch schon, welche Schlüsse werden gezogen. Korrelation ist der Zusammenhang zwischen zwei verschiedenen Merkmalen und Kausalität bedeutet A verändert B. Kleines Beispiel, was ich gerne gebe, was auch bekannt ist, in Landstrichen mit mehr Störchen werden mehr Kinder geboren. Darf ich daraus jetzt schließen, nein, denn hier werden jetzt andere Gründe noch vergessen werden, zum Beispiel, dass auf den Land mehr Störche leben und viele Leute aus Land ziehen, wenn sie Kinder bekommen. Deswegen muss ich immer sehr darauf aufpassen, welche Schlüsse darf ich überhaupt ziehen. Zum Beispiel muss auch die zeitliche Abfolge gegeben sein. Wenn A nicht vor B passiert, dann kann A nicht B verändern. Einfach wichtig, darüber nachzudenken, was man sieht, kann das überhaupt sein. Ein Hinweis, den man sich angucken kann, wenn man wissen will, ist eine Studie gut oder nicht. Studien werden meistens in Zeitschriften veröffentlicht und viele Zeitschriften haben ein sogenanntes Peer Review. Das gab es auch in einigen anderen sehr guten Vorträgen zu hören. Das bedeutet, dass andere Forscher aus dem Feld den Beitrag bewerten, wenn er eingereicht wird. Man kann sich nicht nur umstritten, sich darauf zu verlassen. Es gibt auch Forscher, die sich untereinander lange kennen. Man zitiert gern von Kollegen. Das ist kein Merkmal, wo ich sagen muss, das stellt die Qualität immer sicher. Aber es ist ein guter Hinweis auf Qualität. Wenn ich eine Zeitschrift habe, wo kein Peer Review stattgefunden hat, dann ist es auf jeden Fall schon mal ein bisschen kritischer zu betrachten. Genauso beim Impact Factor. Der Impact Factor, das ist eine Kennzahl, die zur Zeitschrift gehört und die mehr oder weniger besagt. Wie oft wurde denn daraus zitiert? Wie bekannt ist diese Zeitschrift? Das kann man als Qualitätskriterium nehmen, das darf man allerdings nicht überbewerten. Die Idee dahinter ist, umso bekannter die Zeitschrift ist, umso mehr Auswahl hat sie, umso mehr Artikel werden eingereicht und umso mehr kann sie sich aussuchen, was sie dann am Ende nimmt. Die Annahme ist, umso mehr Auswahl hat. Wie gesagt, das darf man nicht überbewerten. Das bedeutet nicht, dass alle Studien, die in Journals mit hohem Impact Factor kommen, auch wirklich alle top sind. Aber man kann es zumindest mal als Hinweis nehmen. Wenn man eine Studie gefunden hat, guckt man sich einfach mal den Impact Factor an. Und kann dann so ein bisschen einordnen. Also Impact Factor über eins wurde bei uns im Studium immer gesagt, kann man zitieren. Das heißt, wir haben die Grenze aber so zur Einordnung für euch. Gut, damit hätte ich so ein bisschen euch versucht, einen Einblick zu geben, was eine gute Studie ist. Jetzt wollen wir noch kurz zur Frage kommen, was mache ich eigentlich, wenn ich wie vorne im Comic beschrieben unterschiedliche Ergebnisse habe. Wenn ich zwei Studien finde, die was komplett gegenteiliges aussagen. Und da will ich noch mal kurz auf das Beispiel vom Bystander-Effekt umso mehr Leute bei einem Unfall zusehen, umso weniger gibt es dann Hilfeleistungen. Und die Grundlage ist ein Fall aus New York von einer gewissen Kitty Genovese, die damals ermordet wurde. Und um die 40 Nachbarn haben das mitgekriegt. Die haben gehört, wie sie geschrieben hat und kein einziger hat die Polizei gerufen. Und das hat einen gewissen John M. Darley dazu veranlasst, da man ein bisschen genauer drauf zu gucken. Er hat viele Experimente dazu gemacht, in denen er einen Unfall simuliert hat und hat einfach variiert, wie viele Personen dazu geguckt haben. Und hat dann gemessen, helfen die. Und wenn ja, wie lange dauert es, bis die helfen. Und dieser Effekt, das ist auch schon relativ lange her, der wurde oft gefunden und sehr viel diskutiert, gerade weil es auch so ein bisschen gruselig ist, die Idee, dass einfach niemand hilft. Und da gibt es, wie am Anfang erwähnt, unterschiedliche Ergebnisse. Manche haben das gefunden und manche nicht. Was machen wir jetzt damit? Zuerst mal genauer hinschauen. Manchmal, wenn Studien so erscheinen, als wären sie komplett gegensätzlich, gibt es einfach Unterschiede, die dafür sorgen, dass sie dann am Ende doch nicht so gegensätzlich sind. Außerdem möchte ich euch Meteranalysen kurz vorstellen und sogenannte Reviews. Zu den Unterschieden. Ergebnisse scheinen manchmal nur widersprüchlich. Zum Beispiel kann man sich angucken, was für eine Stichprobe wurde untersucht. Wenn in der einen Stichprobe Kinder genommen wurden, in der anderen Erwachsene, könnte es vielleicht sein, dass gar nicht irgendeiner der Studien falsch ist, sondern dass es einfach bei Kindern unterschiedlich funktioniert, als bei Erwachsenen. Oder man kann sich die Operationalisierung anschauen. Also, wie wurde das Ganze durchgeführt? Zum Beispiel wurden mehrere Versuchspersonen, ich habe jetzt hier echte Personen geschrieben, sind natürlich alles echte Personen, aber mehrere Versuchspersonen sind Versuchspersonen, Zeuge dieses Unfalls, oder war nur eine der anwesenden Personen eine Versuchspersonen und das andere war ein Eingeweite. Das kann einen Unterschied machen. Also, was können wir machen, um das jetzt genauer rauszufinden? Man kann sich so eine Meteranalyse, die ich gleich vorstelle, anschauen und es gibt auch Moderatoranalysen. Das sind dann Analysen, in denen rausgefunden wird, macht das jetzt einen Unterschied, in welchen Versuchspersonen die Ausfassende sind. Zu den Meteranalysen. Meteranalysen sind Zusammenfassungen mehrerer Studien in einem wissenschaftlichen Artikel und vorausgehen da umfassende Literaturgescherchen. Das heißt, der Autor von einer Meteranalyse versucht zum Beispiel vom Jahr 1970 bis 2010 alle Studien zu erwischen, dann packt er die in einen Artikel und beschreibt eben oft auch die Unterschiede, die zwischen diesen Studien auftreten. Was sehr praktisch ist, ist die Berechnung von Effektstärken. Die möchte ich euch kurz näher bringen. Effektstärken sagen halt aus, wie stark so ein Effekt ist, wenn er auftritt. Wie sehr unterscheidet sich das? Sehr praktisch ist die Berechnung von Effektstärken über alle Studien von 1970 bis 2010. Effektstärken sind ein Kennwert, wie groß ein Effekt ist und das Schöne daran ist, dass sie standardisiert sind. Das heißt, vergleichbar zwischen Studien, wenn ich mir Mittelwerte angucke, dann hat der eine vielleicht eine andere Skala in seiner Studie verwendet und dann kann ich die nicht mehr direkt miteinander vergleichen. Effektstärken kann ich vergleichen. Die Berechnung von Effektstärken ist Co-Hins-D. Das kann man berechnen und da gibt es auch so eine Richtlinie, wie man das einschätzen kann. Ein kleiner Effekt wäre so um die 0,2. Ein Effekt um die 0,5 würde man mittlere Effekt nennen und ab 0,8 würde man von einem großen Effekt sprechen. Ich denke, das ist relativ hilfreich. Wenn man dann so eine Gesamteffektstärke in einer Meta-Analyse liest und dann drauf guckt, okay, ist das ein großer, mittlerer oder kleiner Effekt, dann habe ich schon eine relativ gute Idee davon, wie diese Fragestellung, die ich da betrachte, einzuschätzen ist. Ich habe eine Meta-Analyse gefunden zu diesem Bystandereffekt, den ich euch vorgestellt habe. Da sieht man auch, dass das relativ viele Autoren sind. Das ist nötig, weil diese Literaturrecherchen auch oft sehr aufwendig sind und am Ende auch noch mal auf die Folien geschrieben. Gern mal reingucken ist relativ interessant, weil dann auch solche Widersprüche, solche scheinbaren Widersprüche darin aufgelöst werden. Reviews ist noch ein bisschen was anderes als Meta-Analysen. Reviews sind Zusammenfassungen des aktuellen Wissenstands über ein bestimmtes Thema. Diese Reviews sind auch Artikel, die meist von Forschern aus der entsprechenden Richtung erstellt werden. Jetzt haben wir 2010, ich fasse jetzt einfach mal zusammen, was bisher über diesen Effekt bekannt ist. Das Praktische ist, dass wenn man das als nicht ganz in diesem Feld informierter Mensch liest, dann hat man ein Fachmann, der mit dem Fach wissen, dass er die Widersprüche auflöst, der einem erklärt, warum sich diese Studien voneinander unterscheiden. Das kann auch sehr praktisch sein. Genau, das wären im Grunde genommen schon meine Tipps, was man machen kann, wenn man unterschiedliche Ergebnisse findet, Meta-Analysen oder Reviews zu dem Thema suchen. Jetzt möchte ich mich noch ganz kurz am Ende damit befassen, welche Probleme die Wissenschaft hat, weil ich es einfach nicht fair fände, euch hier ein positives Bild zu verkaufen, als es eigentlich ist. Die Probleme, es gibt natürlich mehr Probleme als die Wissenschaft, als jetzt die drei, die ich hier vorstellen werde, aber da die Zeit begrenzt ist, werde ich mich auf diese drei konzentrieren. Das erste ist P-Hacking, das zweite ist die eben schon erwähnte Replikationskrise und das dritte ist der Publication Bias. Zum P-Hacking, was P-Hacking bedeutet, dass man Daten manipuliert, um das gewünschte Ergebnis zu bekommen. Ziel bei diesem P-Hacking ist diesen P-Wert, den wir eben schon besprochen haben, also die Eertumswahrscheinlichkeit unter 5% zu drücken, indem man an Stellschrauben ein bisschen dreht, damit man eben diese Statistiken beeinflussen kann und damit möchte man erreichen, dass der Test, den man durchführt, dann irgendwie doch noch signifikant wird. Das ist im Grunde absichtlich istäuschen und das Schlimme ist, also die wenigsten Autoren veröffentlichen ihre Rohdaten und selbst wenn könnte man das vielleicht auch nicht ganz nachvollziehen und das ist auf jeden Fall ein Problem. Es gibt schon Ansätze, um das irgendwie ein bisschen zu verhindern, ein Ansatz, der eben schon vorkam, Replikationsstudien. Also ich schaue mir eine Studie an und versuche sie einfach nochmal genauso durchzuführen um gleiche Ergebnisse zu kommen. Und damit kann ich eventuell dann im Nachhinein Peahacking aufdecken. Allerdings darf man da noch nicht voreilig sein, weil wenn man jetzt was anderes findet, muss man dem vorherigen Autor nicht unbedingt unterstellen, dass er es absichtlich falsch gemacht hat. Wir haben ja auch immer noch unsere Eertumswahrscheinlichkeit. Aber zumindest kann man dann mal schauen wie es in dem Feld so aussieht. Wichtig, das Problem ist dadurch nicht gelöst. Das ist nur ein Lösungsansatz, aber theoretisch kann das immer noch vorkommen. Die Replikationskrise schließt jetzt da so ein bisschen ungünstig dran an, weil ich euch eben vorgestellt hat, dass Replikationen da so ein Ansatz sind. Genau, Replikation ist die Studie einfach zu wiederholen von einem anderen Forscher mit der gleichen Fragestellung und wie eben schon kurz angedeutet, gab es da gerade in der Psychologie vor einiger Zeit eine Replikationskrise. Man hat festgestellt, relativ viele, relativ wichtige Befunde, auf die wir uns, die wir seit Jahren irgendwie als relativ sicher angenommen haben, konnten nicht repliziert werden. Was gibt es da, was gibt es da für Ansätze? Also eigentlich kann man nur ansetzen, wenn man die Studie zum ersten Mal schon durchführt, indem man einfach mehr auf die Studienplanung achtet und dann zur Studie von Anfang an schon ordentlich planend viele Versuchspersonen, damit man sich bei dem Ergebnis dann noch einfach sicherer ist und man kann die Ehtumswahrscheinlichkeit reduzieren. Ich habe ja eben erklärt, entweder setzt man die auf 5% oder auf 1% fest und um so restriktiver man dabei ist, um so sicherer kann man sich natürlich auch sein und wenn wir uns alle darauf einigen, wollen, dann können wir vielleicht in Zukunft sowas wie Replikationskrisen eher vermeiden. Aber auch dieses Problem ist noch nicht gelöst. Das letzte Problem, was ich euch jetzt noch vorstellen möchte, ist der Publication Byes. Das Problem ist da, dass signifikante Ergebnisse, also wenn jemand wirklich einen Effekt gefunden hat, dass diese Studien eher veröffentlicht werden als Studien, die keinen Effekt gefunden haben. Und wenn wir uns dann angucken, dass wir immer eine Ehtumswahrscheinlichkeit haben, aber nur die Studien veröffentlicht werden, die auch was gefunden haben, dann sehen wir schon, dass es ein Problem ist, weil das eben ein falsches Bild erzeugen könnte. Weil wir vielleicht von den ganz vielen Studien, die zu dem Thema schon gescheitert sind, gar nichts gehört haben, weil die einfach nicht publiziert wurden. Was könnte da ein Lösungsansatz sein? Also einen, den ich kenne, sind Meteranalysen. Ich habe ja schon gesagt, dass da oft umfangreiche Literaturrecherchen betrieben werden. Und es gibt statistische Verfahren, um diese Effektstärken, die ich berechne, anzupassen. Und sozusagen runterzurechnen, in dem Fall, in dem ich annehme, dass es noch unveröffentlichte Studien gibt, die nichts gefunden haben. Was auch mal klasse ist, wenn bei Meteranalysen Autoren angefragt werden. Also wenn ich eine Meteranalyse schreibe, dann rufe ich alle möglichen Leute aus dem Feld an, wo ich weiß, die haben zu dem Thema schon mal geforscht und fragt nach, hast du auch noch unveröffentlichte Studien zu dem Thema? Irgendwas, was du durchgeführt hast, was keinen Effekt hatte? Und umso mehr ich das mache und da auch Daten von bekomme, umso besser kann ich so eine Korrekturechnung durchführen und kann dann am Ende nicht wirklich ist, wenn ich auch die Studien einbeziehe, die nicht veröffentlicht wurden. Aber ganz gelöst ist dieses Problem auch noch nicht. Gut, ich denke, ich hoffe, dass ich die unteren Fragen jetzt soweit mehr oder weniger beantwortet habe und würde deswegen nochmal zur Zusammenfassung auf die Frage zurückkommen, kann man empirischen Studien denn jetzt trauen oder nicht? Ja, aber so wie immer. Meine Zusammenfassung ist, Studien haben unterschiedliche Qualität. Jetzt mal abgesehen von Fake-Science oder sonstigem auch Studien, die von Wissenschaftlern im besten Wissen und Gewissen durchgeführt wurden, haben eine unterschiedliche Qualität. Deshalb ist es wichtig die Studienqualität selber irgendwie bewerten zu können. Das heißt nicht, dass jeder jetzt Wissenschaftler sein sollte, aber wenn man einen Effekt in eine Diskussion einbringen möchte, nicht nur die Zusammenfassung aus irgendeiner Populärwissenschaft oder aus irgendeiner Populäranzeitschrift zu nehmen, sondern sich ruhig mal die Studie selbst anzugucken und die mal durchzulesen. Es ist nicht schlimm, wenn man nicht alles versteht, aber sich einfach mal ein eigenes Bild davon machen, was wurde da überhaupt gemacht und ist das in meinen Augen, kann ich dieser Studie trauen ganz wichtig finde ich, dass man Wahrscheinlichkeiten versteht. Deswegen habe ich auch am Anfang diesen Methodenteil eingefügt, weil ich oft Menschen höre, die sagen, ja, die Studie hat es gefunden, also muss es stimmen und das ist ein Fehlschluss, den man gerne macht, aber wenn man so ein bisschen versucht zu verstehen, dass das alles Wahrscheinlichkeiten sind und dass wir keine 100-prozentige Sicherheit haben, dann kann man diese Studien besser einschätzen. Mein Fazit auch Meteranalysen und Reviews manchmal natürlich auch mit Vorsicht zu genießen, aber im Grunde eine sehr, sehr hilfreiche Sache, wenn man sich über ein Thema mal einen Überblick bilden möchte. Aber wir haben natürlich auch diese offenen Probleme in der Wissenschaft, von denen ich ein paar angesprochen habe. Die sollte man in seinem Vertrauen auf Studien auch nicht einfach unter den Teppich kehren. Mein Fazit alles in allem wurde eigentlich am Anfang schon zusammengefasst. Wissenschaft ist im Moment, oder die Wissenschaft, so wie sie hier sie machen, ist das Beste, was wir momentan haben. Wenn wir darauf gucken, was für Studien wir vertrauen, dann ist das immer noch das Mittel der Wahl. Wir sollten Studien vertrauen, aber dabei kritisch bleiben. Vielen Dank. Kleiner Kommentar vielleicht zum Abschluss. Auch im Hinblick auf Locked Up Science und Ähnliches. Diese Studien, die ich euch mitgebracht habe, sind alle frei verfügbar. Die könnt ihr natürlich alle gerne im Internet nachlesen. Vielen Dank. Und jetzt haben wir noch Zeit für Fragen und Antworten. Wir haben hier im Saal acht Mikrofone verteilt. Möglicherweise sind die dem ein und der anderen schon aufgefallen. Versammelt euch einfach dahinter. Ich würde dann versuchen mehr oder weniger zu koordinieren, wer wann rankommt. Ich frage als erstes aus dem Internet. Wo ist überhaupt unser Internet? Da ist das Internet. Nix aus dem Internet. Alles klar. Dann fangen wir doch direkt mal mit Mikrofon zwei. Ja, hallo. Irrtumswahrscheinlichkeit. Du hast gesagt, das ist mal auf 1%, mal auf 5% festgesetzt. In der vorgestellten Studie habt ihr 3% gesagt. Mir ist immer noch nicht ganz klar, wo der Wert denn nun eigentlich her kommt. Macht ihr die Studien, macht eure Statistiken, eure Wahrscheinlichkeiten, Berechnungen und so weiter. Jetzt guckt jemand auf und sagt, jetzt haben wir hier P0,4. Wir wollten aber 0,3. Also sind wir nicht signifikant. Oder sagen wir, okay, mit 5 kommen wir auch durch. Dann haben wir jetzt 4%, also sind wir signifikant. Oder landen wir am Ende bei P-Hacking und sagen, okay, wo muss ich hin, damit ich signifikant bin, auch wenn es 20% sind. Wo kommt das P her? Das ist mein Ziel, was ich mir setze. Und dann berechne ich eben mit Hilfe dieser statistischen Methoden einen Wert. Und der ist dann zum Beispiel 3% wie hier. Und die haben sich jetzt vorher gesagt, okay, ich möchte unter 5% kommen mit meiner Irrtumswahrscheinlichkeit. Ich habe 3% erreicht. Also alles super. Das ist mein Ziel, was ich mir setze. Und dann berechne ich eben mit Hilfe dieser statistischen Methoden und wenn das 1% erreicht. Also alles super. 3% ist weniger als 5%. Deswegen nenne ich das Ganze signifikant. Hätten Sie vorher gesagt, nee, ich will die 1% erreichen und sind dann bei 3% gelandet, hätten Sie sagen müssen, es ist nicht signifikant. Das ist genau das. Wo ich sage, wenn man sich höhere Ziele setzt, dann kann man sich auch sichere sein am Ende. Beantwortet das die Frage? Wo dieser Wert aus der Studie dann rauspurzelt, hängt er von den statistischen Methoden ab, die er innerhalb der Studie auswertet. Und da gibt es dann feste Vorgehensweisen, wo ich am Ende sage, das mache ich so und so. Also ist das jetzt mein P-Wert? Genau, das ist das, was man berechnet. Ich habe eben gesagt, man vergleicht dann die eine Varianz mit der anderen. Die rechnet man in so einer Formel zusammen und kriegt dann ein Wert raus und schaut ihn in der Tabelle nach und das ist dann der P-Wert. Wenn ich das jetzt hier in der Tiefe wirklich darstellen könnte, wie diese Berechnung funktioniert, da kann ich nur empfehlen, sich ein Methodenlehrebuch mal zur Hand zu nehmen. Dann kann man sich genau anschauen, wie diese Berechnung im Detail mit Formeln funktioniert. Weil machen wir weiter mit Mikrofon 4, bitte. Beres, denkbar, dass man die einzelnen Phasen oder die einzelnen Teile einer Studie irgendwie auf mehrere Leute verteilt um so eine Art Metastudie innerhalb einer Studie zu schaffen. Also, dass andere Leute Daten erheben, als sie auswerten. Dass andere Leute sich die Stichprobe überlegen und solche Sachen. Das wäre möglich, das findet teilweise schon statt. Meistens ist es in meiner Erfahrung nicht der Forscher selbst, der dann da sitzt mit den Versuchspersonen. Das machen meistens Hilfskräfte zum Beispiel. Und auch Auswertungen. Gut, dass man das wirklich bei unterschiedlichen Leuten gibt. Könnte man wohl tun. Ich habe es häufig so erlebt, dass man sich dann einfach nochmal zusammensetzt und die Auswertung nochmal von jemand anderem gegenchecken lässt. Aber es wäre theoretisch auch möglich, wenn wahrscheinlich auch etwas aufwendig, das komplett voneinander zu trennen. Und die fünf, bitte. Danke für den sehr übersichtlichen Vortrag. Ich finde, ein weiteres Problem ist, dass Menschen, die außerhalb der Wissenschaft stehen oder außerhalb der Fachdisziplin die Ergebnisse von Studien nicht direkt aus den Studien bekommen. Sie lesen nicht die Papers, sondern die lesen im Internet oder in einer Zeitung. Das haben Journalisten geschrieben. Und die Journalisten wiederum haben ihre Informationen auch nicht aus der Studie, sondern die haben das von der Marketingabteilung der Universität. Und da habe ich haasträumende Dinge auch von großen, bekannten Universitäten gesehen, dass die Marketingabteilungen dann die Studien komplett falsch darstellen. Also komplett übertreiben, was die Effekte usw. angeht. Ja, das war ja mehr oder weniger mein Ansatz mit diesem Vortrag auch, die Menschen zu ermutigen, sich dann mal die Originalstudie zur Hand zu nehmen und da mal selber reinzugucken. Auch wenn das vielleicht im ersten Moment ein bisschen abschreckend wirkt. Und Mikrosieben gibt es die Möglichkeit irgendwie so Details zur Studienplanung im Vorfeld schon irgendwie bei einer dritten, also bei einer unabhängigen Stelle zu hinterlegen, sodass man nicht so Sachen machen kann, wie zu sagen, ah, wir haben uns eigentlich P. gleich 5, oder P. gleich 1, also 1% zum Wahrscheinlichkeit als Ziel gesetzt und kommen jetzt aber bei 3 raus, von dem wir sagen wir 5 und wir sind signifikant. Ja, die Möglichkeit gibt es, das ist ein Phänomen, was langsam bekannter wird, dass man bei verschiedenen Zeitschriften vorher so was wie so ein Abstract einreicht, bevor man die Studie überhaupt durchführt. Dann wird das schon mal gegengelesen, wird schon mal geprüft und dann kann man natürlich am Ende dann nicht mal sagen, okay, jetzt habe ich aber doch was ganz anderes gemacht. Das gibt es, das ist auch eine sehr, meiner Meinung nach, sehr sinnvolle Sache, wird leider auch zu wenig gemacht, ist natürlich auch relativ aufwendig, wenn man dann 2 Einreichprozesse hat. Das macht es nicht einfacher. Die 1, bitte. Hi, ich will nochmal kurz auf die Signifikanzniveaus eingehen und das Erreichen der Signifikanzniveaus an sich ist ja kein Merkmal für Qualität einer Studie richtig, sondern nur die Interpretation dessen. Ja, das, also ob man jetzt, das stimmt, ob man das Signifikanzniveau erreicht oder nicht, sagt nicht, ob es eine gute Studie ist, sondern das sagt nur, ob ich einen Effekt gefunden habe oder nicht. Es gibt sehr, sehr gute Studien, die keinen Effekt gefunden haben und die teilweise auch einfach gute Studien sind, weil sie keinen Effekt gefunden haben und das sind 2 unabhängige Dinge, ob eine Studie gut ist oder ob sie was und ob sie was findet. Die 8, bitte, er winkt schon. Ja, danke schön. Erst mal vielen Dank Ach, Latenz ist ja echt fies. Ich hätte eine Nachfrage zum Publication Bias. Wir haben in vielen Wissenschaften das Problem, dass viel veröffentlicht werden muss um überhaupt an eine Stelle heranzukommen. Wie wird da speziell in der viele Sophie, wollte ich schon sagen, in der Psychologie mit umgegangen, wenn eh schon ein Problem mit Publication Bias generell besteht? Ja, wie wird damit umgegangen? Man muss trotzdem publizieren um eine gute wissenschaftliche Karriere hinzulegen. Mir ist da ehrlich gesagt kein besonders guter Ansatz persönlich bekannt. Also es ist leider so, dass nur die Studien, die was finden auch veröffentlicht werden und es ist leider immer noch so, dass man viel veröffentlichen muss. Ja, wenn ich eine Lösung wüsste, dann würde ich mich sehr freuen. Ich würde mich sehr freuen, dass ich die Frage nicht so richtig gut beantworten kann. Die zwei, bitte. Vielen Dank für den schönen Überblick. Für mich persönlich war der letzte Teil am interessantesten eigentlich und ich wollte fragen, ob du noch mal darauf eingehen kannst, wie diese drei Probleme alle zusammenhängen, weil das wirkte jetzt so, als wären das irgendwie so drei Dinge, die man im Hinterkopf halten sollte, aber eigentlich irgendwie auch gar nicht so die hängen ja auch miteinander zusammen und auch gerade dieser Impact Factor, von dem du gesprochen hast, der ist ja irgendwie auch eine Auslösse für diese Probleme, die Fiskierungen da drauf. Ja, also die hängen auf jeden Fall zusammen, das stimmt, weil wenn ich sage, Peehacking kann ich ein bisschen dadurch abschwächen, diesen Effekt kann ich dadurch abschwächen, dass ich Replikation mache und wenn ich dann sage, ja, aber Replikation haben ja auch so ihre Probleme, absolut, die hängen zusammen. Ich kann noch, denke ich, drüber referieren, wie die genau zusammenhängen. Ich kann auch die anderen Vorträge noch empfehlen, gerade zu diesem Publication-Bias, die noch gelaufen sind. Ja, ich hab nicht ganz verstanden, was ich dazu noch genau sagen soll zu dem Publication-Bias. Wie zum Beispiel Peehacking mit den Bias zusammenhängt, also gerade dadurch das, dass die Signifikaner in Studien fokussiert kommt, ist immer zu Peehacking und das hängt mit dem Impact Factor zusammen. Absolut, genau. Das beantwortet im Grunde schon genau die Frage, das ist richtig. Wenn natürlich nur Studien publiziert werden, die auch Effekte haben, dann ist der Wissenschaftler unter einem größeren Druck auch einen Effekt zu finden und dann ist er vielleicht eher verleitet, an seinen Daten noch rumzuschrauben, damit sie veröffentlicht werden. Das ist genau richtig. Das Problem ist, diesen Publication-Bias aufzulösen ist halt auch eine Frage, weil es ist leider auch einfach so, dass man selbst als Wissenschaftler auch nicht so unglaublich interessiert daran ist in der Zeitschrift, acht verschiedene Beiträge zu lesen, die alle sagen, ja, wir haben da nichts gefunden, wir haben da nichts gefunden, wir haben da nichts gefunden. Es ist eine schwierige Geschichte, muss ich ehrlich sagen. Es ist 12.23 Uhr, das Internet ist aufgestanden und hat eine Frage. Ja, die Frage lautet, ob wir die Sicherung auffallen. Die einem selbst als Autor auffallen. Ja, idealerweise sollte man sie richtig stellen. Also, ich denke, der schönste Weg wäre noch eine Studie dazu, am besten durchzuführen. Natürlich, wenn einem jetzt so ein Riesenpazzer passiert ist, könnte man auch versuchen, das richtig zu stellen. Ich muss ehrlich zugeben, dass ich da noch nicht genügend Erfahrung mit habe. Mir ist das noch selbst momentan nicht passiert. Und ich habe das leider von noch niemandem mitbekommen, wie er damit umgegangen ist. Und die fünf, bitte. Ja, danke auch von mir nochmal für den Vortrag. Ich würde noch mal kurz auf die Herausforderungen eingehen. Du hast da ganz zum Schluss gesagt, es fehlen die Daten und Replikationen können teilweise nicht erstellt werden. Gibt es da Ansätze, dass zum Beispiel Journals existieren, die Veröffentlichung der Daten erfordern und die vielleicht auch schon, dass eine Studie nicht nur einmal durchgeführt wird, bevor sie veröffentlicht wird, sondern dass sie zweimal durchgeführt wird. Also das mit dem mehrmals durchführen, kenne ich persönlich jetzt noch nicht. Was ich sehe, ist, dass es von Wissenschaftlern selbst Bestrebungen gibt, ihre Daten komplett offen zu legen. Das passiert meistens, soweit ich das mitbekommen habe, dann im Internet. Und ob es Journals gibt, die das explizit fordern, weiß ich jetzt leider nicht. Ich habe das schon gesehen, aber ich hatte immer das Gefühl, dass das eher von den Wissenschaftlern ausgeht, die dann sagen, okay, ich mache all meine Daten frei zugänglich, rechnet das gerne nach. Also die Idee gibt es auf jeden Fall. Mikrofon 4, bitte. Hallo, ist die Tatsache, dass man gerne einen falschen Untersuchungsgegenstand angibt, schon mal aufgefallen, kann man das rausrechnen in der Psychologie? Man macht das jetzt sehr, sehr häufig, und das man sagt, man untersucht eigentlich das andere. Ein falschen Untersuchungsgegenstand. Wie du gesagt hast, dass man sagt, es geht um Körperbehinderte Menschen, die mit dem Mund schreiben. Ach so, so eine Cover Story? Ja, weil man würde ja meinen, dass mittlerweile sehr viele Leute auch denken, dass in der Psychologie, wenn du zu einer Studie gehst, es tatsächlich um was komplett anderes geht. Aber das mit diesen Cover Stories, ganz wichtig ist, dass das am Ende der Studie natürlich aufgelöst wird. Also die Leute werden nur während der Studie darüber getäuscht, was erhoben wird. Und am Ende der Studie werden die ausführlich aufgeklärt. Und denen wird dann gesagt, was gemessen wurde. Ja, den Leuten, die da teilnehmen, ist mittlerweile klar, dass es durchaus sein kann, dass was anderes gemessen wird. Und wie ich schon erwähnt habe, gibt es ja auch den Ansatz nämlich, was gemessen wurde. Und es gibt auch durchaus bei solchen Sachen, wo das kritisch ist, die Idee, alle, die gerafft haben, worum es geht, nehmen wir lieber aus der Analyse raus, weil diese Daten könnten verfälscht sein. Das gibt es, das kommt auf die Theorie an, die man gerne prüfen möchte. Bei manchen Theorien ist das natürlich tragischer als bei anderen, wenn die Personen wissen, was eigentlich geforscht wird. Beantwortet das die Frage? Danke. Mikro ist aus, das Internet Mikro ist an. Es geht noch eine Bitte darum, und zwar etwas dazu zu sagen, wie das sich verhält mit dem Funding-Bias, also quasi die Beeinflussung der Geldgeber auf die Studien. Ja, das ist ein sehr großes Thema, auf jeden Fall. Ich fürchte, ich kann dazu nicht so unglaublich viel sagen, schlicht deshalb, weil ich bisher nur an der Uni war und es keine Geldgeber mit bestimmten Interessen da in dem Feld gab. Also alle Forschung, die ich bisher gemacht habe, wurde vom Staat finanziert. Ich fürchte, dazu bin ich einfach nicht die richtige Person, um dazu etwas fundiert sagen zu können. Und Mikro 1, bitte. Ja, also meine Frage wäre, gibt es, gibt es vielleicht sowas schon, oder könnte man das nicht machen? Ein Bewertungssystem für Studien, so nach dem Motto, dieser Studie haben sich schon diese und jenen Wissenschaftler beschäftigt und die vergeben zum Beispiel in Kategorien irgendwie Noten oder so und am Ende gibt es dann Systemen, wo man sagen kann, okay, also die Studie ist zumindest so belastbar, dass schon viele Leute sich damit beschäftigt haben und attestieren konnten. Das ist zumindest handwerklich korrekt gemacht und wäre das nicht was? Das gibt so ein bisschen schon, in dem Sinne, dass man einfach gucken kann, wie viele Leute haben diese Studie schon zitiert. Also wenn eine Studie schon von vielen Leuten aus dem Feld zitiert wurde, dann haben die, hoffentlich die alle gut gelesen und haben festgestellt, diese Studie ist wirklich gut. Das geht so ein bisschen in die gleiche Richtung. Ich würde mal behaupten, dass das Problem bei so einem Bewertungssystem wäre, dass man sich da nicht einig würde. Also wer soll dann am Ende sagen, ob das jetzt eine 4 oder eine 5 ist und also es gibt diesen Peer-Review-Prozess, es gibt diese Sache mit dem Zitieren, das geht beides in die Richtung, aber so ein ganz klares Notensystem würde ich persönlich jetzt für sehr schwer bis gar nicht umsetzbar halten in so einer Wissenschaftskommunity. Meine persönliche Einschätzung dazu. Und damit kommen wir zur letzten Frage und die kommt von Mikrofon 4, bitte. Eine kurze Nachfrage zum Thema der Metastudien. Gibt es irgendeine Einschätzung, wie viele Studien idealerweise zusammengepasst sein müssten, eine saubere Metastudie zu fahren? Also ich frage deshalb immer stolper teilweise über hunderte von Teilstudien in Metastudien. Ich weiß nicht, sollten da die Alarmblocken angeben oder ist das eher so etwas wie Qualitätsmerkmal? Das kommt aufs Feld an. Also ist es halt so, wenn ein Feld noch relativ neu ist, dann gibt es dazu wenig Studien und dann können auch wenige gefunden werden. Und wenn ein Feld aber schon relativ lange existiert oder zum Beispiel hier dieser Bystandereffekt, das ist was, was schon ewig erforscht wurde, dann erwarte ich da auch entsprechend viele Studien. Ich denke, man kann nicht so pauschal sagen, welche Anzahl mindestens erfüllt sein müsste, damit die Metaanalyse gut ist. Ich würde eher darauf schauen, wie haben Sie die Studien überhaupt gefunden? Haben Sie wirklich alles gemacht, um alle Studien zu finden? Haben Sie die Autoren angerufen, welche Suchbegriffe haben Sie eingegeben? Das wird häufig in solchen Metaanalysen ausführlich beschrieben, um Studien zu finden. Und da würde ich mich eher nachrichten, um einschätzen zu können, haben Sie wirklich alles relevante rausgefunden? Wenn man das Gefühl hat, Sie haben sich nicht so richtig Mühe gegeben, wäre das eher ein Merkmal, dass die Qualität vielleicht nicht so gut ist von der Metaanalyse. Damit wären wir am Ende des Vortrags. Vielen Dank, Aiko. Applaus, bitte. Dankeschön.