Problem z nauką polega na tym, że tak wiele po prostu nie jest. Latem ubiegłego roku Open Science Collaboration ogłosiło, że próbowało powtórzyć sto opublikowanych eksperymentów psychologicznych z trzech najbardziej prestiżowych czasopism w tej dziedzinie. Naukowe twierdzenia opierają się na idei, że eksperymenty powtarzane w prawie identycznych warunkach powinny dawać w przybliżeniu takie same wyniki, ale do niedawna bardzo niewielu próbowało systematycznie sprawdzać, czy rzeczywiście tak jest. OSC była największą jak dotąd próbą sprawdzenia wyników pola i najbardziej szokującą. W wielu przypadkach używali oryginalnych materiałów eksperymentalnych, a czasem nawet przeprowadzali eksperymenty pod kierunkiem oryginalnych badaczy. Spośród badań, w których pierwotnie odnotowano pozytywne wyniki, zadziwiający procent 65 nie wykazał statystycznego znaczenia po replikacji, a wiele pozostałych wykazało znacznie zmniejszone rozmiary efektów.
Ich odkrycia stały się wiadomością i szybko stały się klubem, w którym można obalić nauki społeczne. Ale problem nie dotyczy tylko psychologii. W branży farmaceutycznej istnieje niewypowiedziana zasada, że połowa wszystkich naukowych badań biomedycznych ostatecznie okaże się fałszywa, aw 2011 grupa naukowców z Bayer postanowiła to przetestować. Analizując sześćdziesiąt siedem ostatnich projektów odkrywania leków opartych na przedklinicznych badaniach biologii raka, odkryli, że w ponad 75 procentach przypadków opublikowane dane nie zgadzają się z ich wewnętrznymi próbami replikacji. Nie były to badania opublikowane w czasopismach onkologicznych, ale przebojowe badania w Science, Nature, Cell i tym podobne. Badacze Bayer utonęli w złych badaniach i do tego częściowo przypisywali tajemniczo malejącą wydajność rurociągów narkotykowych. Być może tak wiele z tych nowych leków nie działa, ponieważ podstawowe badania, na których oparto ich rozwój, są nieważne.
Gdy badanie nie powiela się, możliwe są dwie interpretacje. Po pierwsze, bez wiedzy śledczych istniała prawdziwa różnica w konfiguracji eksperymentalnej między pierwotnym dochodzeniem a nieudaną replikacją. Są one potocznie nazywane „efektami tapety”, żartem jest to, że na eksperyment wpłynął kolor tapety w pokoju. Oto najszczęśliwsze możliwe wyjaśnienie braku reprodukcji: Oznacza to, że oba eksperymenty ujawniły fakty dotyczące wszechświata, a my mamy teraz okazję dowiedzieć się, jaka była między nimi różnica i wprowadzić nowe i subtelniejsze rozróżnienie do naszych teorii.
Inna interpretacja jest taka, że pierwotne ustalenie było fałszywe. Niestety genialny argument statystyczny pokazuje, że ta druga interpretacja jest znacznie bardziej prawdopodobna. Po raz pierwszy sformułowany przez Johna Ioannidisa, profesora w School of Medicine Uniwersytetu Stanforda, ten argument opiera się na prostym zastosowaniu statystyki bayesowskiej. Załóżmy, że na pewnym polu jest sto jeden kamieni. Jeden z nich ma diament i na szczęście masz urządzenie wykrywające diament, które reklamuje procentową dokładność 99. Po około godzinie przesuwania urządzenia, sprawdzania kolejno każdego kamienia, nagle migają alarmy i wycie syren, gdy urządzenie jest skierowane na obiecujący kamień. Jakie jest prawdopodobieństwo, że kamień zawiera diament?
Większość powiedziałaby, że jeśli urządzenie reklamuje procentową dokładność 99, istnieje procentowa szansa 99, że urządzenie prawidłowo rozpoznaje diament, i procentowa szansa 1, że dał fałszywie dodatni odczyt. Ale zastanów się: ze stu jeden kamieni na polu tylko jeden jest naprawdę diamentem. To prawda, że nasze urządzenie ma bardzo duże prawdopodobieństwo, że poprawnie zadeklaruje, że jest diamentem. Ale jest o wiele więcej kamieni bez diamentów i chociaż maszyna ma tylko X procentową szansę na fałszywe uznanie każdego z nich za diament, jest ich setka. Gdybyśmy więc machali detektorem po każdym kamieniu w polu, zabrzmiałby on średnio dwa razy - raz dla prawdziwego diamentu i raz, gdy kamień wywołał fałszywy odczyt. Jeśli wiemy tylko, że zabrzmiał alarm, te dwie możliwości są z grubsza jednakowo prawdopodobne, dając nam około 1 procentową szansę, że kamień naprawdę zawiera diament.
Jest to uproszczona wersja argumentu, że Ioannidis stosuje się do samego procesu naukowego. Kamienie na polu są zbiorem wszystkich możliwych do przetestowania hipotez, diament jest hipotetycznym połączeniem lub efektem, który okazuje się prawdziwy, a urządzenie do wykrywania diamentów jest metodą naukową. Ogromna ilość zależy od proporcji możliwych hipotez, które okazują się prawdziwe, oraz od dokładności, z jaką eksperyment może odróżnić prawdę od fałszu. Ioannidis pokazuje, że dla wielu różnych środowisk naukowych i dziedzin wartości tych dwóch parametrów wcale nie są korzystne.
Weźmy na przykład zespół biologów molekularnych badających, czy mutacja jednego z niezliczonych tysięcy ludzkich genów jest powiązana ze zwiększonym ryzykiem choroby Alzheimera. Prawdopodobieństwo losowo wybranej mutacji w losowo wybranym genie mającym dokładnie ten efekt jest dość niskie, tak jak w przypadku kamieni na polu, pozytywne odkrycie jest bardziej prawdopodobne niż fałszywe - chyba że eksperyment jest niewiarygodnie skuteczny w sortowaniu pszenica z plew. Rzeczywiście, Ioannidis odkrywa, że w wielu przypadkach osiągnięcie nawet 50 rzeczywistych wyników dodatnich wymaga niewyobrażalnej dokładności. Stąd przyciągający wzrok tytuł jego pracy: „Dlaczego większość opublikowanych wyników badań jest fałszywa”.