Když věda selhává: replikační krize, p-hacking, predátoři · Věda a výzkum

Replikační krize: co se stalo v roce 2015

V srpnu 2015 vyšla v časopise Science studie, která rozdělila psychologii na „před" a „po". Open Science Collaboration — konsorcium 270 výzkumníků pod vedením Briana Noska — se pokusila zopakovat 100 vlivných psychologických studií publikovaných v roce 2008 ve třech předních časopisech (Psychological Science, JPSP, JEP:LMC). Výsledek: jen 36 ze 100 replikací bylo úspěšných, a i ty „úspěšné" měly typicky poloviční efekt než originál. To je tzv. replikační krize. ^[1]

Krize není omezena na psychologii. V preklinické onkologii firmy Amgen (Begley & Ellis, Nature 2012) a Bayer (Prinz et al. 2011) interně přezkoumaly své pokusy zopakovat výsledky publikovaných onkologických studií — Amgen uspěl jen u 6 z 53 (11 %), Bayer u ~25 %. Tahle čísla otřásla farmacií, protože preklinické výsledky jsou základ, na kterém se staví vývoj léků za miliardy dolarů. V ekonomii (Camerer et al., Science 2016) replikace 18 studií z předních časopisů — uspěla u ~60 %. V klinických hodnoceních je situace lepší — pevnější metodologie, vyšší standardy — ale ani zde není 100 %. ^[2]^[3]

Proč studie nereplikují: p-hacking, HARKing, file drawer

Hlavní příčiny neúspěšných replikací nejsou (většinou) podvod, ale systémové tlaky na vědce: časopisy chtějí „pěkné" pozitivní výsledky, granty se dávají na publikační aktivitu, vědecká kariéra závisí na počtu článků v dobrých časopisech. Z toho rostou tři typické deformace metody:

P-hacking: vědec po sběru dat zkouší různé statistické analýzy, různé podskupiny, různé proměnné — dokud se některá analýza nedostane pod magickou hranici p < 0,05. Publikuje se jen ta. Statisticky garantovaně to vede k falešně pozitivním výsledkům.
HARKing (Hypothesizing After Results are Known): vědec sebere data, podívá se na ně, a teprve potom zformuluje „hypotézu", která data potvrzuje. V článku se to pak prezentuje jako „předpokládali jsme, že…" — ale ve skutečnosti to byla post-hoc spekulace. Vědecky bezcenné, statisticky stejně závadné jako p-hacking.
Publication bias / file-drawer problem: studie s nulovým nebo negativním výsledkem se publikují mnohem méně často — zůstávají v šuplíku („file drawer"). Důsledek: literatura je systematicky přesycená pozitivními výsledky. Když chcete zjistit, zda lék X funguje, a vidíte 10 publikovaných studií s pozitivním výsledkem, nevíte, kolik nepublikovaných negativních existuje. Toto je hlavní důvod, proč meta-analýzy musí používat speciální nástroje (funnel plot, trim-and-fill) k detekci publikační deformace.
Salami slicing: jedna studie se rozseká na 3–5 článků („nejmenší publikovatelná jednotka"). Inflace citací, snížení signal-to-noise v literatuře.
Garden of forking paths (Andrew Gelman): i bez úmyslu p-hackovat má vědec před sebou desítky drobných metodologických voleb (jak vyloučit outliery, jak normalizovat, jaký test použít). Každá volba zvyšuje pravděpodobnost falešně pozitivního výsledku.

Velké podvody: Wakefield, Stapel, Hwang, Schön

Vedle systémových deformací existují i přímé fabrikace dat — naštěstí vzácné, ale s obrovským dopadem. Čtyři případy, které se učí na každém kurzu integrity výzkumu:

Andrew Wakefield (1998): britský gastroenterolog publikoval v Lancetu studii na 12 dětech, která naznačovala spojení mezi MMR vakcínou a autismem. Studie vyvolala globální paniku, proočkovanost spalniček v UK klesla z 92 % na 79 %. Postupně se ukázalo, že Wakefield manipuloval s daty (vybíral děti přes právníky soudících se s výrobci vakcín), měl finanční konflikt zájmů (osobní patent na alternativní vakcínu). Lancet studii stáhl až v roce 2010 — celých 12 let. Wakefield byl vyškrtnut z britského lékařského registru. Vlna antivax hnutí, kterou rozjel, trvá dodnes. ^[4]
Diederik Stapel (2011): nizozemský sociální psycholog, na vrcholu kariéry profesor v Tilburgu. Po anonymním udání tří doktorandů vyšlo najevo, že fabrikoval data v desítkách studií za 15 let — „experimenty" nikdy nedělal, čísla si vymyslel. Konečný počet: 58 stažených článků. Stapel přiznal, sám se zhroutil, napsal autobiografii. Případ otřásl sociální psychologií a urychlil příchod replikační krize.
Hwang Woo-suk (2005): jihokorejský biolog publikoval v Science dvě průlomové studie o klonování lidských kmenových buněk. Stal se národním hrdinou, Korea ho podporovala finančně i mediálně. V roce 2006 vyšlo najevo, že většina dat byla zfalšovaná, vejce pro pokusy získával neeticky od svých studentek. Science obě studie stáhl, Hwang byl odsouzen za zpronevěru a porušení bioetických zákonů.
Jan Hendrik Schön (2002): německý fyzik v Bell Labs publikoval v krátké době ~16 článků v Nature/Science o průlomech v polovodičové elektronice (mol. tranzistory, vysokoteplotní supravodivost). Když kolegové zkoušeli replikovat, nic nešlo. Vyšlo najevo, že Schön kopíroval grafy mezi nezávislými články, používal stejná „šumová" data pro různé experimenty. Stažení 25+ článků, Schön ztratil PhD, dnes pracuje jako inženýr v automobilce.

Pátý případ — He Jiankui (2018), čínský biolog, který bez souhlasu provedl germ-line editing dvou narozených dvojčat metodou CRISPR — je jiný typ skandálu (etický, ne data-fabrikační). Detailně se mu věnuje kapitola 12 o CRISPR a dual-use výzkumu.

Retraction Watch a databáze stažených článků

Sledováním stahovaných článků se profesionálně zabývá projekt Retraction Watch (Ivan Oransky a Adam Marcus, od 2010). Provozují databázi >50 000 retrakcí napříč obory. Statistiky: ~ 5 000–10 000 retrakcí ročně globálně (číslo roste — částečně proto, že systém detekce se zlepšuje), z toho cca 60 % tvoří záměrná pochybení (fabrikace dat, plagiát, manipulace s obrázky), zbytek upřímné chyby. Nejvíc stažených článků mají medicínské a biomedicínské časopisy — kde nejvíc tlačí ke kariéře publikační produkce. ^[5]

Stahování článku není automaticky důkaz podvodu. Existují tři kategorie: (1) úplná retrakce — článek je vadný (chyba, podvod, plagiát) a má se z literatury odstranit; (2) partial retraction — určitá data se odvolávají, ostatní zůstávají; (3) correction / corrigendum — drobná oprava bez stažení. Časopisy jsou v praxi pomalé — průměrná doba od podezření k retrakci je 2–3 roky, u Wakefielda 12 let, u některých zfalšovaných studií i 20+. Po stažení článek zůstává v PubMedu označen velkým „RETRACTED" — ale stále se cituje (často aniž autoři vědí, že byl stažen).

Predátorské časopisy a pseudokonference

Predátorský časopis je publikace, která vybírá poplatky za otištění článku, ale neprovádí seriózní recenzní řízení. Vznikla jako vedlejší produkt Open Access modelu — kde autoři platí publikačním fee (typicky 1 000–3 000 EUR) za to, aby článek byl volně dostupný. Predátoři tuto logiku zneužili: vybírají poplatek, ale článek prakticky neoponentují — otisknou skoro cokoli.

Detekcí predátorů se zabýval americký knihovník Jeffrey Beall, který v letech 2008–2017 vedl tzv. Beall’s List of Predatory Publishers (>1 000 vydavatelů). Pod tlakem žalob seznam stáhl, ale data zůstávají v archivech a komunita pokračuje v CABELLS Predatory Reports a Stop Predatory Journals. Nejznámější predátorská skupina je OMICS Publishing Group (Indie) — v roce 2019 jí americký Federal Trade Commission uložil pokutu 50 mil. USD za klamavé praktiky. Mírnější kontroverzi vyvolávají i seriózní open-access vydavatelé jako Frontiers nebo MDPI — recenze tam probíhá, ale rychlost a tlak na pozitivní rozhodnutí jsou kritizované. ^[6]

Paralelní jev jsou pseudokonference — akce organizované hlavně pro vybírání registračních poplatků (500–1500 EUR). Typicky „World Congress of XYZ" v luxusním hotelu, kde se sejde 30 lidí, prezentace probíhají bez oponentury, sborník vyjde jako e-book bez peer review. Spamový email s pozvánkou „dear professor, your expertise is valued, please present at our prestigious conference in Dubai" je téměř jistě pseudokonference. Slušné vědecké konference mají call for papers, scientific committee, abstract review — a typicky nezvou náhodně lidi z databází.

Manipulace s obrázky

Specifický druh podvodu je manipulace s obrázky v biomedicíně — typicky western blot, gel elektroforéza, mikroskopické snímky. Vědec digitálně upraví fotografii (klonuje pásek, vymaže pozadí, otočí část obrázku), aby vypadala „čistěji" nebo aby ukázala efekt, který v datech není. Detekcí se zabývá Elisabeth Bik, holandská mikrobioložka, která ručně proskenovala desetitisíce papírů a odhalila stovky případů — typicky duplikované oblasti v různých článcích. Její práce vedla k velkým skandálům včetně Alzheimerovské „amyloid hypothesis" studie (Lesné et al. 2006), která naznačovala roli specifické formy beta-amyloidu — 2022 Bik a tým ukázali, že obrázky byly opakovaně manipulované. Důsledek: 15+ let výzkumu Alzheimerovských léků šlo částečně po slepé cestě.

Co s tím dělá věda: Open Science, preregistrace, registered reports

Reakcí na replikační krizi je hnutí Open Science — sbírka praktik, které mají zvýšit transparentnost a reprodukovatelnost. Hlavní pilíře: ^[7]

Preregistrace: před začátkem studie vědec veřejně deklaruje hypotézu, metody, plánovanou analýzu. Po sběru dat může analýzu provést přesně podle plánu. Jakákoli odchylka (jiná podskupina, jiná proměnná) je explicitně označena jako „exploratorní". Praktická platforma: Open Science Framework (Center for Open Science).
Registered Reports: časopis posoudí návrh studie (otázku, metodu, plánovanou analýzu) ještě před sběrem dat. Pokud návrh přijme, zavazuje se článek publikovat bez ohledu na výsledek — tím se eliminuje publication bias. Implementuje cca 300+ časopisů včetně Nature Human Behaviour, Cortex, BMC Biology.
Otevřená data: časopisy stále častěji požadují, aby autoři zveřejnili surová data a analýzové skripty. Repozitáře: Zenodo, Figshare, Dryad. Pro genomická data: GenBank, EBI.
Open peer review: časopisy zveřejňují recenze a jména recenzentů spolu s článkem. Implementuje EMBO Press, eLife, F1000Research. Zvyšuje odpovědnost recenzentů.
Preprinty: rychlá komunikace před formálním peer review (arXiv, bioRxiv, medRxiv). Během COVIDu se ukázalo jako klíčové — i jako riziko (předčasné šíření vadných tvrzení).
Many Labs projects: organizované replikační projekty, kde desítky laboratoří současně replikují jednu studii v různých populacích. Příklad: Many Labs 2 (Klein et al., 2018) — 28 laboratoří, 36 studií, mediánová replikační úspěšnost ~50 %.

Co si z toho odnést jako občan

Pointa této kapitoly není „nevěřte vědě". Pointa je: rozumějte, jak funguje. Vědecká literatura je živý ekosystém — chyby vznikají, chyby se detekují, chyby se opravují. Jednotlivý článek je předběžný náčrt, ne finální verdikt. Meta-analýzy a expertní syntézy (Cochrane, IPCC, NASEM, AV ČR stanoviska) jsou mnohem spolehlivější. Občanské rozhodování (vakcína ano/ne, klima ano/ne) nestavte na jednom článku — ani když ho cituje známý influencer.

V kapitole Pseudověda a dezinformace ukážeme typické pasti v komunikaci vědy — homeopatie, antivax, klimaskepticismus. V kapitole Hodnocení a politika vědy uvidíme, jak systém hodnocení vědců (Metodika 17+, impakt faktor, h-index) přispívá k tlakům, které vedou k p-hackingu a salami slicingu. A v poslední kapitole 16 Co s tím najdete hotový checklist — jak ověřit jakýkoli vědecký článek za pár minut.