Криза невідтворюваності | Український тиждень

«Всесвіт-25». Експериментатори розробили ідеальне середовище для життя та розмноження мишей, проте вся їхня «спільнота» розвалилася через мишей-ледарів, що не вписувалися в неї, але використовували спільні ресурси.

«Маршмелоу-експеримент». Дітлахам пропонували вибір: або взяти зефірину зараз, або ж почекати 15 хв і отримати ще одну. Ті, хто взяв одразу, у майбутньому виявилися менш успішними, ніж терплячіші діти.

«Стенфордський тюремний експеримент». Добровольців розділили на в’язнів та тюремників і помістили в імпровізовану в’язницю. Лише за кілька днів тюремники перетворилися на садистів, а в’язні стали покірними й заляканими. Експеримент перервали на шостий день після істерики одного з «в’язнів».

Що спільного між цими відомими експериментами, які десятиліттями кочували з книжки в книжку? Усі вони виявилися фейками. «Всесвіт-25» мав великі проблеми з методологією. І схоже на те, що його керівник Джон Келгун не вказав на деякі важливі для відтворюваності моменти або ж навмисне все фальсифікував. Експеримент із зефіром намагалися повторити безліч разів і не знайшли достатніх доказів для вказаних висновків. Найімовірніше, свою роль відігравало соціальне походження дітей. Дітлахи з бідніших сімей охочіше брали смаколик, адже жили в гірших умовах, а впевненіші в собі багатші діти могли й почекати. Нещодавно американський науковець Бен Блюм заявив, що, за архівними даними, керівник «Стенфордського тюремного експерименту» Філіп Зімбардо навмисне змушував піддослідних поводитися певним чином, аби потім зробити зі своєї роботи сенсацію.

Читайте також: Гра в науку

Ці експерименти — найвідоміші приклади кризи невідтворюваності в науці, коли інші наукові групи не можуть незалежно повторити досліди. Серйозно почали говорити про неї з 2005 року, коли вийшла стаття професора Стенфордської школи медицини Джона Іоаннідіса «Чому найбільш цитовані наукові роботи неправильні?». Він узявся перевірити методологію відомих експериментів у біомедицині й дійшов висновку, що більшість із них має суттєві недоліки, як-от навмисне маніпулювання статистикою. 2012-го біотехнологічна компанія Amgen заявила, що з 53 експериментів із онкології та гематології їй вдалося повторити лише 6. У 2015-му в журналі Science зазначалося, що зі 100 відомих робіт із психології незалежно повторити вдалося лише 39.

На початку 2017 року той самий Science зробив «новорічний подарунок» усім матеріалознавцям світу. У статті, одним із автором якої був відомий теоретик Джон Пердью, описано понад сотню потенціалів для розрахунку властивостей матеріалів із висновком, що багато з них, особливо створених після 2005-го, показують неправильні результати. Щоб отримати всю інформацію про квантову систему, потрібно за допомогою рівняння Шредінґера обчислити її хвильову функцію. Та рівняння можна точно розв’язати лише для найпростіших систем (як-от атом водню). У 1960‑х роках науковці Вальтер Кон (згодом нобелівський лауреат), П’єр Хоенберґ та Лю Шем запропонували метод функціоналу густини, що зводив рівняння Шредінґера до системи простіших рівнянь, які можна розв’язати комп’ютерними методами. Точний вид рівнянь Кона — Шема невідомий, тому для обчислень використовують різні потенціали, що дають відповідь із похибками. Із середини минулого десятиліття матеріалознавці захопилися створенням потенціалів для кожного випадку. І от виявилося, що ці потенціали хоч і можуть давати непогані результати для деяких матеріалів, але загалом мають велетенську похибку під час розрахунків електронної густини (розподілення електронів у системі). Тож покладатися на отримані за їх допомогою дані треба дуже обережно, а краще взагалі повторити всі дослідження.

Криза невідтворюваності створює великі ризики для науки. За оцінкою 2015‑го щороку науковці в США витрачають $28 млрд на клінічні випробування, що не мають наукової ваги. Новини про черговий експеримент, який не вдалося повторити, підточують довіру людей до науки й б’ють по репутації науковців. «Погана наука» призводить до небезпечних міфів, як-от сфальсифіковане (або ж дуже неохайне з погляду методології) дослідження Ендрю Вейкфілда про зв’язок аутизму в дітей із вакцинацією.

Читайте також: Екзопланета, блискавки в Бозе-конденсаті та квантовий комп’ютер

Причин кризи кілька. Неякісні дослідження можуть бути просто шахрайством. Колектив російських авторів на чолі з членом-кореспондентом Російської академії наук Олєґом Епштейном опублікував кілька статей у провідних наукових журналах, у яких доводив позитивні ефекти від гомеопатії (див. «Ребрендинг гомеопатії», Тиждень, № 28/2018). Коли їхню маніпуляцію викрили, журнал PLoS ONE відкликав публікацію. Гуру тих самих гомеопатів Жан Бенвеніст свого часу опублікував у Nature статтю, у якій увів термін «пам’ять води». Згодом журнал також відкликав статтю, адже висновки Бенвеніста не підтвердились, а він, найімовініше, просто підробив результати.

До невідтворюваних результатів призводять банальні помилки. Сенсацією 2011 року стала новина про відкриття надсвітлових нейтрино в колаборації OPERA. Кілька перевірок на тій самій установці підтвердили результати, а теоретики навіть написали кілька праць, у яких намагалися пояснити ефект. Та все виявилося прозаїчніше: до аномальних результатів призвів зіпсований кабель. Інша відома історія про виникнення магнітного поля Землі внаслідок конвекції заліза в ядрі нашої планети, опублікована в Nature 2015 року. Незалежні дослідники не змогли отримати ті самі результати, а рік потому автори зізналися, що просто забули двійку в одному з рівнянь і написали нову статтю з необхідними виправленнями. На YouTube широкої популярності набуло відео, у якому до Андрєя Лінде, одного з найшановніших астрофізиків сучасності, прийшов колега й сповістив про підтвердження його теорії космічної інфляції з «достовірністю сигма 5.2». Це означає, що ймовірність помилки набагато менша ніж 1%, і це пряма заявка на Нобелівську премію. На відео щасливі фізики відкорковують шампанське, а згодом виявляється, що на результат міг вплинути космічний пил і довіряти йому не варто.

Якщо помилки можна виправити, то проблеми з методологією значно серйозніші. 2010 року американський соціальний психолог Деріл Бем опублікував дещо кумедне дослідження. Він провів дев’ять дослідів на 1000 добровольців. В одному з них піддослідним пропонувалося обрати одну з двох частин екрана комп’ютера, і якщо алгоритм, використовуючи генератор випадкових чисел, обирав ту саму частину, добровольцю показували порнографічну картинку. З якою імовірністю люди вгадають картинку? Очевидно, що з тією самою, з якою не вгадають, — 50%. Проте Бем із колегами отримали результат 53%. Із цього можна було б зробити висновок, що в людей є паранормальні здібності вгадувати порнографічні картинки. Звичайно, досліди Бема не підтвердилися, у його роботі знайшли серйозні методологічні проблеми: він міг «доводити» свої гіпотези постфактум, після того як було отримано дані. Як в анекдоті про техаського снайпера, що малював мішень навколо місця, у яке влучив із рушниці. Згаданий експеримент започаткував дискусію: якщо, використовуючи прийнятну в його науці методологію, хай і з деякими обмовками, можна отримати очевидно парадоксальний результат, то скільки ж іще досліджень зроблено таким чином? Абсурдність висновків Бема очевидна, та куди страшніше, якщо неправильний результат експерименту більше схожий на реальність і стає прийнятним у наукових колах. Для тестування гіпотез використовують критерій p<0,05. Грубо кажучи, ймовірність отримати деякий ефект, якщо його насправді немає, менша за 5%. Чимало науковців мають недостатні знання статистики, а критерій можуть «натягувати» на вже отримані результати. «Майстер-клас» з ігор зі статистикою, який прозвали p-hacking, показав професор поведінкової психології Корнелльського університету Браян Вонсінк. Якщо отримані дані не підтверджували первинної гіпотези, він вигадував нові, доки все не сходилося.

Читайте також: Харківські нейтрони, екзогалактичні планети та клоновані мавпи

Наукова культура заохочує науковців публікувати лише позитивні результати, нові отримані ефекти. Дослідження, у яких ефект не підтверджено або ж спростовано, публікують рідко. Такі роботи мало цитують, і витрачати час та ресурси на публікацію немає сенсу. Тому науковці роблять будь-що, аби «витягнути» з роботи хоч якийсь позитивний ефект. Хоча негативні результати дуже важливі: вони дають змогу іншим науковим групам не витрачати гроші на заздалегідь провальні дослідження. Найвідоміший «негативний результат» отримали 1887 року Альберт Майкельсон і Генрі Морлі. Вони намагалися довести існування світлоносного ефіру та дійшли протилежних висновків. Згодом із їхнього експерименту виросла теорія відносності. Найімовірніше, за нинішніх умов Майкельсон і Морлі просто не публікували б дослідження, що суперечить науковому консенсусу. У своєму есе «П’ять егоїстичних причин працювати відтворювано» британський біоінформатик Флоріан Марковець закликає колег до більшої прозорості. На його думку, якщо всі дані проекту перебуватимуть у відкритому доступі, для інших науковців не буде проблемою їх перевірити. А автори проекту будуть заохочені одразу зробити все правильно. Своєю чергою, журнал Science закликає не тільки викладати дані в спільний доступ, а й детально описувати методологію, дизайн експерименту, публікувати код програм, які використовувалися для аналізу даних.

Також необхідно зменшити p із 0,05 до хоча б 0,01, що приведе до меншої кількості «помилково позитивних» досліджень. Це має й свою ціну: доведеться збільшувати експериментальні вибірки, і тоді зростуть витрати. До того ж наукові журнали мають переглянути свою політику в бік частішої публікації досліджень із негативними результатами, а науковці — не боятися їх публікувати. І зробити процес рецензування робіт відкритішим, щоб знизити ризик публікації статей про «пам’ять води» чи гомеопатію. Наука — висококонкурентна царина, що описується фразою publish or perish — «опублікуйся або помри». Щоб отримати роботу або грант, науковці мають публікувати багато статей із новими цікавими результатами. Така культура має свої плюси, але її основний мінус: що більше поспіхом опублікованих досліджень, що більший тиск на науковців, який змушує їх підробляти дані або ж погано перевіряти вже наявні, то більше неякісних статей. І от змінити систему, що складалася десятиліттями, найближчим часом навряд чи вдасться.

читати ще