Андрій Криштафович: «Успішне моделювання структури білків — найбільше досягнення науки в цьому столітті загалом»

Чимало світових ЗМІ у грудні минулого року писали про цю подію як про науковий прорив століття, а деякі навіть «ховали» структурну біологію як наукову галузь, бо тепер, мовляв, у ній запанують методи комп’ютерної інженерії. Тиждень поговорив із кандидатом фізико-математичних наук, співробітником Геномного центру Університету Каліфорнії Андрієм Криштафовичем, одним із головних організаторів експерименту CASP — про цілі цього експерименту, передбачення структури білків та те, як штучний інтелект змінить медицину.

Ви починали навчання в Одеському університеті, закінчили навчатися у Львові, захистили дисертацію з матеріалознавства, а зараз працюєте в галузі біоінформатики в Каліфорнії. Яким був ваш науковий шлях?

— В Одесі я опинився волею випадку. В часи моєї юності, на початку 1980-х, у високорангові університети можна було вступати раніше, щоби в разі невдачі мати змогу пройти у менш престижний навчальний заклад. Я спробував вступити до Московського університету, та не добрав балів, і з цими результатами мене вже без іспитів взяли в Одеський. Відучившись там рік, пішов в армію — тоді брали всіх, саме Афганістан починався — і прослужив два роки. Повернувся вже у Львівський університет. По закінченні університету працював у львівському Інституті прикладних проблем механіки і математики Національної Академії наук України. Там же закінчив аспірантуру, захистив дисертацію і після захисту пропрацював іще п’ять років. На зламі тисячоліть я почав розглядати для себе можливості роботи за кордоном.

Читайте також: Побічний симптом

Надійшло кілька пропозицій, одна з яких — зайнятися наукою в цілковито новій для мене галузі. Моя попередня робота стосувалася деформування твердих тіл, а тут запропонували працювати з білками! Вирішив прийняти виклик і випробувати себе. У 2000 році я приїхав у Каліфорнію, у Ліверморську національну лабораторію. Ще за п’ять років нашу групу перемістили до Університету Каліфорнії у Дейвісі, де я й досі працюю над моделюванням білків і програмою CASP — всесвітньо відомим науковим експериментом.

Ви суттєво змінили наукову сферу. Чи стали вам у пригоді навички, які ви набули в процесі роботи в Україні?

— Безперечно. Мій вишкіл у математиці, статистиці та чисельних методах дуже допоміг у новій роботі, зокрема у розробці методів для передбачення структури білків та оцінки якості моделей. Ще 20 років тому фахівців із біоінформатики готувало лише кілька університетів світу. Більшість дослідників, що приходили в цю галузь, були за фахом фізиками чи математиками, які не боялися додатково навчитися хімії і біології, або ж хіміками чи біологами, які воліли опанувати методи аналізу даних. Пам’ятаю одну з книжок, що стояла на книжковій поличці мого офісу — «Статистика для наляканих біологів». Загалом «біоінформатика» — це цікаве слово, якого не існує в інших науках, окрім біології. У нас немає фізико-інформатики чи математико-інформатики, бо чисельні методи розроблялися саме фізиками і математиками для своїх потреб, тоді як у біології до якогось часу достатньо було мати блокнотик чи текстовий редактор і вносити туди результати лабораторних експериментів. Та з часом даних стало так багато, що знадобилися серйозні математичні методи для їх обробки.

Ваша наукова праця закордоном пов’язана з експериментом CASP. Що це таке і для чого потрібно?

— CASP — це науковий експеримент для неупередженого тестування методів моделювання структури білків. Експеримент проводиться що два роки починаючи з 1994-го. За його результатами ми визначаємо найефективніші стратегії моделювання, оцінюємо прогрес у галузі та пропонуємо стратегії для найбільш продуктивного поступу. Експеримент має незаперечний авторитет у науковому світі — жоден метод прогнозування структури білка не сприймається всерйоз, допоки його ефективність не підтверджено CASP. А почалося все з того, що деякі наукові групи заявляли, буцімто знають, як змоделювати структуру білка. Я є рецензентом багатьох наукових журналів і час від часу натрапляю на такі статті. Проблема в тому, що автори самі обирали, яку задачу розв’язувати, під неї придумували методи і самі ж оцінювали якість моделей.

Читайте також: Не боятися змін

Наш експеримент поставив всіх у рівні умови, де неможливо підігнати результати методу під правильну відповідь, адже її ще не існує на час проведення експерименту. Білки для моделювання й таргети обираються організаторами і є не відомими для учасників заздалегідь. Потім наш центр у Дейвісі порівнює моделі з експериментально встановленими структурами. Авторитетне незалежне журі аналізує результати числової оцінки моделей, причому на час аналізу авторство моделей приховане. Авторів розкривають лише після того, як журі доповість про результати аналізу моделей. Тобто будь-які преференції «за знайомством» — виключені. Після доповіді журі всі моделі та результати їх оцінки оприлюднюються, і учасники можуть самі порівняти свої показники з досягненнями інших груп. Така система «сліпого» моделювання і незалежного оцінювання забезпечує довіру наукової спільноти та підтримує стабільно високий інтерес до експерименту.

Популярність CASP також підтримується притаманними людській натурі цікавістю і схильністю до змагань, адже в CASP демонструють свої результати найсильніші наукові осередки світу, і перемога є дуже престижною. Через це CASP часто називають Олімпійськими іграми з моделювання білків.

Як ви опинилися серед організаторів CASP?

— Коли я почав працювати в Ліверморській лабораторії, наша група була задіяна в організації експерименту, а керівник групи Кшиштоф Фіделіс був серед його організаторів. З часом мене дедалі більше залучали до стратегічного планування і проведення експерименту. 2004-го року мене було запрошено до організаційного комітету, членом якого я є до сьогодні. Окрім мене, комітет складається з іще чотирьох науковців — це Джон Молт, засновник і президент CASP, мій колега Кшиштоф Фіделіс, Торстен Шведе із Університету Базеля в Швейцарії та Мая Топф із Університету Лондона. Проводячи аналогію з Олімпійськими іграми, ми виконуємо функції і Міжнародного Олімпійського комітету, як-от визначаємо категорії змагань, завдання для учасників, і локального комітету — займаємося реєстрацією моделерів, постачанням послідовностей білків для моделювання і субпідрядників, що будують інфраструктуру для проведення змагань, і суддів.

Читайте також: Штучний інтелект: заявки на лідерство

Чому так важливо знати структуру білка?

— Структура не є ціллю сама собою. Вона важлива як перехідний етап від амінокислотної послідовності до функції білка. Тож знання структури білка може сприяти розумінню біологічної ролі білкових молекул у клітинних процесах. Зокрема, знаючи цю структуру, ми зможемо більш поінформовано підходити до розробки лікарських сполук. Скажімо, якщо ми знаємо, які білки відповідають за хворобу Альцгеймера, то, знаючи їхню структуру, можна сконцентруватися на пошуку молекул, які б підходили до цих білків, як ключик до замка, і блокували їхню активність. Інша проблема, що не все залежить від такої медичної хімії, адже білків в організмі мільйони, і часто невідомо, який із них відповідає за певну хворобу.

Що робить завдання встановлення структури білка таким складним?

— Складність математичного моделювання білків у тому, що варіантів, як із амінокислотної послідовності побудувати структуру — безліч. Уявіть мотузку, на яку нанизані різні бусинки. Мотузку можна згинати як завгодно, а бусинки на ній вкладаються в єдиний спосіб. Вигин шнурка — це структура білка, а бусинки — амінокислоти, які формують білок, і їх усього 20 різних. І білок скручується в єдиний спосіб залежно від розташування амінокислот.
Визначити амінокислотну послідовність білка доволі легко. А от побудувати його структуру — дуже важко. Більшість структур встановлюють кристалографічними методами. Розв’язати одну структуру в такий спосіб коштує приблизно $120 тисяч — якщо пощастить, а процес може тривати кілька років. Наразі в базах даних накопичено понад 180 млн послідовностей білків, а структури розв’язані лише для 180 тисяч із них. Тому якщо вдасться побудувати структуру за амінокислотною послідовністю білка математичними методами, це буде великий науковий прорив і значна економія коштів. Недаремно журнал Science визнав визначення структури білків однією з найбільших наукових проблем сучасності — нарівні з походженням життя, наприклад.

Читайте також: Чи мають діти вчитися людських цінностей на алгоритмах?

І схоже, ми наблизилися до її вирішення. В останньому CASP взяли участь 98 наукових осередків з усього світу, які тестували 215 методів. Ми зібрали 67 тисяч моделей білків — купа даних! Ще під час попереднього аналізу моделей, десь у серпні, ми передбачали, що станемо свідками історичної події, адже група під кодовим номером 427 показувала результати, на голову вищі від всіх інших груп.

Ця група — це команда AlphaFold2 від DeepMind?

— Саме так. У нас тісна спільнота, я знаю всіх людей, що серйозно працюють у галузі, поіменно, в обличчя. У нас історично було дві сильні групи — Девіда Бейкера з Університету штату Вашингтон і Янга Жанга із Мічиганського університету. Зненацька три роки тому таблицю результатів очолила нова група — AlphaFold. Вони тоді теж показали результати, значно кращі за інші групи, проте це «значно краще» було в межах того, що можна було спрогнозувати. Вдосконалений метод AlphaFold2 у минулорічному CASP14 показав приголомшливий результат не лише порівняно з іншими групами, але і в абсолютній точності моделей. Дві третини їхніх моделей на понад 90% збігалися з експериментальними даними.

Наскільки мені відомо, DeepMind набула популярності завдяки своєму алгоритму гри у го та комп’ютерні ігри на кшталт StarCraft II. Чому вони переключилися на наукові завдання?

— Вони шукали добре означену проблему, що має зрозумілу метрику та для якої існує значний обсяг даних, на яких можна тренувати штучний інтелект (ШІ). Їхній алгоритм AlphaGo виграв у грі, яка є радше інтуїтивною, ніж розрахунковою. Засновник компанії Деміс Хассабіс казав, що таким чином хотів показати, що ШІ має великі перспективи. В шахах машина перемогла Каспарова вже роки тому, та ця гра все ж радше розрахункова. А го — інтуїтивна, і не можна сказати, як машина ухвалює рішення, як вона обирає ходи. Створюючи алгоритми, аби вигравати в іграх, команда міркувала, як підійти до реальних наукових проблем. Особливо до проблеми згортання білків, яка є однією з найскладніших проблем сучасності і де вплив на суспільство може бути дуже вагомим.

Я думаю, що їхній метод — це найбільше досягнення науки в цьому столітті загалом. Упевнений, що свого часу ці люди отримають Нобелівську премію за своє відкриття.

Наступний крок — моделювання взаємодії білків із іншими сполуками чи з білками?

— Люди вже це роблять. У CASP ми маємо ще категорію моделювання, присвячену білковим комплексам. Там ситуація складніша, адже немає такого обcягу даних для тренування методів, як для окремих білків. AlphaFold2 не брали участь у цій частині експерименту, бо, ймовірно, ще не вміють цього робити. На мою думку, вже зроблений крок від амінокислотної послідовності до моделювання структури окремих білків є значно вагомішим, ніж той, який ще потрібно зробити — від окремих білків до комплексів. Передбачаю, що під час наступного CASP AlphaFold братиме участь і в моделюванні комплексів також.

Читайте також: Штучний інтелект: загроза чи незріла технологія

Чому комплекси такі важливі? Більшість білків працюють у комплексі — з окремими молекулами, або іншими білками. Є група білків, так звані G-білкоспряжені рецептори, що містяться всередині клітинних мембран і передають ззовні сигнали у клітину. Таким чином клітини «спілкуються» з зовнішнім світом. Значна частина розробників ліків досліджує саме ці рецептори. Адже більшість ліків — це малесенькі молекули, що прив’язуються до великого білка. Якщо ви знаєте, де прив’язувати ці молекули та як визначити активну ділянку, то це безпосередній вихід у медицину.

Наведу такий приклад. У багатьох людських клітинах є рецептор ACE2. Він дуже корисний, адже регулює кров’яний тиск, дозволяє загоюватися ранам. Та він же є і лазом для коронавірусу, який прив’язується до АСЕ 2 та займає місце інших молекул чи білків. Потім настирливий вірус «пролазить» всередину клітини, вносить у неї свою генетичну інформацію — РНК і використовує клітину, аби розмножуватися. Приклад задачі — знайти інший білок, що заблокує рецептор АСЕ 2 і не дасть коронавірусу проникнути у клітину. Можливості методу AlphaFold2 у цій галузі великі!

Чи вплинула пандемія коронавірусу на ваш експеримент? Ви використовували таргети, пов’язані з вірусом?

— Ми взагалі вагалися, чи проводити регулярний експеримент, та більшість провідних фахівців у галузі сказали: «Нам в цьому році треба мати хоч щось, аби відчувати, що нормальне життя продовжується». Також на початку пандемії ми замислилися, що можемо зробити, щоб допомогти структурним біологам. Частина білків коронавірусу схожа на вже відомі білки. Та є й цілковито унікальні. Їх ми і взяли за таргети для передбачення. Наразі структуру двох із них уже з’ясовано експериментально. Наприклад, білок ORF8 розв’язали в університеті Берклі у серпні, а ми виставили його як таргет у червні. І AlphaFold2 прекрасно впоралися з цією задачею. Можна передбачити, що їхні моделі інших білків коронавірусу також відповідають дійсності.

Є думка, що якщо використовуються нейронні мережі для задач на кшталт ваших, це означає, що наука визнала своє фіаско. Мовляв, задачу не вдалося розв’язати науковими методами, і довелося використати «грубу силу».

— Сам Деміс Хассабіс, керівник DeepMind, казав, що якби не роботи попередніх поколінь вчених, не попередні експерименти CASP, не публічно доступні бази даних для тренування методів, то вони б не дійшли до цього рівня. Ваше питання можна поставити ще й як «стільки вчених десятиліттями билися над проблемою і не вирішили її». Задля справедливості хочу зазначити, що академічна спільнота досягла значних успіхів у моделюванні білків. Якщо відстежити прогрес від 1994 року до 2020-го, то він вражає. Зокрема, у 2020 році багато академічних груп перевершили результати AlphaFold із 2018 року, які на той час здавалися захмарними. Наш експеримент підштовхував людей до розв’язання проблем, сприяв накопиченню методологічних напрацювань та зростанню баз даних. І в якийсь момент відбувся стрибок, як у ядерній реакції, коли накопичується критична маса і відбувається новий якісний процес — вибух. Проте змагатися з дочірньою компанією Google важко з об’єктивних причин. Академія не має стільки грошей для наймання найкращих спеціалістів із машинного навчання та різних наукових дисциплін. У нас немає таких комп’ютерних ресурсів. Зрештою, організація праці в приватних фірмах є іншою: науковці там не відволікаються на навчання студентів, написання грантів чи участь у різноманітних комісіях.

Чи були у CASP команди з України?

— В CASP беруть участь українці, та вони виступають у командах інших країн. Наприклад, у CASP14 брала участь група Дмитра Козакова з Нью-Йоркського університету в Стоуні Брук. Безпосередньо з України, на жаль, команд не було. Ймовірно, проблема саме в ресурсах. Разом із тим у роботі CASP протягом 2005–2019 років були задіяні кілька українців — Богдан Монастирський, Зиновій Дмитрів та Олег Крисько, всі випускники львівських університетів.

————

Андрій Криштафович (народився 1964 року у Коломиї) — вчений- біоінформатик, випускник Львівського національного університету (1989), кандидат фізико-математичних наук (1995), тема дисертації — «Двовимірні задачі про взаємодію анізотропних тіл при недосконалому тепловому і механічному контакті». До 2000 року працював в Інституті прикладних проблем механіки і математики ім. Я. С. Підстригача у Львові. З 2000 року — вчений-дослідник Ліверморської національної лабораторії (США), з 2005 року — співробітник Геномного центру Університету Каліфорнії в Дейвісі. Автор понад 100 наукових праць. Один із п’яти організаторів всесвітнього експерименту з передбачення структури білків CASP.

читати ще