В своей речи по поводу вручения Нобелевской премии 1972 года американский биохимик Кристиан Анфинсен предрек: однажды, по его словам, можно будет предсказать трехмерную структуру любого белка, просто исходя из последовательности его аминокислотных строительных блоков. Только с сотнями тысяч белков в человеческом теле такой прогресс может найти широкое применение, предлагая понимание основ биологии и обнаружение новых многообещающих мишеней для лекарств. Теперь, по прошествии почти 50 лет, исследователи показали, что программное обеспечение, управляемое искусственным интеллектом (ИИ), может производить тысячи точных белковых структур — достижение, которое реализует мечту Анфинсена и является прорывом 2021 года в науке.
Когда-то белковые структуры можно было определить только с помощью кропотливых лабораторных анализов. Но теперь их можно быстро рассчитать для десятков тысяч белков и для комплексов взаимодействующих белков. «Это кардинальное изменение для структурной биологии», — говорит Гаэтано Монтелионе, структурный биолог из Политехнического института Ренсселера. Дэвид Бейкер, компьютерный биохимик из Вашингтонского университета в Сиэтле, который руководил одним из проектов по прогнозированию, добавляет, что благодаря изобилию легкодоступных структур «все области вычислительной и молекулярной биологии будут преобразованы».
Белки — рабочие лошадки биологии. Они сокращают наши мышцы, превращают пищу в клеточную энергию, переносят кислород в нашу кровь и борются с микробными захватчиками. Тем не менее, несмотря на их различные способности, все белки имеют одну и ту же основную форму: линейную цепочку из 20 различных видов аминокислот, связанных друг с другом в последовательности, закодированной в нашей ДНК. После сборки на клеточных фабриках, называемых рибосомами, каждая цепочка складывается в уникальную изысканно сложную трехмерную форму. Эти формы, которые определяют, как белки взаимодействуют с другими молекулами, определяют их роль в клетке.
Работа Анфинсена и других предполагала, что взаимодействия между аминокислотами приводят белки в их окончательную форму. Но, учитывая огромное количество возможных взаимодействий между каждым отдельным звеном цепи и всеми остальными, белки даже небольшого размера могут принимать астрономическое количество возможных форм.
В 1969 году американский молекулярный биолог Сайрус Левинталь подсчитал, что белковой цепи потребуется больше времени, чем возраст вселенной, чтобы пройти через них одну за другой — даже с бешеной скоростью. Но в природе каждый белок надежно сворачивается в одну отличительную форму, обычно в мгновение ока.
В 1950-х годах исследователи начали наносить на карту трехмерные структуры белков, анализируя, как рентгеновские лучи отрикошетили от атомов молекул. Этот метод, известный как рентгеновская кристаллография, вскоре стал ведущим подходом. Сегодня центральное хранилище данных, Protein Data Bank, содержит около 185 000 экспериментально решенных структур. Но картирование структур может занять годы и стоить сотни тысяч долларов за белок. Чтобы ускорить этот процесс, в 1970-х годах ученые начали создавать компьютерные модели, чтобы предсказать, как будет сворачиваться данный белок.
Сначала это было возможно только для небольших белков или коротких сегментов более крупных. К 1994 году, впрочем, компьютерные модели стали достаточно сложными, чтобы запустить двухгодичный конкурс «Критическая оценка предсказания структуры белка» (CASP). Организаторы предоставили моделистам аминокислотные последовательности десятков белков. В конце мероприятия результаты моделирования были сопоставлены с последними экспериментальными данными по рентгеновской кристаллографии и новейшим методам, таким как спектроскопия ядерного магнитного резонанса и криоэлектронная микроскопия (крио-ЭМ). Оценки выше 90 считались наравне с экспериментально решенными структурами.
Первые результаты были скромными, медиана была ниже 60. Но со временем разработчики моделей научились хитростям, позволяющим улучшить свои расчеты. Например, отрезки аминокислот, общие для двух белков, часто складываются одинаково. Если белок с неизвестной структурой разделяет, скажем, 50% своей аминокислотной последовательности с белком, имеющим известную структуру, последний может служить «шаблоном» для построения компьютерных моделей.
Еще одно важное открытие пришло из эволюции. Исследователи поняли, что если одна аминокислота изменится в белке, принадлежащем близкородственным организмам, таким как шимпанзе и человек, аминокислоты, расположенные поблизости в свернутой молекуле, также должны будут измениться, чтобы сохранить форму и функцию белка. Это означает, что исследователи могут сузить форму белка, ища аминокислоты, которые совместно эволюционируют: даже если они находятся далеко друг от друга в развернутой цепи, они, вероятно, являются соседями в окончательной трехмерной структуре.
Затем на сцену вышла AlphaFold, программа, управляемая искусственным интеллектом. Программа, разработанная дочерней компанией Google DeepMind, обучается работе с базами данных экспериментально решенных структур. В первом соревновании его средний балл был близок к 80, и он выиграл 43 из 90 матчей против других алгоритмов. В 2020 году его преемник AlphaFold2 проявил себя еще ярче. Благодаря сети из 182 процессоров, оптимизированных для машинного обучения, AlphaFold2 набрал в среднем 92,4 балла — на уровне экспериментальных методов. «Я никогда не думал, что увижу это в своей жизни», — сказал в то время Джон Моулт, структурный биолог из Университета Мэриленда и соучредитель CASP.
В этом году прогнозы искусственного интеллекта резко изменились. В середине июля Бейкер и его коллеги сообщили, что их программа искусственного интеллекта RoseTTAFold решила структуры сотен белков, все из класса общих лекарственных мишеней. Неделю спустя ученые DeepMind сообщили, что они сделали то же самое с 350 000 белков, обнаруженных в человеческом теле — 44% всех известных человеческих белков. В ближайшие месяцы они ожидают, что их база данных вырастет до 100 миллионов белков всех видов, что составляет почти половину от общего числа, которое, как считается, существует.
Следующий шаг — предсказать, какие из этих белков работают вместе и как они взаимодействуют. DeepMind уже этим занимается. В октябрьском препринте его ученые представили 4433 белок-белковых комплекса, раскрывая, какие белки связываются друг с другом и как. В ноябре RoseTTAFold добавил еще 912 комплексов.
Код для AlphaFold2 и RoseTTAFold теперь общедоступен, что помогает другим ученым войти в игру. В ноябре исследователи из Германии и США использовали AlphaFold2 и крио-ЭМ для картирования структуры комплекса ядерных пор, сборки из 30 различных белков, контролирующих доступ к ядру клетки. В августе китайские исследователи использовали AlphaFold2 для картирования структур почти 200 белков, которые связываются с ДНК и могут участвовать во всем, от репарации ДНК до экспрессии генов. В прошлом месяце Alphabet, материнская компания Google, запустила новое предприятие, которое будет использовать предсказанные белковые структуры для разработки новых кандидатов в лекарства. И команда Бейкера использует свое программное обеспечение, чтобы придумывать новые белковые последовательности, которые будут складываться в стабильные структуры, — прогресс, который может привести к новым антивирусным препаратам и катализаторам.
Даже сейчас ученые, изучающие SARS-CoV-2, используют AlphaFold2 для моделирования эффекта мутаций в шиповом белке варианта Omicron. Встраивая в белок более крупные аминокислоты, мутации изменили его форму — возможно, достаточно, чтобы антитела не связывались с ним и не нейтрализовали вирус.
Остается много работы. Белковые структуры не статичны; они изгибаются и скручиваются при выполнении своей работы, и моделирование этих изменений остается сложной задачей. Визуализировать большинство крупных мультипротеиновых комплексов, которые выполняют множество функций в клетках, по-прежнему остается непростой задачей. Но бурный рост достижений, основанных на искусственном интеллекте, в этом году открывает невиданный ранее вид танца жизни, панораму, которая навсегда изменит биологию и медицину.