Старт конкурса Virtual Cell Challenge (виртуальная клетка) для ускорения разработки моделей ИИ.

Часть 2.

Институт Arc запустил Virtual Cell Challenge (конкурс Виртуальная клетка) — новое открытое соревнование по тестированию вычислительных моделей, которые предсказывают, как человеческие клетки реагируют на генетические нарушения.

Виртуальные клетки — это новая область на стыке искусственного интеллекта и биологии. Ключевой целью этих моделей клеточного состояния является прогнозирование реакции клеток на воздействия. Для ускорения прогресса в достижении этой цели учреждается конкурс Virtual Cell Challenge. Это повторяющееся и открытое соревнование от Института Arc предоставит оценочную систему, специально созданные наборы данных и площадку для ускорения разработки моделей.

Отсутствие стандартизированных контрольных показателей и методов оценки качества моделей ограничивает прогресс в области прогностического моделирования состояния клеток. Успех конкурса CASP (Critical Assessment of protein Structure Prediction) по прогнозированию сворачивания белков показал, что структурированный, регулярный конкурс в масштабах всего сообщества может ускорить прогресс и объединить усилия для достижения общих целей. Важно понимать, что прогностические модели поведения клеток во многом отличаются от моделей прогнозирования структуры белков. Эти модели должны учитывать дополнительные сложности, такие как тип клетки, генетический фон и контекст клетки, а также измеряемый и прогнозируемый клеточный фенотип. Этот вызов для сообщества будет способствовать оценке прогресса с использованием тщательно разработанных оценочных наборов данных и формализации стандартов с целью повлиять на развитие этой области.

Юсуф Рухани, доктор философии,руководитель группы машинного обучения в Институте Арк,входит в число исследователей, обучающих модели искусственного интеллекта (ИИ) на основе данных транскриптома, чтобы прогнозировать, как меняется экспрессия генов в клетках в зависимости от их состояния. Эти так называемые виртуальные клетки могут помочь исследователям найти новые лекарства, способные переводить клетки из «больного» состояния в «здоровое» с меньшим количеством побочных эффектов, чтобы повысить шансы на клинический успех.  

Однако создание виртуальной ячейки — непростая задача.  

«Если вы посмотрите на клетки, то увидите, что это живые динамические системы, — сказал Рухани (Yusuf Roohani, PhD) в интервью GEN Edge. — Клетки постоянно меняются, они хаотичны и зависят от эксперимента».

Фабиан Тейс (Fabian Theis, PhD), доктор философии, директор Института вычислительной биологии в Мюнхене им. Гельмгольца, является известным исследователем, работающим над прогнозированием генетических и химических изменений на клеточном уровне. Он говорит, что улучшение масштаба и качества данных сыграло ключевую роль в развитии этой области. «Я с нетерпением жду предстоящего соревнования по прогнозированию возмущений, организованного Arc, — сказал Тейс в интервью GEN Edge. «Масштаб данных только недавно расширился настолько, что позволил сложным генеративным моделям ИИ превзойти более простые линейные модели. Будет интересно увидеть реальное поведение различных типов моделей на новых данных». Лаборатория Тэйса известна как разработчик CellFlow, фреймворка, основанного на сопоставлении потоков, подхода к генеративному моделированию, который может имитировать фенотипы отдельных клеток, вызванные сложными возмущениями. Кроме того, Тэйс является научным консультантом Open Problems, научной группы, которая организовала связанные с этим задачи для сравнительного анализа различных методов анализа отдельных клеток. 

Соревнования с открытым исходным кодом могут привести к быстрому прогрессу

Несмотря на недавний рост числа моделей, прогнозирующих реакцию отдельных клеток на возмущения, исследовательскому сообществу, работающему над моделированием клеточных состояний и поведения, в настоящее время не хватает принципиальных общих систем оценки, которые отражали бы способность модели к биологически значимому обобщению в отношении возмущений и типов клеток. На эффективность моделей возмущений влияют существенные технические источники вариативности во многих существующих наборах данных, в том числе экспериментальный шум, возникающий при сочетании генетических возмущений с одноклеточным транскриптомическим профилированием, а также ограниченная воспроизводимость эффектов возмущений в независимых экспериментах. Без стандартизированных контрольных показателей и специально разработанных оценочных наборов данных, которые развиваются в режиме реального времени параллельно с достижениями в этой области, сложно оценить, отражают ли модели общую биологическую структуру, а не особенности конкретного набора данных.
Прошлые публичные конкурсы заложили важную основу для сравнительного анализа прогнозирования клеточных реакций на воздействия, но ключевые пробелы всё ещё остаются. Например, в рамках конкурса Broad Institute Cancer Immunotherapy Data Science Grand Challenge основное внимание уделялось прогнозированию широких фенотипических сдвигов в Т-клетках, но не оценивались реакции на уровне экспрессии генов. Совсем недавно, в 2023 году, в рамках конкурса NeurIPS-Kaggle была проведена оценка изменений экспрессии генов в ответ на воздействие малых молекул в иммунных клетках. 

Опираясь на эти результаты, организаторы конкурса готовы провести сравнительный анализ реакции экспрессии генов на генетические нарушения — задачу, которая имеет ключевое значение для понимания функций клеток с биологической точки зрения. В отличие от малых молекул, генетические нарушения имеют чётко определённые мишени, что делает их идеальными для изучения причинно-следственных связей между генами и их функциями, даже несмотря на то, что возникающие в результате изменения в транскрипции зачастую менее заметны и их сложнее предсказать.
Чтобы восполнить эти пробелы, Arc Институт запускает Virtual Cell Challenge — ежегодное соревнование, в котором оцениваются модели ИИ, имитирующие клеточную реакцию (рис. 1). Для первого соревнования был создан специальный набор данных, в котором измеряются реакции отдельных клеток на возмущения в линии эмбриональных стволовых клеток человека (H1 hESC). Этот набор возмущений был тщательно подобран, чтобы охватить широкий спектр фенотипических реакций, а экспериментальные параметры были оптимизированы для максимальной воспроизводимости наблюдаемых эффектов. Набор данных H1 hESC, созданный для Virtual Cell Challenge, также способствует более широкому внедрению стандартов экспериментального контроля и качества для воспроизводимых, высококачественных данных функциональной геномики отдельных клеток (scFG). Такие стандарты будут способствовать прогрессу и позволят сообществу заложить прочный фундамент.

Эта инициатива направлена на создание равных условий, вовлечение сообщества и ускорение прогресса за счёт предоставления высококачественных эталонных наборов данных, общедоступной таблицы лидеров и механизма воспроизводимого и справедливого сравнения.

Формат конкурса «Виртуальная ячейка (клетка)».

Прогностические модели можно обучить обобщать данные по нескольким направлениям. Два основных аспекта:

  • 1. обобщение данных в биологическом контексте (например, тип клеток, клеточная линия, условия культивирования или даже in vivo и in vitro) и
  • 2 обобщение данных в отношении новых генетических и/или химических воздействий, включая их комбинации.

Первый конкурс Virtual Cell Challenge, который стартует в 2025 году, будет посвящен обобщению контекста как сложной реальной задаче: участники будут прогнозировать последствия мутаций одного гена в изолированном типе клеток H1 hESC. О транскриптомных последствиях этих генетических мутаций ранее сообщалось как минимум в одном другом клеточном контексте. Это отражает общую экспериментальную закономерность: тестировать все возмущения в каждом контексте нецелесообразно из-за высокой стоимости, однако точные прогнозы для конкретного контекста крайне важны, поскольку реакция зависит от таких факторов, как тип клетки, состояние, стадия дифференцировки, условия культивирования и генетический фон.
Учитывая, что большинство опубликованных наборов данных о генетических изменениях в отдельных клетках охватывают лишь несколько клеточных линий, истинное обобщение с нуля для новых клеточных состояний, скорее всего, преждевременно. Более подходящей стратегией на данном этапе является адаптация с несколькими примерами, когда для обобщения модели предоставляется подмножество изменений в новом клеточном контексте. В поддержку этого предоставляются профили экспрессии для подмножества изменений, измеренных непосредственно в человеческих эмбриональных стволовых клетках H1, что позволяет участникам адаптировать свои модели, прежде чем прогнозировать реакцию на оставшиеся невидимые изменения в том же типе клеток.

Оценки

Показатели оценки должны отражать основную цель виртуальной клетки: моделирование клеточного поведения с помощью виртуальных экспериментов, в частности, прогнозирование реакции экспрессии генов на генетические нарушения. Основными результатами такого эксперимента являются показатели экспрессии после нарушения и наборы генов с дифференциальной экспрессией. На основе этих критериев разработаны три показателя для оценки эффективности модели (рис. 2). Первые два показателя, оценка дифференциальной экспрессии и оценка дискриминации нарушений, дополняют друг друга. Показатель дифференциальной экспрессии оценивает, насколько точно модель предсказывает дифференциальную экспрессию генов, которая является ключевым результатом большинства экспериментов scFG и важным исходным материалом для последующей биологической интерпретации. Показатель дискриминации возмущений измеряет способность модели различать возмущения, ранжируя прогнозы по степени их сходства с истинным эффектом возмущения, независимо от его величины.
Эти два показателя отражают различные и непересекающиеся аспекты производительности. Например, наивная модель, которая последовательно предсказывает один и тот же набор генов с дифференциальной экспрессией на основе обучающих данных, может получить приемлемый показатель дифференциальной экспрессии. Однако её показатель дискриминации возмущений будет случайным или минимальным. И наоборот, модель, которая успешно различает эффекты возмущений на основе незначительных изменений во встраиваемом пространстве, может хорошо справляться с дискриминацией возмущений. Однако маловероятно, что это приведёт к появлению биологически значимых наборов генов с дифференциальной экспрессией, что ограничивает его практическую ценность как замены экспериментальным измерениям.
Чтобы убедиться, что прогнозы оцениваются по всем генам, включая те, которые не экспрессируются дифференциально, включен в анализ третий показатель: средняя абсолютная ошибка. Хотя она менее интерпретируема с биологической точки зрения, она отражает общую точность прогнозирования и даёт общее представление о работе модели по всему профилю экспрессии генов. В совокупности эти три показателя обеспечивают комплексную систему оценки. Будет использоваться совокупный показатель, который учитывает вес каждого компонента, и будут установлены минимальные пороговые значения для всех показателей, чтобы обеспечить сбалансированную производительность и не поощрять модели, которые хорошо работают по одному показателю в ущерб другим. Также организаторы будут сообщать о рейтинге моделей по каждому отдельному показателю, чтобы облегчить интерпретацию результатов и выделить модели, которые превосходят другие по какому-либо одному параметру.

Направления на будущее

Эта работа основана на непрерывном сборе данных в Институте Арк и направлена на создание эталонных наборов данных для развития эмпирических основ прогностического моделирования клеток. "Мы надеемся, что это также будет способствовать появлению аналогичных инициатив в сообществе по созданию высококачественных эталонных наборов данных, будь то scRNA-seq или другие методы, которые будут способствовать построению более полных и обобщаемых моделей клеточного поведения. В то время как первый вызов фокусируется на прогнозировании генетических нарушений в одном типе клеток, будущие вызовы будут охватывать комбинаторные нарушения и обобщение на разные типы клеток. Заглядывая в будущее, можно сказать, что для всестороннего моделирования поведения клеток потребуется интеграция различных биологических методов, включая транскрипционные, протеомные и эпигенетические, в многоклеточных системах в пространственно-временных измерениях. Аналогичным образом, прогнозирование реакции на возмущения, направленное на выявление оптимальных возмущений, которые приводят к желаемому эффекту, является важной возможностью для моделей виртуальных клеток, имеющей явное терапевтическое значение для решения будущих задач. Мы рассматриваем эту инициативу как развивающуюся платформу для совершенствования количественного моделирования, где как наборы данных, так и системы оценки адаптируются по мере углубления понимания биологической сложности. Метрики будут уточняться на основе анализа результатов предыдущих лет. Мы приглашаем научное сообщество в целом участвовать в формировании и укреплении будущих версий Virtual Cell Challenge.

Заключение

"Виртуальные клетки могут стать основополагающими инструментами в биологии, и для того, чтобы они раскрыли свой потенциал, нам нужны чёткие и строгие оценки. Задача Virtual Cell Challenge — предоставить именно такую оценку: справедливый, открытый вызов, который позволит выявить лучшие модели, прояснить современное состояние дел и привлечь сообщество. Мы приглашаем сообщество принять участие в этой первой итерации и помочь лучше определить контуры прогностического клеточного моделирования как научной дисциплины".

Источник: Cell Press 26.06.2025

Подписываться

Хотите быть в курсе всех новостей из мира биотехнологий, открытий в медицине и перспектив продления жизни и бессмертия?


https://t.me/kriorus_official