Нейросети помогут исследовать ДНК
Ученые ВШЭ предложили способ повысить точность поиска Z-ДНК – участков молекулы, скрученных не вправо, а влево. Для этого они использовали нейросети и набор данных из более чем 30 тысяч экспериментов, сделанных разными лабораториями по всему миру. Подробности исследования опубликованы в журнале Scientific Reports.
За 67 лет, прошедших с открытия структуры ДНК, ученые нашли множество вариантов строения этой молекулы. Иногда структурные элементы ДНК совсем не похожи на привычную двойную спираль, которая получила название B-ДНК. Они могут отличаться от нее количеством цепочек (от двух до четырех), плотностью и толщиной, способом соединения азотистых оснований и направлением спирали.
Один из вариантов, Z-ДНК, представляет собой двойную спираль, закрученную не так, как остальные – влево, а не вправо. Известно, что участки Z-ДНК встречаются в клетках различных организмов (от бактерий до человека), возникают при определенных условиях (например, повышенной влажности или концентрации солей) и могут сочетаться с другими вариантами структуры в одной молекуле. Например, если в силу каких-то причин молекула B-ДНК закручивается слишком сильно, настолько, что это затрудняет транскрипцию (синтез РНК на основе ДНК), некоторые ее участки могут перекрутиться в обратную сторону, тем самым снимая лишнее «напряжение». Также ученые предполагают, что Z-ДНК может регулировать транскрипцию и повышать вероятность мутаций. Некоторые исследования показывают, что образование Z-ДНК может быть связано с некоторыми заболеваниями, такими как рак, диабет и болезнь Альцгеймера. В последнее время появляется все больше и больше работ, демонстрирующих роль Z-ДНК во врожденном иммунном ответе – реакции на вирусы и другие патогены внутри самой клетки.
Чтобы больше узнать о причинах возникновения и биологической роли участков Z-ДНК, необходимо научиться находить их местоположение в геноме. Первая генетическая карта с разметкой участков Z-ДНК была составлена еще в 1997 году, на основе экспериментальных данных по структурному соединению идущих подряд нуклеотидов. В последние годы появилось методы, в которых расположение отличных от B-ДНК участков предсказывалось с помощью компьютерных алгоритмов. Достижения в области машинного обучения позволили использовать для этой задачи еще один мощный инструмент – нейронные сети. В отличие от большинства методов, они могут учитывать множество факторов и не требуют от ученых заранее выбирать несколько наиболее вероятных. Но даже для нейросетей поиск Z-ДНК остается непростой задачей, так как экспериментальных данных недостаточно: Z-ДНК то появляется, то исчезает, и эксперимент фиксирует только небольшую часть таких участков. Авторы статьи решили проверить, повысится ли точность работы нейросетей, если предоставить им также омиксные данные – информацию о том, как регулируется активность генов и синтез белков в клетках.
Ученые начали с того, что сравнили, как с задачей справляются нейросети трех типов: сверточные, рекуррентные и сочетание первых двух. Сверточные чаще всего используются для обработки изображений, рекуррентные – для анализа последовательностей, например, рукописного текста или речи. Все три типа нейросетей уже были опробованы на задачах, связанных с изучением генома. Всего авторы работы натренировали на расширенном датасете и оценили 151 модель, лучшие результаты показала одна из рекуррентных нейросетей, ее назвали DeepZ и использовали для предсказаний новых участков Z-ДНК в геноме человека. Ее точность значительно превосходит точность существующего алгоритма, Z-Hunt.
С помощью DeepZ ученые разметили всю последовательность генома человека, определив для каждого нуклеотида вероятность того, что он окажется внутри участка Z-ДНК. Последовательность из нескольких нуклеотидов, у которых вероятность превышала некое пороговое значение, пометили как потенциальный искомый участок.
Мария Попцова, заведующая Научно-учебной лабораторией биоинформатики ФКН НИУ ВШЭ, руководитель исследования
Результаты работы важны потому, что с помощью нейронных сетей мы не только воспроизвели эксперименты, но и предсказали потенциальные места образования Z-ДНК в геноме. Обилие сигналов Z-ДНК говорит о том, что они активно используются для включения и выключения генов. Это более быстрый сигнал, нежели мотивы в самом геноме. Например, исследования группы ученых из Австралии показали, что Z-ДНК служит сигналом при обучении подавлять страх. Видимо, Z-ДНК эволюционно появилась в тех случаях, когда требуется быстрая реакция на события. Мы планируем инициировать совместные проекты с экспериментальными группами, чтобы проверить предсказания.
Авторы продемонстрировали новый подход к предсказанию участков Z-ДНК с помощью омиксных данных и методов глубинного обучения. Сгенерированная нейронной сетью разметка генома поможет ученым в проведении экспериментов по обнаружению Z-ДНК, полный спектр функционала которой только начинает проявляться.