12 июля 2019, 10:00

Как большие данные производят революцию в современной медицине

Петр Федичев, кандидат физико-математических наук, заведующий лабораторией моделирования биологических систем МФТИ, научный директор Gero, в рамках форума VestiFinance рассказал о том, как big data (большие данные) и машинное обучение сегодня используют в медицине.

Как big data изменили биологию

Как вы наверняка знаете, большие данные сначала повлияли на молекулярную биологию. Был расшифрован человеческий геном. Сейчас в любой клинике «Инвитро» можно сдать несколько сотен, если не тысяч анализов. И очевидно, что то количество данных, которые можно собрать с каждого человека, становится просто астрономическим. Причем с появлением компьютеров, баз данных и прочего все это хранится вечно и доступно для исследования.

Фактически в каждой крупной стране существует инициатива сбора больших медицинских данных. Например, в Великобритании есть база, где хранятся данные полумиллиона британцев. Они полностью секвенированы. Известно, что они любят есть, когда кто из них чем заболел, когда кто, не дай бог, умер, когда умерли родители. То есть известна их генетика. Это пока еще не медицина, а биологическая наука. Однако уже она позволяет понять, что в этих данных можно увидеть.

Как большие данные помогают распространению медицинских данных

В былые времена молодой врач ценился меньше, чем опытный, потому что молодому врачу, его нейронной сети — настоящей, не компьютерной, — требовалась обширная «библиотека для обучения», чтобы научиться лечить. И раньше говорили, что за каждым врачом находится небольшое кладбище. То, что происходит сейчас, позволяет собирать гораздо больший объем данных. При этом собирать быстро, стандартизированно, а самое главное — использовать средства машинного интеллекта, чтобы генерировать и проверять новые гипотезы, а также крайне эффективно их обобществлять. Если раньше какой-то врач учился что-то лечить, его знания были доступны только ему одному. Сейчас, с появлением доказательной медицины, протоколов и стандартов лечения, знания очень быстро распространяются по всем докторам. И, скорее всего, все мы доживем до того момента, когда даже небольшие поправки к протоколам будут очень эффективно распространяться по медицинскому сообществу.

Как возможность выдвигать новые гипотезы и проверять их с помощью машинного обучения создает новые возможности для медицины.

Приведу пример. Раньше рак делился только по ткани происхождения. Сейчас очевидно, что все раковые больные разные. Чем выше стабильность рака, тем выше шанс, что состояние зависит от конкретных мутаций и их комбинаций. Таким образом, одно и то же лечение не может быть пригодно для всех пациентов. Это создает драматические трудности, потому что, чтобы пройти клинические исследования, особенно самые ранние их этапы, когда вам нужно показать, что ваш препарат или ваша терапевтическая гипотеза работает, нужно получить отклик у какого-то значительного количества пациентов. В последнее время крайне сложно получить этот отклик больше чем у 20% людей. Однако современный анализ данных помогает подобрать пациентов, от которых у вас будет ответ. Это позволяет тестировать препараты и вводить их в клиническую практику крайне эффективно и намного дешевле.

Машинное обучение и сфера медицинской диагностики

В биологии революция уже случилась. Практически все, так или иначе, используют большие данные для того, чтобы получать медицинские гипотезы и тестировать их со сложностью, которая еще десять лет назад была недостижима. В диагностике практически каждый месяц (а скоро это, наверное, будет происходить каждый день) мы видим ситуацию, когда средства машинного обучения и искусственного интеллекта позволяют получить сверхчеловеческие способности. То есть алгоритм диагностирует то или иное состояние на основании данных лучше, чем эксперт. При этом, когда я говорю «лучше, чем эксперт», достаточно, чтобы он диагностировал так же, как эксперт, потому что эксперт, в отличие от машины, устает и не может работать 24/7. А еще алгоритмы учатся на всех примерах сразу и позволяют крайне оперативно обновлять данные.

Что произойдет в ближайшие годы

Совсем недавно ученые на основании данных носимого устройства (кардиограммы) смогли диагностировать аритмию лучше, чем доктор на медицинском стационарном устройстве. И это пример того, как в биологическую науку, а теперь и в медицину входят так называемые потоковые данные. Если раньше большая часть статей и большая часть анализов лабораторий, по сути, представляли собой сравнение состояний «болен — здоров», то с появлением потоковых данных во всей этой истории появилось еще и пространство времени. Теперь мы видим состояние человека не только тогда, когда он к нам пришел, но еще и на протяжении последних нескольких лет жизни.

Если мы посмотрим на проекты, в которые инвестируют прямо сейчас, то, например, в Сан-Франциско есть команда, которая объединяет тех, кто делает препараты от заболеваний ЦНС, и тех, кто использует средства машинного обучения. Все это для того, чтобы подобрать в каждый данный момент терапию для пациента и пациента для терапии. Раньше мы ходили к врачу, врач нас слушал и говорил нам, что делать: «Не нравится правительство? Не нравится жена? Вот тебе антидепрессант, приходи через неделю, будем смотреть». Теперь техника движется к тому, что мы собираем с людей данные, определяем состояние мозга (продуктивность, метрики депрессии) и в зависимости от найденных новых генотипов даем дозы необходимых лекарств, адаптивно подбирая их на лету для каждого пациента. То есть мы переходим в ситуацию, когда мы не просто диагностируем и помогаем ввести в клиническую практику те или иные препараты, мы начинаем этими препаратами лечить в зависимости от текущего состояния пациента, которое измеряем сразу без обращения к врачу. Это ближайшее будущее.

Петр Федичев — кандидат физико-математических наук, заведующий лабораторией моделирования биологических систем МФТИ, научный директор Gero