ИИ научился различать туберкулезный, ковидный и кашель курильщика
Во время пандемии коронавируса группа ученых обнаружила, что при этом заболевании кашель человека звучит по-особенному, а значит, искусственный интеллект может идентифицировать его по звуку. И вот сейчас специалисты из Замбии и США представили программу, которая может распознавать разные типы кашля. О ней сообщает журнал Nature.
«Существующие системы машинного обучения, которые должны давать данные о здоровье, проанализировав звук, чаще подготавливаются для одной задачи. Это ограничивает массив данных и может помешать расширить поле действия. Чтобы избежать этого, мы разрабатываем масштабируемую систему глубокого обучения с самоконтролем», — поясняют разработчики в препринте статьи, которая выложена на сайте arXiv и пока не прошла рецензирование.
Обычно для обучения ИИ с подобными функциями используют записи кашля, которые уже проанализированы человеком. Например, «заучивая» образец кашля, нейросеть сразу получает информацию о том, что человек болен бронхитом. С одной стороны, такое обучение лучше контролируется — ведь в нем участвуют эксперты-люди, с другой — как раз и происходит то самое ограничение данных для обучения.
Разработчики новой программы пошли по другому пути. Чтобы ИИ научился различать виды кашля, ему предоставили двухсекундые аудиозаписи кашля, взятые из роликов, открыто выложенных в интернете. Каждый из 313 миллионов клипом был преобразован в визуальное представление звука, называемое спектрограммой.
Затем использовали алгоритм, подобный тем, на которых обучаются боты ChatGPT. Только их учат предсказывать следующее слово в предложении, а медицинский ИИ — следующий фрагмент спектрогораммы. Разработчики уверяют, что такой метод дает потенциал для использования нейросети в очень широком диапазоне.
На завершающем этапе все же понадобилось вмешательство человека в обучение. Так как ИИ был обучен на очень большом диапазоне данных, для тонкой настройки были загружены те самые образцы кашля, для которых уже известны диагнозы.
Точность нейросети в итоге все равно оказалась не абсолютной. Но если оценивать по шкале, где 0,5 — случайное предсказание, а 1 — каждый раз точное попадание, то новая система набрала 0,645-0,710 при выявлении COVID-19 и 0,739 — при диагностике туберкулеза. Предполагается, что модель может выявлять и другие факторы — например, курение.
Пока вопрос о коммерческом использовании программы не ставится. На первом этапе авторы планируют передавать ее другим исследовательским группам для научной работы.