19 января / 10:25 Новосибирск Наука

Новосибирские ученые придумали метод оценки депрессивных состояний по голосу

Исследовательская группа Новосибирского государственного университета создала автоматизированный подход к оценке депрессии, основываясь на акустических характеристиках человеческой речи.

На сегодняшний день депрессия является одним из наиболее распространенных психических расстройств. По оценкам ВОЗ на 2025 год во всем мире от депрессии страдает порядка 332 миллионов человек. Депрессия может выступать как самостоятельное расстройство или сопутствовать другим, в том числе соматическим, заболеваниям. Ситуация осложняется тем, что зачастую депрессию «маскируют» соматические жалобы: пациенты испытывают неопределенные боли (например, частая головная боль), проблемы с сердцем, пищеварением, общее ухудшение самочувствия, при этом симптомы остаются неоднозначными, а определить «телесную» причину оказывается невозможно. В этой ситуации врачи общей практики зачастую не обладают временными ресурсами и необходимой квалификацией для углубленной диагностики и постановки точного диагноза.

«Помочь снизить нагрузку на врачей и обеспечить точную, качественную и своевременную диагностику может анализ объективных показателей депрессии. В качестве одного из таких показателей может служить анализ голоса. Следует отметить, что диагностика депрессии по акустическим характеристикам голоса обладает рядом преимуществ по сравнению с традиционными методами, основанными на методах самоотчета и интервью, в первую очередь потому, что полностью исключает фактор социальной желательности: это объективный показатель, который отражает состояние человека, при этом произвольно контролировать голос с целью сокрытия симптомов депрессии (или наоборот, аггравации симптомов) человек не может», — рассказала старший преподаватель кафедры психологии личности ИММТ НГУ, руководитель проекта кандидат психологических наук Марина Злобина.

Как отмечают авторы проекта, речь выступает естественным биомаркером психического состояния. Даже короткий ее отрывок содержит ценную информацию об энергетике голоса, которая подвержена изменениям при депрессивных и тревожных состояниях. На основе более 90 интервью исследователи обучили нейросетевую модель, которая классифицирует речь по четырем уровням выраженности депрессии — от отсутствия симптомов до тяжелой формы. Для оценки степени выраженности симптомов депрессии использовали опросник PHQ-9.

«В основу разработки легла современная архитектура wav2veс, которая позволяет извлекать векторные акустические характеристики голоса. Обученная модель демонстрирует высокую точность, которая сопоставима с результатами ведущих зарубежных исследований: точность оценивалась на основе показателя F1 — гармоническое среднее между точностью (precision) и полнотой (recall), F1 достиг значения >0.94. Для практического использования технологии был создан прототип GUI-приложения NeuroVoiсe, который реализован на базе фреймворка PyQt5. Интерфейс обеспечивает полный цикл работы с данными — от загрузки или записи аудио до визуализации результатов и экспорта записей. Прототип позволяет как загружать уже сделанные записи, так и проводить оценку на лету», — пояснил заведующий кафедрой клинической психологии ИММТ НГУ, доцент, кандидат психологических наук Александр Федоров.

Работа над проектом велась в течение четырех месяцев — с сентября по декабрь 2025 года. «Важно отметить, что технология не является заменой специалисту психологу или психиатру, однако может быть эффективно использована врачами общего профиля для выявления коморбидной депрессии при соматических заболеваниях, а также маскированной депрессии, часто проявляющейся в форме физических жалоб, болей и недомогания, которые невозможно объяснить соматическим заболеванием», — добавила Марина Злобина.

В дальнейшем планируется расширение датасета и формирование на его основе базы данных интервью русскоязычных испытуемых, аналогичной англоязычной DAIC-WOZ (мультимодальный корпус, состоящий из аудио- и видеозаписей, а также расшифрованного текста интервью). Ученые будут вести обучение моделей уже на расширенном датасете, интеграция модели в итоговое приложение и его дальнейшее тестирование. «В будущем разработанная технология может также использоваться для диагностики других психических расстройств (при наличии дополнительных данных, на основе которых можно будет дообучить модель). Кроме того, возможно подключение дополнительных модальностей (например, анализ мимики по видеозаписи)», – подытожила Марина Злобина.