Специалисты кафедры киберпсихологии Университета Лобачевского разрабатывают модели машинного обучения, способные выявлять тревогу по акустическим характеристикам речи.
Технология может найти применение в образовании, психиатрии, а также в системах взаимодействия человека и компьютера, сообщили ТАСС в пресс-службе вуза.
По словам заведующей кафедрой Валерии Демаревой, автоматический анализ голоса позволяет своевременно обнаруживать перегрузки у операторов, диспетчеров и медицинского персонала, снижая риск ошибок и профессионального выгорания. Кроме того, система может фиксировать состояние клиента, например, при подозрении на мошенничество, когда человек действует под влиянием обмана.
Стресс проявляется в речи вполне определённо: меняются мышечный тонус, частота дыхания, голос становится жёстче или дрожит, изменяются высота тона, громкость и темп. Чтобы уловить эти изменения, исследователи использовали метод машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Эти показатели компактно и точно описывают спектральную оболочку речи, устойчивы к шуму и хорошо работают даже на небольших выборках, сообщает ТАСС.
В эксперименте участвовали 10 студентов, которые дважды зачитывали отрывки своих научных докладов: в спокойной обстановке без слушателей и публично — перед комиссией и коллегами. Четырёхминутные записи разбили на пятисекундные отрезки, очистили от шумов и обработали. В итоге машинный классификатор Gradient Boosting смог отличить тревожную речь от спокойной с точностью 91,9%. Из 110 сегментов приватных выступлений верно распознано 102, из 111 публичных — 101.
Учёные признают, что в реальных условиях точность может быть ниже из-за разнородности данных. В планах — расширение выборки, добавление новых акустических признаков и внедрение более сложных методов адаптации модели.