AI-голос уже трудно отличить от настоящего: что показало исследование

Голос долго оставался одним из самых надёжных признаков присутствия человека. По телефону мы узнаём близких, слышим усталость, раздражение, паузы, неуверенность, срочность.

Исследование “Can You Tell It’s AI? Human Perception of Synthetic Voices in Vishing Scenarios” показывает, что этот навык больше не работает как защита. Участники эксперимента не смогли надёжно отличить синтетические голоса от человеческих записей: средняя точность составила 37,5%, то есть ниже случайного угадывания в задаче с двумя вариантами.

Что проверяли в эксперименте?

Авторы работы моделировали ситуацию, близкую к телефонному мошенничеству. Участникам давали короткие аудиофрагменты, оформленные как потенциальные vishing-звонки (от англ. voice phishing — голосовой фишинг): про налоги, банковские проблемы, лотереи и другие сценарии, где на человека давят срочностью, страхом или обещанием выгоды. В эксперименте участвовали 22 человека (да выборка небольшая). Каждый слушал 16 фрагментов: 8 были AI-сгенерированными, 8 — человеческими записями. После каждого фрагмента нужно было определить, кто говорит — человек или искусственный интеллект, а затем оценить уверенность в ответе и объяснить, по каким признакам принято решение.

Результат оказался важнее самой цифры 37,5%. Ошибки были не односторонними. По данным авторов, 75% AI-сгенерированных фрагментов большинство участников сочли человеческими. При этом 62,5% человеческих записей большинство участников приняли за AI.

Это означает, что проблема не сводится к фразе «AI звучит как человек». Граница сместилась в обе стороны: синтетический голос уже воспроизводит признаки живой речи, а настоящий человеческий голос не всегда воспринимается как «достаточно человеческий».

Почему слух подводит

Участники опирались на привычные признаки: паузы, сбивчивость, эмоциональность, ритм речи, интонацию, небольшие несовершенства и ощущение живого разговора. Раньше такие детали помогали отличить запись человека от машинной озвучки. Но современные системы синтеза речи уже умеют имитировать многие из этих признаков. Пауза больше не доказывает, что говорит человек. Эмоциональная окраска не гарантирует живой голос. Неровный темп или разговорная манера тоже могут быть частью сгенерированной речи.

Отдельно авторы отмечают разрыв между уверенностью и точностью. Участники нередко были умеренно или сильно уверены в ответах, даже когда ошибались. Это опаснее простой неуверенности: если человек понимает, что не может отличить AI-голос, он осторожнее. Если он ошибается уверенно, голосовой клон получает больше шансов пройти как настоящий собеседник.

Почему это касается не только мошенников

Для борьбы с телефонним мошенничеством вывод очевиден: голос больше нельзя считать самостоятельным и полноценным доказательством личности. Звонок «от родственника», «от руководителя», «из банка» или «от врача» требует дополнительной проверки по независимому каналу. Вот только некоторые возможные инструменты двухфакторной верификации.

Кодовое слово. В рамках семьи можно заранее договориться о фразе, которую не пишут в соцсетях и не используют публично. Если «родственник» просит деньги или об услуге, он должен назвать слово.

Контрольный вопрос. Спросить то, что знает только реальный человек: деталь из недавнего разговора, общий бытовой факт, внутренний рабочий контекст. Не подойдут вопросы вроде даты рождения или адреса — это часто можно найти в утечках.

Пауза без действия. Не переводить деньги и не отправлять данные во время звонка. Мошеннические сценарии держатся на срочности: «прямо сейчас», «через 5 минут», «иначе будет поздно».

Проверка через второй контакт. Если звонит «сын», «жена», «руководитель» — связаться с другим близким человеком, коллегой или ассистентом, который может подтвердить ситуацию.

Запрет на коды и пароли. Настоящий банк, клиника, работодатель или госорган не должен просить продиктовать SMS-код, пароль, CVV, код из приложения или seed-фразу. Такой запрос сам по себе красный флаг.

Важное ограничение

Эту работу нельзя подавать как окончательный научный консенсус. На странице arXiv указано, что препринт отозван авторами на доработку; текущая версия помечена как предварительная, а выборка очень скромная — 22 участника. Исследование не доказывает, что люди всегда хуже случайного угадывания распознают AI-голоса. Но оно хорошо показывает направление риска: в реалистичном сценарии телефонного давления человеческая интуиция уже может быть очень ненадёжной.

Источник: препринт “Can You Tell It’s AI? Human Perception of Synthetic Voices in Vishing Scenarios”, arXiv:2602.20061. На момент проверки страница arXiv помечает работу как отозванную авторами на доработку.