Голоса искусственного интеллекта трудно распознать, даже если вы знаете, что это может быть дипфейк.

В 2019 году директор британской компании попался на аферу. Он получил фальшивое голосовое сообщение от своего менеджера с просьбой перевести 220 000 евро (240 000 долларов США) поставщику. Год спустя менеджеру банка в Гонконге позвонил человек, который показался ему знакомым. Поскольку у них уже были деловые отношения, банкир перевел 400 000 долларов, прежде чем понял, что что-то не так. Подобные мошенничества с использованием технологии клонирования голоса с использованием искусственного интеллекта (ИИ) становятся все более частыми, а обнаружение дипфейковых голосов будет становиться все труднее, поскольку ИИ быстро совершенствуется, даже обученными людьми, использующими специальные инструменты.

Недавнее исследование, опубликованное в Plos One с участием 529 участников, показало, что людям сложно точно отличить настоящие голосовые сообщения от фальшивых. Исследование показало, что участники терпели неудачу в 25% случаев при попытке обнаружить голосовые подделки, и даже обучение имело минимальный эффект. Половина участников прошла предварительную подготовку, прослушав пять примеров синтезированного голоса, но их производительность была всего на 3% лучше, чем у неподготовленной группы.

Исследование ученых из Университетского колледжа Лондона (Великобритания) также было направлено на то, чтобы понять, проще или сложнее задача в зависимости от особенностей разных языков, поэтому они проводили тесты на английском и китайском языках. Результаты показывают, что обе группы одинаково оценили подлинность сообщений. Важными факторами они считали такие качества, как естественность и отсутствие роботизированного голоса. «Участники, говорящие как по-английски, так и по-китайски, часто называли неправильное произношение и нетипичные интонации в звуковых клипах факторами, влияющими на процесс принятия решений», — сказала Кимберли Мэй, ведущий автор исследования.

Участники упомянули одни и те же характеристики, независимо от точности ответа. Это потому, что звук субъективен. В отличие от обнаружения визуальных дипфейков, подлинность которых можно оценить, наблюдая за объектами и фоном, субъективный характер речи приводит к большему разнообразию восприятия. «Глядя на потенциально поддельное изображение человека, вы можете посчитать количество пальцев или посмотреть, совпадает ли его одежда и аксессуары», — сказал Май.

Чтобы сравнить человеческие и технологические возможности, исследователи также протестировали две автоматизированные системы обнаружения. Впервые использовалось программное обеспечение, обученное на несвязанной базе данных, с точностью 75%, аналогичной реакции человека. Второй детектор, обученный как на оригинальной, так и на синтезированной голосовой версии, достиг 100% точности в идентификации поддельного и реального звука. Мэй говорит, что продвинутые программы превосходят людей благодаря их способности распознавать тонкие акустические нюансы, чего люди не могут сделать.

Сложные звуки, как и человеческая речь, состоят из различных частот. Частота означает, сколько раз звуковая волна повторяется за одну секунду. «На этапе обучения автоматические детекторы анализируют тысячи образцов голоса и узнают об особенностях определенных уровней частот и ритмических нарушениях, которые люди не могут различить», — сказал Май.

Автоматические детекторы оказались более эффективными в этой задаче, чем люди, но у них также есть ограничения. Во-первых, они недоступны для повседневного использования. Более того, их производительность снижается при колебаниях уровня звука и в шумной обстановке. Однако главная задача — идти в ногу с достижениями в области генеративного искусственного интеллекта, который производит все более реалистичный контент, который синтезируется гораздо быстрее. Раньше обучение программы созданию дипфейков требовало нескольких часов записи, но теперь это можно сделать за секунды.

По словам Фернандо Куккетти, эксперта в этой области, результаты исследования имеют определенные ограничения. Условия эксперимента строго контролировались и не отражали реальных проблем, связанных с этой технологией. «Они не очень практичны в ситуациях, когда дипфейки могут вызвать проблемы, например, когда вы лично знаете человека, которому подражаете», — сказал Кучиетти, руководитель отдела анализа и визуализации данных суперкомпьютерного центра Барселоны испанского научного медиа-центра. Однако Куккетти отмечает, что эти результаты совпадают с результатами других исследований, проведенных в контролируемой среде, и «...на результаты в меньшей степени влияют такие факторы, как предубеждения или предвзятые представления, как это видно в исследованиях дезинформации».