Голосовая биометрия в сфере VoIP
Осознаете ли вы свою уникальность, перелистывая страницы этого журнала? Уверен, что да. Папиллярный рисунок пальцев, вены на руках, сетчатка или радужная оболочка глаза, голос и даже походка – все эти черты уникальны для каждого человека и называются биометрическими характеристиками. Обобщая, биометрическая характеристика – это любой параметр живого организма, который может быть представлен в абсолютном значении, то есть мы можем его оценить и измерить, а значит – управлять и понимать.
Виды биометрии
В целом биометрические данные можно разделить на два типа – физиологические и поведенческие. Если отпечатки пальцев, параметры глаз и вен на руках можно смело отнести к физическим характеристикам, то голос человека – спорный момент. С одной стороны, наш голос формируется под воздействием физиологических особенностей, связанных с колебанием голосовых связок и их формы, а с другой стороны – на него влияют и поведенческие факторы, в частности эмоциональное состояние (например, уверенность в себе), а также окружение. Именно поэтому корректнее всего отнести голос сразу к двум типам – физике нашего тела и поведению.
Задачи биометрических систем в контексте определения голоса
Любая биометрическая система решает две задачи: идентификации и верификации. Условно говоря, процесс идентификации заключается в ответе на вопрос «кто звонит?». В контексте голосовой биометрии в телефонии мы сопоставляем голос звонящего с множеством образцов, а на выходе голосовая система дает ответ: «С уверенностью в 98,3% могу сказать, что это Иван Иванов».
Верификация же отвечает на вопрос «а точно ли звонящий, который представился Иваном Ивановым, есть Иван Иванов?» Голос звонящего сопоставляется в точности с одним шаблоном, который хранится в базе, затем система на выходе дает характеристику вероятности того, что это именно тот человек. Например, вероятность совпадения 91%, а далее вы сами решаете, насколько этот параметр достаточен для вас.
Начало работы с голосовой биометрией
Любой человек, желающий звонить в наш офис или контактный центр, должен зарегистрироваться в системе. Процедура такая: абонент звонит в центр обработки вызовов, где ему предлагают зарегистрироваться в системе – то есть оставить свой голосовой слепок, или, как он еще называется, шаблон.
Текстозависимость
Голосовые биометрические системы также можно разделить на два типа: текстонезависимые и текстозависимые. В первом случае оператор контактного центра ведет естественную беседу с абонентом, а система на лету сопоставляет его речь и шаблон. Как правило, этот тип биометрии требует больше всего времени – до 10 секунд.
В свою очередь текстозависимые системы делятся на два подвида: а) со статической и б) с динамической парольной фразой. Первые подразумевают, что абонент на этапе регистрации произносит некое слово (это может быть девичья фамилия матери, кличка питомца и т. д.), по которому он и будет верифицирован. То есть каждый раз при звонке потребуется называть это слово (нечто похожее происходит в банке). Но преимущества очевидны: в данном кейсе мы экономим ресурс оператора.
Динамическая же парольная фраза подразумевает, что звонящий на этапе верификации будет «проброшен» на специальное голосовое меню, где ему придется произносить фразы вслед за системой. Например, некий случайный набор цифр – и вуаля, верификация прошла.
Что под капотом?
Итак, предлагаю разобраться, как работают алгоритмы верификации и идентификации в голосовых биометрических системах. Отмечу сразу: «мозг» подобных механизмов анализирует до 80 параметров голоса, поэтому выделю основные и наиболее интересные среди них.
Основной тон
А именно базовая частота основного тона (ЧОТ), то есть самый низкий тон, свойственный голосу конкретного человека. Изменение ЧОТ отражает эмоциональное возбуждение человека: так, у взрослого мужчины (нижний тон натурального звукоряда) он колеблется в диапазоне 85–155 Гц, у взрослой женщины – от 165 до 255 Гц, а диапазон разговорного детского голоса – от 170 до 600 Гц.
Кстати говоря, в социальной плоскости исследования показывают, что чем выше ЧОТ во время обычной беседы супругов, тем больше вероятность развода.
Как вы уже могли понять, в биометрических механизмах есть свои особенности: зачастую на основной тон человека накладывают большой отпечаток его эмоциональное состояние, реверберации, а также шумы в канале передачи и другие факторы.
Форманты
Сначала поговорим, что это такое. Форманты формируют специфический, уникальный тембр голоса и появляются под влиянием биологических резонаторов (носовые ходы, гайморовы и лобные пазухи, легкие, бронхи и трахея), то есть совпадений колебаний собственного голоса и частот внешнего воздействия. Метод носит название спектрально-формантного анализа. Чувствуете, как начинает раскрываться сам по себе термин биометрия? Условно говоря, форманты – области спектра звука, где концентрация энергии максимальна.
Гаусс
На самом деле в нашей повседневной жизни куда ни плюнь, везде гауссово распределение. Более того, даже сам плевок будет распределен по Гауссу:) В контексте голосовой биометрии мы можем формировать гладкие аппроксимации экспериментальных распределений компонент акустического пространства и определять, сопоставим ли голос звонящего шаблону (экземпляру, который мы храним у себя) в нужных точках.
Атаки
Любая система имеет уязвимости. И первое, что приходит в голову, если задуматься о брешах голосовой биометрии: что случится, если записать аудио, в котором говорит жертва? Например, у нее можно обманным путем извлечь парольную фразу. Подобному виду уязвимостей подвержены только системы со статической парольной фразой. И те, кто считает данный вид атак опасным, абсолютно правы.
Запись звука (заранее записанный файл)
Здесь в первую очередь многое зависит от качества записывающего устройства. Большинство систем умеют отличать воспроизведенный микрофоном звук от реальной речи по акустическим характеристикам. А во-вторых, любая голосовая биометрическая система со статической парольной фразой запросит повторить ее несколько раз, и, когда в первой и второй попытке полученный от диктора шаблон совпадет с вероятностью выше определенного процента, система «забанит» злоумышленника либо отправит на дополнительную проверку оператором.
Синтез речи
Синтезированная речь, то есть некий механизм TTS (Text To Speech), может быть использована как в текстозависимых, так и текстонезависимых системах. Этот вид атак безусловно опасен: параметр FAR (False Acceptance Rate) доходит в нем до 80%.
Есть такая штука, как марковский процесс, описывающий последовательность событий, в которой вероятность каждого следующего события, зависит от предыдущего. Базируется он на максимуме вероятности, то есть в случае цепочки событий (слогов или букв в слове) возможно породить последовательность речевых звуков с характеристиками, которые были бы у реально звонящего, чью речь мы проанализировали.
Основным методом борьбы с такого рода злоумышленниками служит анализ волатильности, то есть изменчивости речи. Кроме того, различия между естественной и синтезированной речью выявляются на высоких частотах: естественная проявляет более высокую дисперсию (то есть разброс значений параметров).
Конвертация голоса
Еще один метод атак: злоумышленник говорит с системой через некий преобразователь, обученный конвертировать речь согласно требуемым параметрам. Основным заградительным барьером здесь выступает артикуляция – совокупность работы отдельных органов, участвующих в формировании голоса. Например, такой биометрический компонент, как зубы, имеет уникальные характеристики, и в совокупности с рисунком реверберации, который они вносят в речь, данный метод атак неэффективен. Вдобавок, чтобы обмануть систему, злоумышленнику требуется множество попыток, но мы же помним, что система забанит его уже после первых трех:)
Вендоры
Среди энтерпрайз-решений можно выделить продукты компаний Nice, Nuance и российской ЦРТ. Помимо прочего, попробовать биометрию можно и на халяву. Например, VoiceIt, облачная платформа для голосовой биометрии речи, позволяет делать до 1000 запросов к API бесплатно (за 30 дней). Ребята имеют готовые библиотеки под C++, node.js, питон, php, ruby и многие другие.
Опубликовано 14.11.2018