Искусственный интеллект и сжатие звука без потери качества

Логотип компании
02.11.2022
 Искусственный интеллект и сжатие звука без потери качества
Аудиокодек на базе искусственного интеллекта обещает 10-кратное сжатие по сравнению с MP3.

На прошлой неделе группа ученых объявила о новом алгоритме сжатия звука, разработанным с участием искусственного интеллекта. EnCodec сжимает аудио в 10 раз лучше, чем культовый MP3. Утверждается, что сжатие происходит без слышимых потерь качества звука. Этот метод может значительно улучшить качество звука речи при низкоскоростных соединениях, например, при телефонных звонках в районах с нестабильным обслуживанием.

Meta*, а именно в ней работают исследователи, описывает свой метод как систему из трех частей, обученную сжимать звук до желаемого целевого размера.

  • Во-первых, кодировщик преобразует несжатые данные в представление «скрытого пространства» с более низкой частотой кадров.
  • Затем «квантизатор» сжимает представление до целевого размера, сохраняя при этом наиболее важную информацию, которая позже будет использоваться для восстановления исходного сигнала. (Этот сжатый сигнал передается по сети или сохраняется на диск.)
  • Наконец, декодер преобразует сжатые данные обратно в звук в режиме реального времени, используя нейронную сеть на одном процессоре.

Использование дискриминаторов (классификаторов) оказывается ключом к созданию метода максимально возможного сжатия звука без потери ключевых элементов сигнала, которые делают его отличительным и узнаваемым.

«Ключом к сжатию с потерями является идентификация изменений, которые не будут восприняты людьми [человеческим слухом], поскольку идеальная реконструкция невозможна при низких скоростях передачи данных. Для этого мы используем дискриминаторы (классификаторы) для улучшения воспринимаемого качества сгенерированных образцов. Их задача состоит в том, чтобы различать реальные и реконструированные звуковые отрезки. Модель сжатия пытается добиться восстановления звуковых отрезков до изначального состояния».

Стоит отметить, что использование нейронной сети для сжатия и распаковки звука далеко не ново, особенно для сжатия разговорной речи. Однако, исследователи Meta* утверждают, что они являются первыми, кто применил технологию к стереозвуку с частотой дискретизации 48 кГц – под эту категорию попадают практически все музыкальные CD и большинство музыки в интернете.

На данный момент новая технология находится на стадии исследования, но есть надежда, что в будущем она позволит использовать сети с малой пропускной способностью для передачи высококачественного звука.

*признана экстремистской организацией и запрещена в РФ

Похожие статьи