Поиск

ПрактикаКак это сделать

Как аудиофайл перевести в текст

Сергей Грицачук | 25.09.2014

Как аудиофайл перевести в текст

Зачем это нужно

Как это сделать

Одной из интереснейших задач считается создание системы распознавания голоса и его транскрибирование — перевод в текстовую форму. В этом частенько нуждаются не только профессионалы, но и обычные пользователи в их повседневной жизни.

Зачем это нужно

В то время как одна часть специалистов озабочена переводом текста (в основном книг) в аудиоформат, вторая ломает голову над прямо противоположной задачей. В деле компьютерной оцифровки голоса достигнуты немалые успехи: создано много программ, успешно распознающих речевой ввод и позволяющих управлять электронными приборами посредством голосовых команд. Но стопроцентную гарантию качества преобразования пока обеспечивает только человек, набирающий текст вручную и многократно прослушивая аудиозапись. Безусловно, на это уходит куча времени, ведь записывать информацию приходится в условиях, далеких от идеальных. Скажем, журналист берет интервью, студент фиксирует лекцию, а бизнесмен, врач или юрист ведет деловые заметки – все это делается при помощи диктофонов, смартфонов и планшетов посредством встроенного микрофона, что отрицательно сказывается на качестве аудио и разборчивости речи. А последующее преобразование в текст процесс долгий, нередко в условиях цейтнота, поэтому стремление перепоручить его компьютеру вполне объяснимо: время, которое освобождается, можно потратить на другие важные дела.

Как это сделать

Проще всего доверить транскрибирование фрилансерам или организациям, специализирующимся на предоставлении услуг такого рода. Если, конечно, вы готовы их труд оплачивать (а он зачастую недешев), а заодно мириться с тем, что информация станет известна третьим лицам (впрочем, ответственные фирмы в обязательном порядке подписывают с клиентами договор о неразглашении). Зато результат гарантированный: на выходе вы получите качественный текст, помимо всего прочего освобожденный от мусора – информации, не имеющей отношения к делу.

Существуют программы – «Цезарь», «Горыныч», «Диктограф» и др., – способные распознавать текст с любого аудиофайла, помещая его в «Блокнот» или MS Word. Однако они тоже платные и рассчитаны на профессиональное применение. Напрашивается мысль задействовать бесплатные онлайн-сервисы (наподобие speechpad.ru или «Войснот II»), которые позволяют надиктовывать текст непосредственно в браузере – но все они, разумеется, предполагают использование в качестве входящего сигнала аудиопоток с микрофона. Простейший способ обойти это ограничение – установка микрофона перед колонкой: включив воспроизведение и запись, вы добьетесь приемлемого результата, манипулируя лишь уровнем громкости и чувствительностью. Можно, конечно, соединить микрофонный вход с линейным выходом аудиокабелем, но этот способ не всегда приносит желаемый эффект.

Оптимальное решение – виртуальный кабель. Речь идет об утилите, которая позволяет коммутировать вход и выход программно, без изменения физических соединений. Среди подобных продуктов есть как платные (Virtual Audio Cable), так и свободно распространяемые (VB-Audio Virtual Cable). 

img

Процедура установки и настройки включает в себя инсталляцию дистрибутива и выбор виртуального кабеля в «Свойствах аудио – Звукозапись» как устройства по умолчанию. После этого можно открывать страницу с блокнотом, включать запись и начинать воспроизводить аудиофайл. Возможно, еще потребуется ограничить количество знаков (300) в поле предварительного просмотра, чтобы избежать возможных ошибок. Перед тем как запускать процесс транскрибирования, прослушайте исходную запись: возможно, ее придется предварительно очистить от шумов и нормализовать уровень громкости с помощью звукового редактора.

img

Выводы

Если вы готовы пожертвовать качеством в угоду дешевизне решения и скорости обработки, использование онлайн-сервисов в сочетании с виртуальным кабелем — лучший выбор. Нет, предоставить на выходе идеальный текст они вряд ли смогут – результат будет колебаться от вполне читаемого до похожего на машинный перевод (зависит от качества записи и сложности материала). Зато время сэкономите, да и довести все это дело до нормального уровня можно значительно быстрее — останется привести текст в читабельный вид. К слову, во многих случаях, когда особой литературности не требуется (например, для школьников, студентов и блогеров) возможностей автоматизированного транскрибирования более чем достаточно.



Журнал: Журнал IT-Expert [№ 09/2014], Подписка на журналы


Поделиться:

ВКонтакт Facebook Google Plus Одноклассники Twitter Livejournal Liveinternet Mail.Ru

Другие материалы рубрики

Мысли вслух

В статье из Harward Business Review авторы задались целью выявить поведенческие индикаторы того, что сотрудник собирается уйти.
А можно ли обойтись без этого гадания на ромашке "уйдет-не уйдет". Может, все проще?
Облачные технологии стали применять даже там, где раньше они не пользовались популярностью. Сравнительно недавними пользователями можно считать ретейлеров и сферу питания.
Даже если электронная запись не работает, всегда найдется возможность пройти вакцинацию.

Компании сообщают

Мероприятия

RuCode Festival
ОНЛАЙН
01.03.2021 — 25.04.2021
Защита от сложных и направленных угроз в высоконагруженных средах
Москва, ул. Василисы Кожиной, д.1/1, ресторан «Атмосфера»
Бесплатно
03.03.2021
9:30
Brain beering Комфортел
Санкт-Петербург
11.03.2021
19:00
Форум промышленных инноваторов «Инновации и организационная трансформация в промышленных компаниях»
Площадка санатория «Юбилейный» ПАО «Магнитогорский металлургический комбинат»
Бесплатно
11.03.2021 — 12.03.2021
Smart Business. Тренды цифрового маркетинга
ОНЛАЙН
Бесплатно
18.03.2021
11:00–12:30
Технореволюция 2.0
ОНЛАЙН
20.03.2021
10:00