IT ExpertКак это сделатьСам себе админ

Программы распознавания текста

Дмитрий Разумовский | 25.05.2018

ВКонтакт Facebook Google Plus Одноклассники Twitter Livejournal Liveinternet Mail.Ru

Программы распознавания текста

Распознавание текста на отсканированных или сфотографированных документах довольно актуальная задача: в офисах нередко требуется оцифровать входящую корреспонденцию, то или иное постановление и т. д., а студентам при подготовке рефератов и курсовых работ приходится вставлять выдержки из бумажных либо электронных книг в формате DJVU. Да и просто взять текст с сайта, на котором копирование не работает, тоже проще всего через распознавание текста на скриншоте.

Тем, у кого потребность в распознавании текста возникает не чаще раза в месяц, можно посоветовать любой профильный онлайн-сервис или же всем известные бесплатные OneNote и «Google Документы». Можно воспользоваться и пакетом Adobe Acrobat. Однако для работы с большим количеством документов все перечисленные программы неудобны. В связи с этим рассмотрим несколько специализированных решений, созданных для распознавания текста и подходящих для постоянной работы с отсканированными документами.

 img

ABBYY Finereader

Эта программа, пожалуй, не менее популярна в своем сегменте, чем Adobe Photoshop среди графических редакторов. И причина, конечно же, не только в продуманной маркетинговой политике, но прежде всего в высокой точности распознавания текста на многих языках и множестве дополнительных возможностей. Последняя версия продукта – 14-я.

Основные преимущества ABBYY Finereader:

  1. Распознает 192 языка на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также иероглифического письма. Столь широкий охват связан с тем, что компания ABBYY разрабатывает также программы автоматического перевода текста.
  2. Множество поддерживаемых форматов входящих файлов с текстом: PDF, PDF/А, TIFF, JPEG, JBIG2, PNG, BMP, GIF, DjVu, DOC(X), XLS(X), PPT(X), VSD(X), HTML, RTF, TXT и др.
  3. Встроенный инструмент сканирования: программа сама подключается к системному сканеру.
  4. Сохранение обработанного текста во множество форматов файлов: DOC(X), XLS(X), PDF, PDF/А, RTF, TXT, CSV, ODT, EPUB, FB2, DjVu, PPTX, HTML, TIFF, JPEG, PNG.
  5. Программа позволяет работать с PDF как с простыми файлами: редактировать текст, комментировать, защищать документы и т. д. При наличии FineReader программа Adobe Acrobat, по сути, не нужна.
  6. Конвертирование файлов из одного формата в другой.
  7. Сохранение исходного форматирования отсканированного документа: программа воспроизводит расположение текста, таблиц, колонтитулов, примечаний, нумерацию страниц, содержание, оглавление и т. д.
  8. Автоматическая обработка страниц: пользователь может помещать файлы, в которых надо распознать текст, в специальную папку, и программа будет автоматически сохранять обработанные документы. Данная функция доступна только в версиях Business и Enterprise.
  9. Поддержка сравнения документов различных форматов (например, DOCX и PDF). Доступна только в версии Enterprise.

Из недостатков можно назвать один, но довольно существенный: бессрочная лицензия самой дешевой версии FineReader стоит 6990 рублей, а подписка на год – 3190 рублей. Но для тех, кто постоянно работает с документами, причем это является частью их бизнеса, данный недостаток вряд ли станет препятствием для приобретения продукта.

 img

Readiris Pro

Довольно мощное решение для распознавания текста в отсканированных документах. Программа совсем немного уступает FineReader в основном назначении и даже имеет дополнительные инструменты, которые отсутствуют у лидера. В настоящий момент актуальна 17-я версия.

Достоинства:

  1. 138 распознаваемых языков – ниже, чем у FineReader, но тоже впечатляет. К тому же далеко не каждому отечественному пользователю требуется распознавать документы на иностранных языках.
  2. Встроенный инструмент сканирования документов: программа может сама подключаться к сканеру и получать с него изображение для дальнейшей обработки.
  3. Распознавание текста с файлов изображений форматов PDF, JPEG, DOC, RTF, JPEG, PNG, PPT и т. д. – поменьше числом, чем у FineReader, но основные форматы в наборе есть.
  4. Инструменты для работы с PDF-файлами те же, что в FineReader: редактирование, комментирование, защита документов и т. д.
  5. Чтение вслух PDF-файлов. А вот этого инструмента в FineReader нет. Можно сказать, эксклюзив Readiris Pro.
  1. Распознавание таблиц.
  2. Импорт обработанного текста в программы Microsoft Office.

Пакет предлагается в двух версиях – Readiris Pro и Readiris Corporate (поддерживает еще пакетную обработку документов и создание PDF/A). Обе распространяются с постоянными лицензиями: первая стоит €99, вторая – €199. Как видим, самая дешевая сопоставима по цене с младшей версией FineReader. Так как различия по функциональности непринципиальны, то при выборе стоит ориентироваться на удобство для конкретного пользователя.

 img

Freemore OCR

Абсолютно бесплатная программа, однако и по функциональности, и по удобству она уступает двум предыдущим. К тому же вместе с Freemore OCR пытается установиться различный рекламный мусор, чему активно сопротивляется антивирус.

Особенности Freemore OSR:

1.      По умолчанию поддерживается распознавание только английского текста. Пакеты других языков нужно загружать дополнительно.

2.      Наличие встроенного инструмента сканирования документов.

3.      Поддержка распознавания текста с графических файлов JPG/JPEG, TIF, TIFF, BMP, GIF, PNG, EMF, WMF, JPE, ICO, JFIF, PCX, PSD, PCD, TGA и т. д.

  1. Несколько инструментов для работы с PDF-файлами. Например, поддерживается шифрование файлов, цифровая подпись.

5.      Экспорт обработанного текста в Microsoft Office.

6.      Форматирование исходного документа программа, к сожалению, не сохраняет.

Как видим, бесплатное решение явно на уровень ниже развитых платных аналогов. Но все же Freemore OCR распознает текст лучше, чем онлайн-сервисы или программы, в которых эта функция встроена в качестве дополнительной (например, тот же OneNote с ошибками распознает скриншот с самого себя). Да и удобнее при работе с большим количеством документов использовать именно специализированную программу. В общем, если финансовая ситуация сложная, Freemore OCR может стать выходом. Только стоить учесть, что и с установкой этого продукта придется помучиться.

 

Выводы

Каких-то пять-десять лет назад конкуренция в сегменте программ распознавания текста была выше и количество таких продуктов было больше. Но теперь в явные лидеры выбились FineReader и Readiris Pro, оставив соперников далеко позади.

Что же касается бесплатных решений, то их предложение заметно сузилось. Помнится, CuneiForm распознавала текст почти как FineReader, да и по функциональности не слишком уступала, однако ее поддержка прекращена, как и ряда других аналогов. Похоже, эту нишу прочно заняли онлайн-сервисы и продолжать поддержку программ не имеет смысла.

Журнал IT-Expert № 05/2018    [ PDF ]    [ Подписка на журнал ]

Мероприятия

16.05.2019 — 25.06.2019
Growth Marketing Summit

онлайн

21.05.2019
Digital Construction Forum 2019

Центр цифрового лидерства SAP Космодамианская наб., 52к7,

24.05.2019
Google Cloud Day

Москва, ул.Балчуг. д. 7, БЦ Балчуг Плаза

27.05.2019
Conference for best brands

Москва, Центр "Открытый мир"

28.05.2019
Smart City 2019: госпроекты и их реализация

Москва, Веранда ЦМТ, Краснопресненская наб., 12