IT ExpertКак это сделатьСам себе админ

Программы распознавания текста

Дмитрий Разумовский | 25.05.2018

ВКонтакт Facebook Google Plus Одноклассники Twitter Livejournal Liveinternet Mail.Ru

Программы распознавания текста

Распознавание текста на отсканированных или сфотографированных документах довольно актуальная задача: в офисах нередко требуется оцифровать входящую корреспонденцию, то или иное постановление и т. д., а студентам при подготовке рефератов и курсовых работ приходится вставлять выдержки из бумажных либо электронных книг в формате DJVU. Да и просто взять текст с сайта, на котором копирование не работает, тоже проще всего через распознавание текста на скриншоте.

Тем, у кого потребность в распознавании текста возникает не чаще раза в месяц, можно посоветовать любой профильный онлайн-сервис или же всем известные бесплатные OneNote и «Google Документы». Можно воспользоваться и пакетом Adobe Acrobat. Однако для работы с большим количеством документов все перечисленные программы неудобны. В связи с этим рассмотрим несколько специализированных решений, созданных для распознавания текста и подходящих для постоянной работы с отсканированными документами.

 img

ABBYY Finereader

Эта программа, пожалуй, не менее популярна в своем сегменте, чем Adobe Photoshop среди графических редакторов. И причина, конечно же, не только в продуманной маркетинговой политике, но прежде всего в высокой точности распознавания текста на многих языках и множестве дополнительных возможностей. Последняя версия продукта – 14-я.

Основные преимущества ABBYY Finereader:

  1. Распознает 192 языка на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также иероглифического письма. Столь широкий охват связан с тем, что компания ABBYY разрабатывает также программы автоматического перевода текста.
  2. Множество поддерживаемых форматов входящих файлов с текстом: PDF, PDF/А, TIFF, JPEG, JBIG2, PNG, BMP, GIF, DjVu, DOC(X), XLS(X), PPT(X), VSD(X), HTML, RTF, TXT и др.
  3. Встроенный инструмент сканирования: программа сама подключается к системному сканеру.
  4. Сохранение обработанного текста во множество форматов файлов: DOC(X), XLS(X), PDF, PDF/А, RTF, TXT, CSV, ODT, EPUB, FB2, DjVu, PPTX, HTML, TIFF, JPEG, PNG.
  5. Программа позволяет работать с PDF как с простыми файлами: редактировать текст, комментировать, защищать документы и т. д. При наличии FineReader программа Adobe Acrobat, по сути, не нужна.
  6. Конвертирование файлов из одного формата в другой.
  7. Сохранение исходного форматирования отсканированного документа: программа воспроизводит расположение текста, таблиц, колонтитулов, примечаний, нумерацию страниц, содержание, оглавление и т. д.
  8. Автоматическая обработка страниц: пользователь может помещать файлы, в которых надо распознать текст, в специальную папку, и программа будет автоматически сохранять обработанные документы. Данная функция доступна только в версиях Business и Enterprise.
  9. Поддержка сравнения документов различных форматов (например, DOCX и PDF). Доступна только в версии Enterprise.

Из недостатков можно назвать один, но довольно существенный: бессрочная лицензия самой дешевой версии FineReader стоит 6990 рублей, а подписка на год – 3190 рублей. Но для тех, кто постоянно работает с документами, причем это является частью их бизнеса, данный недостаток вряд ли станет препятствием для приобретения продукта.

 img

Readiris Pro

Довольно мощное решение для распознавания текста в отсканированных документах. Программа совсем немного уступает FineReader в основном назначении и даже имеет дополнительные инструменты, которые отсутствуют у лидера. В настоящий момент актуальна 17-я версия.

Достоинства:

  1. 138 распознаваемых языков – ниже, чем у FineReader, но тоже впечатляет. К тому же далеко не каждому отечественному пользователю требуется распознавать документы на иностранных языках.
  2. Встроенный инструмент сканирования документов: программа может сама подключаться к сканеру и получать с него изображение для дальнейшей обработки.
  3. Распознавание текста с файлов изображений форматов PDF, JPEG, DOC, RTF, JPEG, PNG, PPT и т. д. – поменьше числом, чем у FineReader, но основные форматы в наборе есть.
  4. Инструменты для работы с PDF-файлами те же, что в FineReader: редактирование, комментирование, защита документов и т. д.
  5. Чтение вслух PDF-файлов. А вот этого инструмента в FineReader нет. Можно сказать, эксклюзив Readiris Pro.
  1. Распознавание таблиц.
  2. Импорт обработанного текста в программы Microsoft Office.

Пакет предлагается в двух версиях – Readiris Pro и Readiris Corporate (поддерживает еще пакетную обработку документов и создание PDF/A). Обе распространяются с постоянными лицензиями: первая стоит €99, вторая – €199. Как видим, самая дешевая сопоставима по цене с младшей версией FineReader. Так как различия по функциональности непринципиальны, то при выборе стоит ориентироваться на удобство для конкретного пользователя.

 img

Freemore OCR

Абсолютно бесплатная программа, однако и по функциональности, и по удобству она уступает двум предыдущим. К тому же вместе с Freemore OCR пытается установиться различный рекламный мусор, чему активно сопротивляется антивирус.

Особенности Freemore OSR:

1.      По умолчанию поддерживается распознавание только английского текста. Пакеты других языков нужно загружать дополнительно.

2.      Наличие встроенного инструмента сканирования документов.

3.      Поддержка распознавания текста с графических файлов JPG/JPEG, TIF, TIFF, BMP, GIF, PNG, EMF, WMF, JPE, ICO, JFIF, PCX, PSD, PCD, TGA и т. д.

  1. Несколько инструментов для работы с PDF-файлами. Например, поддерживается шифрование файлов, цифровая подпись.

5.      Экспорт обработанного текста в Microsoft Office.

6.      Форматирование исходного документа программа, к сожалению, не сохраняет.

Как видим, бесплатное решение явно на уровень ниже развитых платных аналогов. Но все же Freemore OCR распознает текст лучше, чем онлайн-сервисы или программы, в которых эта функция встроена в качестве дополнительной (например, тот же OneNote с ошибками распознает скриншот с самого себя). Да и удобнее при работе с большим количеством документов использовать именно специализированную программу. В общем, если финансовая ситуация сложная, Freemore OCR может стать выходом. Только стоить учесть, что и с установкой этого продукта придется помучиться.

 

Выводы

Каких-то пять-десять лет назад конкуренция в сегменте программ распознавания текста была выше и количество таких продуктов было больше. Но теперь в явные лидеры выбились FineReader и Readiris Pro, оставив соперников далеко позади.

Что же касается бесплатных решений, то их предложение заметно сузилось. Помнится, CuneiForm распознавала текст почти как FineReader, да и по функциональности не слишком уступала, однако ее поддержка прекращена, как и ряда других аналогов. Похоже, эту нишу прочно заняли онлайн-сервисы и продолжать поддержку программ не имеет смысла.

Журнал IT-Expert № 05/2018    [ PDF ]    [ Подписка на журнал ]

Мероприятия

17.12.2018
QIWI Techday make it real

Москва, Loft #2 ул. Ленинская Слобода, д. 26с11

25.02.2019 — 26.02.2019
Teamlead Conf

Москва, Инфопространство