ABBYY FineReader: уже пятнадцатый

Логотип компании
ABBYY FineReader: уже пятнадцатый
Программа позиционируется как универсальный инструмент для работы с бумажными и PDF-документами на цифровом рабочем месте, использующий технологии оптического распознавания символов и конвертации документов.

Первая версия программы FineReader увидела свет в далеком 1993 году, и умела она только распознавать и сохранять в редактируемых форматах сканированные тексты на русском и еще нескольких языках. А пятнадцатая версия, которая вышла на рынок в конце августа нынешнего года, позиционируется уже как универсальный инструмент для работы с бумажными и PDF-документами на цифровом рабочем месте, использующий технологии оптического распознавания символов и конвертации документов, основанные на возможностях искусственного интеллекта, и позволяет распознавать тексты на 192 языках.

ABBYY предлагает три варианта программы: Standard, Business и Corporate. Первый предназначается для домашних пользователей, второй – для небольших и средних компаний, а третий, включающий полный набор функций, – для крупных и средних компаний. В состав Corporate включена программа, которая по расписанию производит автоматическое распознавание документов, помещаемых в «горячую папку» – ABBYY Hot Folder. В этой версии есть также инструмент для сравнения документов, представленных в разных форматах, с формированием перечня выявленных различий и возможностью сохранения результатов сравнения в формате Word, где все изменения уже подсвечиваются в режиме Track Changes, в PDF с комментариями в местах изменений или в виде таблицы с перечнем правок в Word. Для каждой версии можно купить либо бессрочную, либо годовую лицензию.


Исходная страница книги в формате PDF

ABBYY FineReader 15 позволяет открывать, просматривать и редактировать PDF-документы, добавлять к ним комментарии, графические пометки и закладки, работать с вложенными файлами, осуществлять поиск по тексту. Если исходный PDF-документ не содержит текстового слоя, программа производит фоновое распознавание текста и таким образом обеспечивает возможность поиска по ключевым словам. Отсканированный документ с помощью OCR-редактора можно проанализировать, выделить блоки изображений и текстовые блоки и сохранить в формате PDF, который с помощью имеющегося набора инструментов превращается фактически в редактируемый: можно исправлять опечатки, добавлять и удалять тексты, перемещать и переформатировать текстовые блоки, редактировать таблицы, добавлять и удалять страницы, заполнять формы, совместно работать с документами, подписывать их электронной подписью и защищать с помощью пароля, а также объединять несколько документов в один PDF-файл, преобразовывать в другие редактируемые форматы и т. д. (Полный перечень возможностей программы и подробное «Руководство пользователя» представлены на сайте производителя.)


Она же после автоматического преобразования в формат Word

При тестировании программы она легко справилась с такими задачами, как сканирование и распознавание бумажных документов, создание и редактирование PDF-документов и преобразование их в документы Word. Например, преобразование книги формата А5 на 488 страницах из PDF в Word заняло около пяти минут, при этом в тексте объемом без малого 890 000 знаков программа сделала всего 16 мелких ошибок (лишние пробелы, длинное тире вместо короткого, неверно распознанные буквы) – это ничтожно мало. В исходном PDF-файле не было текстового слоя, но FineReader примерно за 45-50 секунд просматривал 488 книжных страниц и находил заданные слова и словосочетания. После сохранения книги в PDF с текстовым слоем поиск занимал около 30 секунд.


Автоматически «исправленное» при преобразовании изображение страницы

С преобразованием страниц с иллюстрациями дело обстояло похуже: в автоматическом режиме с настройками по умолчанию искусственный интеллект допускал ошибки. При преобразовании брошюры из PDF в Word программа 10 из 14 фотографий альбомного формата (в брошюре они располагались с поворотом на 90º) разрубила пополам, поместив каждую половинку на отдельную страницу (интересно, что неразделенными остались фотографии, подписи под которыми были длинными – это подсказка разработчикам). Еще одну картинку искусственный интеллект повернул примерно на 30º вместе с подписью.

Проблемы удалось решить, сняв в настройках галочки против пунктов «Делить разворот книги» и «Исправлять ориентацию страницы». В сложных случаях полагаться на ИИ не приходится, нужно контролировать и вручную корректировать расположение текстовых полей и иллюстраций, а также обращаться к «Редактору изображений». Этот инструмент предлагает широкий спектр возможностей, в том числе весьма полезных в случае, когда в качестве исходного материала для распознавания используются фотографии документов: можно исправить трапециевидные искажения, искажения строк, изменить яркость, контрастность и т. д. Предусмотрена также возможность удалить цветные пометки с черно-белого документа. Исправления можно производить вручную либо щелкнуть по пункту «Рекомендуемая обработка» и затем по кнопке «Выполнить обработку» – программа сделает со страницей то, что ей подскажет ее искусственный интеллект, но результат надо контролировать и иногда корректировать.


Инструментарий «Редактора изображений»

Зарегистрированные пользователи ABBYY FineReader 15 получают в качестве бонуса ABBYY Screenshot Reader – этот инструмент заслуживает отдельного упоминания. После его запуска (автономно из меню «Пуск» или из работающей программы FineReader) на экране появляется окошко с настройками: можно выбрать – весь экран или только выделенная область будет на снимке, при необходимости указать, на каком языке представлен текст в данной области, а также указать, куда передать результат распознавания текста или изображение выделенной области. После этого с помощью мышки вы выделяете нужную часть экрана, щелкаете «Сделать снимок» – и готово: изображение сохраняется в буферной памяти, а если требовалось распознавание, то его результат в виде текста или таблицы поступает в буфер, передается в Word или Excel или сохраняется в файл.


Окно настроек приложения ABBYY Screenshot Reader

Часть картинок для этой статьи была сделана с помощью этого удобного инструмента. Распознавание текста в выделенной области экрана оказалось очень удобным, в частности, для копирования текстов из презентаций, в том числе и на иностранных языках. Если это приходится делать часто, значок ABBYY Screenshot Reader можно закрепить на панели задач Windows.

Читайте также
Как построить систему информационной безопасности, чтобы она обеспечивала защиту на уровне, превосходящем тех, кто наименее подготовлен к угрозам.

Журнал IT Expert [№ 10/2019] Подписка на журналы

Достоинства:
Высокое качество распознавания текстов Широкий набор инструментов для работы с PDF

Недостатки:
Высокая цена

Ориентировочная цена: 8 690 (бессрочная Standard)

Опубликовано 05.11.2019

Похожие статьи