Поиск

ПрактикаТесты и обзоры

ABBYY FineReader: уже пятнадцатый

Юрий Курочкин | 05.11.2019

ABBYY FineReader: уже пятнадцатый

Первая версия программы FineReader увидела свет в далеком 1993 году, и умела она только распознавать и сохранять в редактируемых форматах сканированные тексты на русском и еще нескольких языках. А пятнадцатая версия, которая вышла на рынок в конце августа нынешнего года, позиционируется уже как универсальный инструмент для работы с бумажными и PDF-документами на цифровом рабочем месте, использующий технологии оптического распознавания символов и конвертации документов, основанные на возможностях искусственного интеллекта, и позволяет распознавать тексты на 192 языках.

ABBYY предлагает три варианта программы: Standard, Business и Corporate. Первый предназначается для домашних пользователей, второй – для небольших и средних компаний, а третий, включающий полный набор функций, – для крупных и средних компаний. В состав Corporate включена программа, которая по расписанию производит автоматическое распознавание документов, помещаемых в «горячую папку» – ABBYY Hot Folder. В этой версии есть также инструмент для сравнения документов, представленных в разных форматах, с формированием перечня выявленных различий и возможностью сохранения результатов сравнения в формате Word, где все изменения уже подсвечиваются в режиме Track Changes, в PDF с комментариями в местах изменений или в виде таблицы с перечнем правок в Word. Для каждой версии можно купить либо бессрочную, либо годовую лицензию.

img

Исходная страница книги в формате PDF

ABBYY FineReader 15 позволяет открывать, просматривать и редактировать PDF-документы, добавлять к ним комментарии, графические пометки и закладки, работать с вложенными файлами, осуществлять поиск по тексту. Если исходный PDF-документ не содержит текстового слоя, программа производит фоновое распознавание текста и таким образом обеспечивает возможность поиска по ключевым словам. Отсканированный документ с помощью OCR-редактора можно проанализировать, выделить блоки изображений и текстовые блоки и сохранить в формате PDF, который с помощью имеющегося набора инструментов превращается фактически в редактируемый: можно исправлять опечатки, добавлять и удалять тексты, перемещать и переформатировать текстовые блоки, редактировать таблицы, добавлять и удалять страницы, заполнять формы, совместно работать с документами, подписывать их электронной подписью и защищать с помощью пароля, а также объединять несколько документов в один PDF-файл, преобразовывать в другие редактируемые форматы и т. д. (Полный перечень возможностей программы и подробное «Руководство пользователя» представлены на сайте производителя.)

img

Она же после автоматического преобразования в формат Word

При тестировании программы она легко справилась с такими задачами, как сканирование и распознавание бумажных документов, создание и редактирование PDF-документов и преобразование их в документы Word. Например, преобразование книги формата А5 на 488 страницах из PDF в Word заняло около пяти минут, при этом в тексте объемом без малого 890 000 знаков программа сделала всего 16 мелких ошибок (лишние пробелы, длинное тире вместо короткого, неверно распознанные буквы) – это ничтожно мало. В исходном PDF-файле не было текстового слоя, но FineReader примерно за 45-50 секунд просматривал 488 книжных страниц и находил заданные слова и словосочетания. После сохранения книги в PDF с текстовым слоем поиск занимал около 30 секунд.

img

Автоматически «исправленное» при преобразовании изображение страницы

С преобразованием страниц с иллюстрациями дело обстояло похуже: в автоматическом режиме с настройками по умолчанию искусственный интеллект допускал ошибки. При преобразовании брошюры из PDF в Word программа 10 из 14 фотографий альбомного формата (в брошюре они располагались с поворотом на 90º) разрубила пополам, поместив каждую половинку на отдельную страницу (интересно, что неразделенными остались фотографии, подписи под которыми были длинными – это подсказка разработчикам). Еще одну картинку искусственный интеллект повернул примерно на 30º вместе с подписью.

Проблемы удалось решить, сняв в настройках галочки против пунктов «Делить разворот книги» и «Исправлять ориентацию страницы». В сложных случаях полагаться на ИИ не приходится, нужно контролировать и вручную корректировать расположение текстовых полей и иллюстраций, а также обращаться к «Редактору изображений». Этот инструмент предлагает широкий спектр возможностей, в том числе весьма полезных в случае, когда в качестве исходного материала для распознавания используются фотографии документов: можно исправить трапециевидные искажения, искажения строк, изменить яркость, контрастность и т. д. Предусмотрена также возможность удалить цветные пометки с черно-белого документа. Исправления можно производить вручную либо щелкнуть по пункту «Рекомендуемая обработка» и затем по кнопке «Выполнить обработку» – программа сделает со страницей то, что ей подскажет ее искусственный интеллект, но результат надо контролировать и иногда корректировать.

img

Инструментарий «Редактора изображений»

Зарегистрированные пользователи ABBYY FineReader 15 получают в качестве бонуса ABBYY Screenshot Reader – этот инструмент заслуживает отдельного упоминания. После его запуска (автономно из меню «Пуск» или из работающей программы FineReader) на экране появляется окошко с настройками: можно выбрать – весь экран или только выделенная область будет на снимке, при необходимости указать, на каком языке представлен текст в данной области, а также указать, куда передать результат распознавания текста или изображение выделенной области. После этого с помощью мышки вы выделяете нужную часть экрана, щелкаете «Сделать снимок» – и готово: изображение сохраняется в буферной памяти, а если требовалось распознавание, то его результат в виде текста или таблицы поступает в буфер, передается в Word или Excel или сохраняется в файл.

img

Окно настроек приложения ABBYY Screenshot Reader

Часть картинок для этой статьи была сделана с помощью этого удобного инструмента. Распознавание текста в выделенной области экрана оказалось очень удобным, в частности, для копирования текстов из презентаций, в том числе и на иностранных языках. Если это приходится делать часто, значок ABBYY Screenshot Reader можно закрепить на панели задач Windows.

ABBYY Тесты и обзоры

Достоинства:
Высокое качество распознавания текстов
Широкий набор инструментов для работы с PDF

Недостатки:
Высокая цена

Ориентировочная цена: 8690 (бессрочная Standard)

Журнал: Журнал IT-Expert [№ 10/2019], Подписка на журналы


Поделиться:

ВКонтакт Facebook Google Plus Одноклассники Twitter Livejournal Liveinternet Mail.Ru

Также по теме

Другие материалы рубрики

Мысли вслух

В статье из Harward Business Review авторы задались целью выявить поведенческие индикаторы того, что сотрудник собирается уйти.
А можно ли обойтись без этого гадания на ромашке "уйдет-не уйдет". Может, все проще?
Облачные технологии стали применять даже там, где раньше они не пользовались популярностью. Сравнительно недавними пользователями можно считать ретейлеров и сферу питания.
Даже если электронная запись не работает, всегда найдется возможность пройти вакцинацию.

Компании сообщают

Мероприятия

RuCode Festival
ОНЛАЙН
01.03.2021 — 25.04.2021
Конференция ИТ-Профессионалов X-Com
Ярославль, Гастробар Dudki, ул. Собинова, 33
04.03.2021
Brain beering Комфортел
Санкт-Петербург
11.03.2021
19:00
Форум промышленных инноваторов «Инновации и организационная трансформация в промышленных компаниях»
Площадка санатория «Юбилейный» ПАО «Магнитогорский металлургический комбинат»
Бесплатно
11.03.2021 — 12.03.2021