Системы распознавания текста под Linux

OCRFeeder позволяет выбирать предпочтительную систему, управлять ею и просматривать окончательный результат, используя графический интерфейс, понятный любому пользователю.

В наше время обычному пользователю нет необходимости распознавать отсканированные тексты офлайн – все делопроизводство давным-давно ведется в цифре. Однако если такая потребность возникнет, реализовать ее нужно срочно. Желательно вчера. Что делать в таком случае юному линуксоиду?

Расскажу одну историю. Помнится, начиналось все чинно-благородно. Дед Мороз прибывший к нам на праздник прямиком с детского утренника, с выражением читал детские письма, и некоторые чувствительные дамы одобрительно кивали в знак согласия со всеми требованиями малолетних вымогателей. Тем временем Снегурочка развлекала народ конкурсами и одаривала конфетами в награду за участие в них. Ну а благодарные зрители весело уминали салатики, жевали бутерброды с «настоящей» черной икрой (по 50 рублей за 200 грамм в ближайшем магазинчике) и запивали все это клюквенным морсом. Ничто не предвещало беды.

Подозреваю, что основной причиной дальнейших событий стали те самые шоколадные конфеты, подаренные Снегурочкой, – скорее всего, они были просроченные. Впрочем, многое как в тумане. Помню только, что борода у Деда Мороза была белая и длинная, а потом стала короткая, рыжая и кудрявая и сам он стал похож на эрдельтерьера в красной шапочке. А Снегурочка, начав праздник молоденькой застенчивой блондинкой в кокошнике, ближе к финалу щеголяла с выбритым виском и фиолетовой шевелюрой. Еще они вместе орали: «Панки, хой!» и вели себя очень неприлично. Мы все решили, что эту парочку попросту подменили.

Короче, третьего января я очнулся в постели с дичайшей головной болью и твердой уверенностью, что во всем виноват вирус гриппа, который я мог подхватить от Снегурочки – она на меня дышала как-то подозрительно. И, когда ртутный градусник показал 35 С°, стало ясно: болезнь берет свое и времени осталось мало, нужно успеть уладить незаконченные дела до того момента, пока моя тушка не остыла совсем и не приняла температуру окружающей среды. Первым делом решил утрясти финансовые вопросы.

Системы распознавания текста под Linux. Рис. 1

«Главному редактору журнала “IT-Expert”. Я, Храмов Евгений, находясь в нетрезвом уме и нетвердой памяти, прошу Вас все невыплаченные мне гонорары перевести в фонд помощи престарелым LOLCODE-программерам. 30 сребреников, которые я, если верить слухам, должен был получить за обзоры отечественного ПО и ОС, прошу вложить в дальнейшую разработку российского программного обеспечения (подпись)».

После создания сего шедевра эпистолярного жанра встал вопрос: как отправить его адресату? Классический вариант с почтовым голубем был отклонен по причине банальности, а более прогрессивная пересылка Почтой России – по причине чрезмерных рисков. Усталый мозг наконец выдал единственно верный ответ: отправить e-mail, или, как выразился неведомый мне гений, электропочтой.

Конечно же, отправлять простенький скан было не совсем удобно. Во-первых, кто там будет разбираться в моих бледных каракулях? Во-вторых, всегда есть возможность описки, а это не очень хорошо – все, что было заработано честным и нечестным трудом, пойдет прахом! Про все долгосрочные инвестиции и надежды на многомиллионные доходы можно будет забыть. Следовательно, необходимо продублировать документ в более удобном для чтения формате. Распознать отсканированный текст и добавить к телу письма показалось неплохой идеей. А зря...

…Через пару-тройку часов, проведенных в проверках работоспособности и сравнения характеристик, на первый план вышли два варианта: CuneiForm и Tesseract. Обе разработки предназначены для оптического распознавания текста.

История Tesseract началась еще в восьмидесятых годах прошлого столетия. Разработчики из Hewlett-Packard, наверное, и не ожидали столь долгого жизненного пути своего детища – спустя 40 лет система Tesseract вполне способна распознавать тексты, написанные более чем на сотне языков мира. Благодарить за это нужно руководство компании, которое сделало общедоступными исходники программы в 2005 году, и корпорацию Google, которая с 2006 года поддерживает дальнейшую работу над OCR Tesseract.

В свою очередь OCR CuneiForm не так монументальна – ей «всего-то» около 30 лет. Однако, говоря о OCR-системах, не упомянуть ее невозможно, – это один из первых успешных проектов в постсоветской России. Разработанная маленькой скромной Cognitive Technologies, OCR CuneiForm уже в 1994-м использовалась в сканерах Hewlet-Packard. А в 1995-м Epson заключила контракт о комплектации своих сканеров этой системой. Да что там говорить, культовый CorelDraw еще в 1993 году включал в себя библиотеку распознавания текста Cognitive. С той поры прошло достаточно времени и уже вряд ли у кого повернется язык назвать создателей CuneiForm «маленькой компанией» – сегодня это лидер в разработке решений для беспилотного управления транспортом и техникой.

В 2008 году исходные тексты CuneiForm были опубликованы под лицензией BSD, что позволяло независимым программистам улучшать и поддерживать ПО в рабочем состоянии. Судя по всему, через несколько лет интересы сообщества изменились, и на сегодняшний день последней датой обновления CuneiForm for Linux указан апрель 2011-го.

Для того чтобы оценить возможности распознавания текста в Tesserasct и CuneiForm, решено было воспользоваться GUI-приложением OCRFeeder. Оно позволяет выбирать предпочтительную систему, управлять ею и просматривать окончательный результат, используя графический интерфейс, понятный любому пользователю.

Для установки в Ubuntu и производных от нее достаточно ввести в терминале несколько команд:

sudo apt update,

вводим пароль sudo,

sudo apt install ocrfeeder.

Для тех, у кого темный экран терминала вызывает жгучее неприятие, есть еще более простое решение: запускаем менеджер приложений и в поисковой строке вводим аббревиатуру OCR. Обычно приложение появляется в списке и предлагается к установке.

Системы распознавания текста под Linux. Рис. 2

Оказалось, что вместе с приложением устанавливается только движок Tesseract, и, как выяснилось далее, для этого есть веские причины. Пока же добавим к нему CuneiForm:

Sudo apt install cuneiform

Системы распознавания текста под Linux. Рис. 3

Интерфейс приложения прост до примитивности. В меню «Файл» выбирается необходимая опция и загружается изображение. Мышкой можно выделить область, которую необходимо распознать. Справа от текста находятся меню выбора системы OCR и клавиша «Распознать», запускающая процесс.

Идеальное изображение

На следующих фото можно сравнить результаты работы с качественным изображением. Образец для теста, напечатанный кириллицей, выбран с определенной целью. Прежде всего кириллический алфавит наиболее часто использовался и используется в любых документах на территории нашего государства и велика вероятность, что именно его придется распознавать. Вторая немаловажная причина – локализация. У англоязычных пользователей все может быть замечательно, но это не означает отсутствия проблем у других.

Системы распознавания текста под Linux. Рис. 4

Системы распознавания текста под Linux. Рис. 5

Как видим, при идеальном изображении (без каких-либо артефактов, пыли, грязи и оптических искажений) Tesseract верно распознал 100% текста. С CuneiForm ситуация иная – есть ошибочные символы и неточности, все-таки десять лет без поддержки дают о себе знать. Вполне возможно, за столь долгий срок сменились и сами алгоритмы распознавания текста. В любом случае при использовании качественного изображения у нас получилось распознать весь текст вместе со знаками препинания без каких-либо ошибок.

Сканы низкого качества

Какой результат мы получим, если исходное изображение будет с низким разрешением, мусором и оптическими искажениями? В качестве примера можно использовать лист из отсканированных вручную СНиПов (строительных норм и правил).

Системы распознавания текста под Linux. Рис. 6

Системы распознавания текста под Linux. Рис. 7

Как видим, Tesseract сработал без ошибок, текст отформатирован, знаки препинания и спецсимволы распознаны верно. CuneiForm же в распознанном тексте не оставил форматирования – весь текст слипся в один кусок, многие символы подменены другими, а дефис и вовсе заменен на неизвестные кракозябры.

Видимо, это и есть основная причина, по которой OCRFeeder по умолчанию устанавливается только с движком Tesseract. Для чего искать что-то еще, если имеется отличный и полностью рабочий вариант? С такими мыслями я и приступил к распознаванию документа, написанного от руки.

Распознавание рукописного текста

Как ни печально сознавать, но завышенные ожидания наивного юноши не оправдались. Совсем. То, что появилось на мониторе, я и сам-то прочитал с большим трудом.

Системы распознавания текста под Linux. Рис. 8

CuneiForm после долгих размышлений вынес лаконичный вердикт всей смысловой нагрузке документа – «ОЮ». Tesseract добавил к этому, видимо, что-то о моей скромной персоне: «ГлАвно.ла редее 9 И меррноа. ГОТ».

Ну что же, гот так гот. Спорить с искусственным интеллектом себе дороже. Поэтому замечательную идею распознавать рукописные тексты в Linux пришлось отложить на неопределенный срок.

Выводы

Итак, на что можно рассчитывать, устанавливая OCRFeeder в Linux? В конечном итоге мы имеем вполне комфортный графический интерфейс, позволяющий любому пользователю загружать, распознавать и импортировать печатные тексты. Свободная лицензия приложения допускает использование его в коммерческих целях без требования каких-либо выплат, подписок и ограничений. Кроме того, оно позволяет работать офлайн, не требуя выгрузки конфиденциальных данных в Сеть. Такой вариант ПО подойдет как для личного необременительного использования, так и для больших тяжеловесных проектов в офисе.

P. S. Процесс установки OCRFeeder можно использовать как средство для нормализации температуры и отвлечения внимания больных простудой и ОРЗ. В моем случае это сработало.

Смотреть все статьи по теме "OS Linux (ОС Линукс)"

Журнал IT Expert

Опубликовано 01.03.2021

Распознавание Linux

Предыдущая
Семь причин, почему следует обновить helpdesk-систему

Следующая
Как прокачать виртуальную среду для быстрой работы «1С»

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30