Cognitive Technologies создала систему распознавания сложных документов

Логотип компании
Cognitive Technologies создала систему распознавания сложных документов
Система распознавания сложных документов фактически должна как человек понимать, к какому из признаков относится напечатанная в разных частях документа информация. Например, является ли напечатанное число одним из реквизитов платежного документа, или номером отгрузки, или суммой оплаты или какой-либо другой характеристикой.

Компания Cognitive Technologies вложила в разработку технологии понимания сложных типов документов за последние 5 лет более 70 млн. рублей. Это позволило создать первую в России систему, обеспечивающую промышленное качество ввода сложных типов документов, к которым главным образом относится первичная бухгалтерская документация (счета фактуры, товарно - транспортные накладные и т.д.). Основными потребителями такого решения являются в первую очередь крупные ритейлеры.

Следует отметить, что это кардинально иные технологии, нежели системы распознавания символов, в их традиционном понимании. «Обычные OCR-системы на реальных документах могут дать точность распознавания не более 50% полностью правильных строк таблицы, что говорит об их низкой пригодности для промышленного применения», - рассказывает руководитель лаборатории систем массового ввода документов, к.т.н. Владимир Арлазаров. Качество ввода документов такого класса характеризуется двумя параметрами: процентом распознавания табличных строк, а не отдельных символов и точности классификации товарных наименований. «Порогом для промышленного применения распознавания, в среднем, считается правильный автоматический ввод 75% позиций, и мы в своем решении превзошли ее на несколько процентов. Итоговым результатом ввода таких документов является информация, разложенная с высокой точностью по ячейкам внутренней базы данных заказчика, о наименовании товаров, их стоимости, поставщике, плательщике и т.д., десятки и сотни позиций. Понятно, что одна единственная ошибка сразу сводит весь результат на нет», комментирует Арлазаров.

Автоматическая обработка сложных типов документов, доля которых в общем объеме бухгалтерского документооборота по разным оценкам, составляет порядка 50%-60%, является одной из сложных задач искусственного интеллекта. Причина состоит в том, что в отличие от многих других типов бизнес - документов, например, платежных поручений, страховых анкет, налоговых деклараций и т.п., до настоящего времени не существует единых правил, регламентирующих эти документы и определяющих расположение их элементов. 

Иными словами, однотипная информация (данные о получателе, банковские реквизиты и т.д.) может в разных документах может произвольно «плавать» по странице и даже размещаться на разных листах, в случае многостраничных документов. Кроме того, сама форма документов этого класса также является, во многом, произвольной и может варьироваться от формата А5 до А4, допуская при этом еще и различные варианты ориентации (альбомная, портретная). Качество печати документов во многих случаях также оставляет желать лучшего.

Таким образом, система распознавания сложных документов фактически должна как человек понимать, к какому из признаков относится напечатанная в разных частях документа информация. Например, является ли напечатанное число одним из реквизитов платежного документа, или номером отгрузки, или суммой оплаты или какой-либо другой характеристикой. В итоге задача понимания сводится к определению соответствия каждого из элементов документа (например, адреса грузополучателя) - определенной ячейке в базе данных, куда эта информация (адрес грузополучателя) должна быть помещена. В этом смысле наиболее сложными для обработки являются разделы документа, представляющие сплошной текст в котором «интеллект» системы должен вычленить элементы, относящиеся к различным признакам. Выделить в тексте к чему какая информация (адрес покупателя, поставщика, реквизиты плательщика и т.д.) относится, сложно даже человеку.

Другой проблемой, с которой столкнулись разработчики, стало определение наименований товаров в тексте документа. Сложность состоит в том, что каждый из поставщиков использует, как правило, свой вариант написания каждого из наименований. Например, «Батон нарез. упак.» может быть «Н. у. батон завод №2» или «Хлеб нар. уп. » и т.д. Таким образом, у одной и той же товарной позиции может быть такое количество вариантов написания, которое способен выдумать человек.

С математической точки зрения идентификация или классификация товарной позиции представляет собой определение соответствия между товарной позицией и номером ее кода в базе данных заказчика, который, при этом, на документах не печатается. Поэтому, для определения такого соответствия используется смысловой анализ текста. Человек в таких случаях проводит идентификацию на основе просмотра всего документа и сравнения каждой из товарных позиций друг с другом. При этом он определяет в одну и ту же группу позиции, относящиеся к одному товару. По схожему принципу работает и интеллектуальная программа. При этом она научилась разбираться с однозначностями типа: 0,5 кг, полкило,500 грамм, пятьсот грамм и полбуханки.

Наконец, еще одним препятствием на пути промышленной обработки сложных документов было распознавание в документе печатей, подписей и отделениях их от служебных пометок. Дело в том, что подписи и пометки во многих случаях отличить практически не возможно. Решается задача только с использованием дополнительных данных, имеющихся в документе. Например, подпись сравнивается с ее аналогом в других позициях или «читаются» близлежащие данные (Ф.И.О., наличие печати и т. д.), по которым графический элемент может быть идентифицирован как подпись.

Опубликовано 30.10.2013

Похожие статьи