Compressimo: эффективное сжатие документов

Логотип компании
07.09.2012Автор
Compressimo: эффективное сжатие документов
Российская компания Cognitive Technologies вывела на российский и зарубежные рынки программу Compressimo, предназначенную для сканирования и сжатия документов и пересылки их по почте.

Российская компания Cognitive Technologies вывела на российский и зарубежные рынки программу Compressimo, предназначенную для сканирования и сжатия документов и пересылки их по почте.

Разработчикам продукта удалось решить важнейшую для электронного документооборота задачу – обеспечить высокую степень сжатия оцифрованных документов при сохранении высокого качества архивной копии. По словам руководителя департамента массового ввода документов Владимира Арлазарова, стандартные алгоритмы сжатия

Владимир Арлазаров
оцифрованных изображений мало применимы для этой цели – они могут обеспечить высокое качество документа только при его сохранении в виде довольно объемного файла.

Компания Cognitive Technologies разработала собственные алгоритмы обработки сканированных документов. В прошлом году была представлена технология компрессии Cognitive PDF/A, которая решает задачу компактного сохранения изображений за счет структурного анализа как в пространстве объектов документа (текст, картинки, подписи), так и в цветовом пространстве (цветные, битональные тексты). На основе гистограмм цветовой насыщенности изображения разделяются на зоны, содержащие текст, и зоны с нетекстовыми объектами. Кроме того, принимается в расчет, что в цветовом пространстве черно-белый текст находится в определенной зоне, а все цветные объекты – в других зонах. Благодаря этому в документе выделяются текстовый слой и слой с печатями, подписями и т. п., в каждом из них могут быть установлены свои показатели контрастности и насыщенности, при этом битональный текст можно подвергнуть значительному сжатию, обеспечивая в то же время его хорошую читаемость, а слой с печатями и подписями сжать в меньшей степени.

После сборки всех слоев удается значительно уменьшить объемы итоговых файлов по сравнению с тем, что дают традиционные методы. Например, обычная товарная накладная формата А4 с печатями и подписями после сканирования с разрешением 300 точек на дюйм и сохранения в формате JPG со сжатием 90% занимает около 1 Мбайт, тогда как Compressimo упаковывает ее в файл формата PDF/A объемом 90–100 Кбайт, а иногда и того меньше. На долю такого рода документов (накладные, деловые письма, счета, договоры, расписки, таблицы) приходится обычно 90% документооборота российских компаний.

При обработке документов программой Compressimo нередко удается получить текстовый слой лучшего качества, чем в исходном документе. Программа обеспечивает распознавание текста на 23 языках с помощью встроенного в нее и доработанного ядра OCR-системы CuneiForm (Cognitive OpenOCR). Исходные коды последней компания открыла еще в 2008 году, и с тех пор с помощью присоединившихся к проекту новых участников она была значительно усовершенствована. Распознанный текст сохраняется вместе с изображением документа, что обеспечивает возможность полнотекстового поиска и копирования текста. Стоит отметить, что другие методы сжатия изображений не обеспечивают такой возможности. Кроме того, результирующие документы, создаваемые программой Compressimo в формате PDF/A, полностью соответствуют требованиям стандарта ISO 19005-1:2005.

По словам директора по международным продажам Антона Назаркина, с момента вывода Compressimo на

Антон Назаркин
российский рынок в июне 2012 года продано уже более 3500 лицензий. При этом программа рассчитана на широкий круг пользователей, не требует предварительных настроек и настолько проста, что любой клерк может освоить ее за несколько минут. Малый размер обработанных файлов позволяет иметь большой архив электронных документов в оперативном доступе, и предприятия с удовольствием отказываются от бумажных документов: сразу сканируют их и сдают в архив, откуда извлекают только в особых случаях, например по требованию суда и т. п. Cognitive Technologies рассчитывает через три года завоевать 7–10% мирового рынка систем сканирования и сжатия документов, объем которого эксперты прогнозируют на уровне $20 млрд.

30-дневную полнофункциональную демоверсию программы можно скачать с сайта www.compressimo.ru. Мы воспользовались этой возможностью и проверили: файл товарной накладной с печатями и подписями, сохраненный после сканирования с разрешением 300 точек на дюйм в формате JPG со сжатием 90%, занял 1,24 Мбайт; тот же документ, сохраненный программой Compressimo в формате PDF/A, – 93 Кбайт.

Стоимость лицензии Compressimo на одно рабочее место составляет в России 799 рублей, на зарубежном рынке – 20 евро.