Научные разработки для эффективного бизнеса

31.05.2010

Cognitive – в переводе с английского означает «интеллектуальный», «познавательный». Следовательно, Cognitive Technologies (когнитивные технологии) – это технологии, основанные на знаниях – на их извлечении из внешней среды (распознавании в широком смысле слова), на накоплении извлеченной информации, на анализе данных.

Технологии, которые, в конечном счете, осмысленно и эффективно применяются на практике в виде интеллектуальных прикладных систем. Данная формулировка достаточно точно отражает основное направление деятельности нашей компании. Cognitive Technologies - умная компания. Передовая наука, реализуемая в программных решениях, является надежным средством повышения эффективности бизнеса наших заказчиков. Стоит сказать, что список технологий, запатентованных Cognitive Technologies, составляет более 70 (!) позиций. Число кандидатских диссертаций, защищенных сотрудниками компании только за последние 5 лет, составляет более 10 (!!). А число научных статей, опубликованных в российских и зарубежных изданиях за последние 5 лет, превысило 100 (!!!). Именно использование научного подхода в разработках, в сочетании с накопленным за десятилетия опытом, является основным конкурентным преимуществом наших интеллектуальных программ. 
 Наши технологии сегодня используются практически во всех отраслях. От систем документооборота для малых компаний до аналитических систем в крупнейших банках и решений по обработке миллионов документов в госструктурах. 
 Научный коллектив, коллектив под руководством член-корр. РАН В.Л.Арлазарова, составляющий и сегодня основу группы разработчиков Cognitive, был создан еще в конце 60-х годов. За более чем 35-летнюю историю на его счету немало выдающихся результатов – от создания первой шахматной программы чемпиона мира среди компьютеров «КАИССА» до технологий адаптивного распознавания текстов (самообучаемых алгоритмов). Многие модели, методы и алгоритмы, разработанные научным коллективом еще в советское время, и сегодня с успехом используются в программном обеспечении Cognitive и других разработчиков ПО как в России, так и во всем мире. Здесь стоит отметить AVL-деревья, лежащие в основе практически любой современной СУБД, метод «четырех русских» - единственный метод, обеспечивающий субквадратичную асимптотику при поиске регулярных выражений, алгоритмы семантического отсечения перебора (которые позволяли КАИССЕ на медленной отечественной технике считать игровые варианты быстрее, чем это делали зарубежные оппоненты. Эти и другие научные результаты, вошедшие во всемирно распространенные учебники и монографии, а также современные подходы к созданию различных интеллектуальных систем – суть проявление представляемой нами общей идеологии «интеллектуальных отображений». Ее отличие состоит в том, что в традиционных методах обработки, информация является оторванной от содержания. Наш подход, наоборот, предполагает глубокую взаимосвязь между ними. Согласно идеологии «интеллектуальных отображений» в больших потоках разнотипной информации (изображения, аудиосигналы, документы, тексты, Интернет-страницы и т.д.) мы способны выделять полезные единицы информации ( unit) от бесполезных. Затем, проводить анализ, фильтрацию и структурирование этих информационных единиц. Полученные полезные знания, в итоге, учитываются при дальнейшей работе с информационным потоком, таким образом как бы замыкая контур обратной связи. На этом принципе построены все основные наши решения от адаптивных (самообучающихся) алгоритмов до технологий аналитических систем. 
 В свете идеологии «интеллектуальных отображений», например, можно очень четко объяснить основное отличие нашего подхода к решению задач электронного документооборота. Оно состоит в том, что мы рассматриваем этот процесс не как движение абстракций – документов с неким стандартным набором реквизитов (карточкой документа), а как передачу информативных единиц, содержащих полезную информацию, которую мы в процессе их обращения внутри организации пытаемся максимально извлечь для последующего накопления и анализа. Это так называемый контентный документооборот,в котором управление и работа с документами строится на основе содержания документов. 
 На протяжении многих лет наша компания является первопроходцем в области создания новых интеллектуальных решений за счет реализации в них передовых научных достижений: 
<ul> 
 <li>Создание промышленной OCR-системы; </li> 
 <li>Создание системы распознавания рукопечатного текста ( ICR) форм;</li> 
 <li>Разработка технологий распознавания гибких форм документов;</li> 
 <li>Разработка технологий адаптивного распознавания (самообучаемых алгоритмов);</li> 
 <li> Создание концепции «расширенного документооборота», как системы структурирования управленческой информации; </li> 
 <li> Разработка технологии описания и обработки документов на основе форм; </li> 
 <li>Создание методов построения объектно-ориентированных СУБД;</li> 
 <li>Создание систем рубрицирования неструктурированной текстовой информации;</li> 
 <li>Разработка русскоязычных речевых технологий,</li> 
</ul> 
и др. 
 Традиционно, в контуре управления любой интеллектуальной системы, будь то естественной или искусственной, выделяются следующие фазы: 
<ul> 
 <li>восприятие и распознавание информации, поступающей из внешнего мира;</li> 
 <li>накопление данных, их структуризация или реструктурирование;</li> 
 <li>анализ («осмысление») данных и формирование управляющих воздействий. </li> 
</ul> 
Соответственно этой структуре, в общем объеме научных разработок Cognitive отчетливо выделяются следующие направления: 
<ul> 
 <li>Распознавание образов и анализ изображений, OCR\ICR\OMR системы, системы распознавания речи;</li> 
 <li>Объектно-ориентированные СУБД;</li> 
 <li>Прикладная лингвистика, информационно-аналитические системы, системы мониторинга, поддержки принятия решений и управления.</li> 
</ul> 
 Исследования по каждому из этих направлений в компании выливаются в разработку и развитие программных ядер. Мы имеем собственные модули ( engine) обработки изображений, распознавания печатного и рукопечатного текста, хранения и индексации данных, редактирования документов, формирования отчетов, манипуляции бумажными и экранными формами документов, модули ( engine) морфологического анализа, рубрикации, машинного перевода текстов и другие. На этой основе мы создаем программные продукты, занимающие ведущие позиции в своих направлениях. И как конечный результат, это позволяет нам создавать комплексные проектные решения, объединяющие на общей платформе системы ввода, хранения, анализа и обработки информации. Рассматривая такой проект, можно сказать, что каждая грань этого интеллектуального кристалла блистает своими когнитивными технологиями. 
 Основную доходную часть бюджета компании составляет реализация программных продуктов и проектов, в основе которых лежат разработанные и развиваемые технологии Cognitive Technologies. 
 Следует отметить, что важное место среди научных разработок компании уделяется перспективным научным направлениям, которые должны лечь в основу прикладных решений завтрашнего дня. И инвестируем мы их уже сегодня. 
 Сегодня в Cognitive Technologies работает 475 сотрудников. Из них порядка 200 человек составляют разработчики. Структура разработок строится по матричному принципу (см. рис.). 
Структура разработок Cognitive Technologies 
[img1] 
 Как видно из схемы, в компании существуют проекты, захватывающие как одну (например, решения по вводу платежных документов целиком принадлежат направлению распознавания), так и непосредственно все проектные области (решения электронной торговли охватывают все направления разработок). 
Стоит сказать, что результатом научного исследования могут быть самые обыкновенные решения, применяемые, например, в системах электронного документооборота. 
Распознавание образов 
 Восприятие и распознавание информации, поступающей из внешнего мира – первая фаза в контуре управления интеллектуальных систем. Для того, чтобы информацию успешно обрабатывать и анализировать, ее нужно уметь извлекать. Поэтому важное место в исследованиях и разработке технологий у нас занимают направление обработки сигналов, к которым в первую очередь относятся графические образы и звук, и направление распознавания текста и речи. 
 История направления, связанного с распознаванием текста, в Cognitive Technologies относится к началу 90-х годов, когда мы выпустили настольные OCR-системы Tiger, и, чуть позже, Cuneiform. Так мы последовательно «освоили» технологий фонтового и омнифонтового распознавания печатного текста. Ядро распознавания было встроено в такие известные продукты как CorelDraw, Visioneer PaperPort и ряд других. 
 Идя от настольных систем к распределенным офисным приложениям, мы выпустили семейство продуктов Евфрат, в котором распознавание бумажных документов было естественным образом увязано с хранением, поиском и индексацией документов, формированием запросов и отчетов. В этом семействе мы реализовали и продолжаем развивать парадигму поддержки интеллектуальной деятельности всех этапах - восприятия информации, накопления, структуризации и анализа данных. 
 Параллельно мы развивали направление распознавания стандартных форм документов. Как и в случае с печатным текстом, мы разработали собственное ядро распознавания рукопечатного текста, ядро идентификации документов, технологию описания и автоматического разбора документов, автоматизированного контроля заполнения и ряд других, которые легли в основу системы массового ввода документов Cognitive Forms. 
 На сегодняшний день центры массового ввода документов на платформе Cognitive Forms обеспечивают ввод и первичный контроль документов в отделениях и филиалах Пенсионных фондов России и Беларуси, Сбербанка и других коммерческих банков, в Норильском горнообогатительном комбинате, Магнитогорском металлургическом комбинате и многих других предприятиях и организациях в России и за ее пределами. Это тысячи рабочих мест операторов ввода и более миллиона ежедневно обрабатывамых документов. 
 Это сотни форм документов, среди которых – документы, напечатанные на гербовой бумаге, такие как паспорт или свидетельство о регистрации транспортного средства, обрабатываемые технологией Scanify, документы с не жестко фиксированным расположением элементов, такие как платежные поручения или счета-фактуры, с которыми работает технология FlexiDocs, и другие классы документов. Это документы, зачастую не оптимизированные для машинного ввода, но требующие высокой ответственности при автоматизированной обработке, поскольку от них зависит перевод финансовых средств, отгрузка товаров, начисление пенсий и другие операции, цена ошибки в которых велика. 
 Что позволяет нам добиваться высокой достоверности результатов распознавания, без которых промышленная эксплуатация систем такого рода невозможна? Это использование многопроходных схем, которые передают информацию с одного уровня интерпретации к другому, от визуального к символьному, текстовому, далее к логическому (сходится ли в таком варианте разбора документа сумма прописью и цифрами?) и обратно, реализуя принципы «от грубого к точному», «от простого к сложному». Это использование адаптивных методов обработки изображения и распознавания, которые обеспечивают устойчивость на первых фазах анализа объекта. Это глубокое целенаправленное погружение в контекст решаемой задачи. Так, распознавая данные из отсканированного российского паспорта, система не пытается «делать вид», что распознает некий абстрактный документ – система распознает паспорт, и про него известны его свойства – рисунок гербовой бумаги, палитра и т.п. В рамках такого контекстно-зависимого подхода система распознавания обучается не только способам начертания символов, но и классу документов в целом, от особенностей графического образа до логики заполнения. Важными моментами также являются реализация в наших системах распознавания быстрых алгоритмов перебора вариантов, обеспечивающие поиск правильной комбинации гипотез на всех уровнях интерпретации – от пиксельного до логического, а также накачка систем в процессе обучения и тестирования большими объемами данных. За 15-летнюю историю работы в этом направлении мы собрали специализированные базы данных графических образов, которые содержат десятки миллионов размеченных символов в разных вариантах начертания, а также сотни тысяч страниц специально размеченных документов. Эти обучающие и тестовые наборы позволяют строить системы, в которых достоверность ответа может быть подсчитана с высокой математической точностью. Эти и другие принципы, модели, методы и алгоритмы, обеспечивающие высокую скорость обработки и достоверность результатов легли в основу диссертационных работ, защищены рядом патентов, содержатся в многочисленных научных публикациях. 
 Отметим, что в числе реализованных проектов, помимо традиционных, включающих задачи ввода различных объемов печатной и рукопечатной информации, существуют разработки, которые можно отнести к категории «промышленного распознавания». Например, распознавание номеров вагонов движущегося состава, автомобильных номеров и т.п. Как пример реализованного проекта, объединяющего зрительную и слуховую компоненты восприятия мы можем привести задачу помощи людям, потерявшим зрение, выполненная для зарубежного заказчика. На плече инвалида устанавливается видеокамера, которая при повороте туловища сканирует и распознает названия улиц и всевозможные вывески и указатели. Результатами распознавания являются звуковые фразы. По нашему мнению, за такими «синтетическими решениями» лежит большое будущее. 
Обработка и анализ текстов и данных 
Лингвистические исследования в нашей компании развивались по мере усложнения решаемых задач искусственного интеллекта. 
В наших первых системах OCR для повышения качества распознавания стояла задача проверки орфографии текста в условиях многовариантности распознавания отдельных символов. Были разработаны методы организации и использования словарей всех словоформ русского языка, где оценочные функции учитывают частотность сочетания букв. Изобретенные нашими учеными методы сегодня стали общепринятыми в системах распознавания текстов. 
Сегодня для повышения качества решений в задачах массового ввода данных, документооборота, мониторинга информационных потоков, распознавания речи и других компьютерная лингвистика становится крайне актуальной. Среди решаемых лингвистических задач сегодня можно перечислить следующие: 
<ul> 
 <li>верификация распознавания слабоструктурированных текстовых полей определенных типов ;</li> 
 <li>синтаксический анализ текстов ;</li> 
 <li>категоризация текстовых объектов в информационных потоках ;</li> 
 <li>категоризация текстов для задач искусственного интеллекта ;</li> 
 <li> машинный перевод текста;</li> 
 <li>семантическая индексация текстовых объектов в аналитических системах ;</li> 
 <li> определение семантической близости текстовых объектов;</li> 
 <li>извлечение знаний и прогнозирование на основе анализа слабоструктурированной текстовой информации .</li> 
</ul> 
На примере этого направления можно наглядно увидеть работу, как говорили раньше, искусственного разума, компьютерная система помимо анализа внутренней среды (отслеживание производственно-технологических, экономических и финансовых показателей) помогает в решении задач конкурентного анализа как части более масштабной задачи по исследованию научно-технической сферы, которая, в свою очередь, входит в задачу стратегического анализа и планирования. Одним из практических внедрений этих научных разработок можно назвать созданную по заказу «Норильского Никеля» систему анализа и прогноза конкурентоспособности предприятия на основе патентного анализа. 
Одним из последних результатов наших разработок в области прикладной лингвистики является создание систем автоматического перевода. Основным отличием нашего подхода является создание и использование методов автоматического выбора вариантов перевода, а также методов группового перевода, когда переводятся не отдельные слова, а осмысленные фрагменты. При этом изменение варианта перевода определенных слов приводит к автоматическому подбору другого варианта перевода, семантически близкого к заданным словам. Такой подход позволяет значительно повысить точность перевода. Данная технология уже успешно внедрена в одном из проектов. В ближайшее время планируется проведение отдельного мероприятия по данному поводу. 
Объектно-ориентированные СУБД и электронный документооборот 
 Помимо проблемы извлечения знаний как из бумажных, так и электронных источников, существует целый класс задач представления знаний и описания объектов, которые реализуются в системах управления базами данных. 
 Коллектив занимается разработками СУБД более 30 лет. К нашим заслугам можно отнести достижения, ставшие классическими, такие как AVL -деревья, базовый динамический метод доступа, индексация сложных структур данных, введение форм документов для генерации схем баз данных, организации ввода, распознавания, поиска, вывода, обработки данных. Сегодня эти научные разработки используются многими другими разработчиками информационных технологий. Коллектив отмечен Премией Совмина СССР за разработку и массовое внедрение СУБД. На базе СУБД ИНЕС и НИКА в России были внедрены десятки тысяч крупных информационных систем. 
 Специфика созданных систем – сложные структуры объектов и подобъектов, возможность динамического изменения структур без перезагрузки БД. То есть при необходимости пользователь может менять структуру и логику расположения данных в базе данных, что сложно или невозможно в СУБД других разработчиков. Это особенно важно при проведении исследовательской работы. Система имеет комплекс средств для автоматического создания фрагментов знаний в качестве отдельных продуктов на CD, DVD, сенсорных киосках, Интернет-порталах. 
 Наш основной принцип создания СУБД: формы есть основа взаимодействия с базой данных. Формы позволяют систематизировать расположение и обработку данных в СУБД, что существенно упрощает создание БД и аналитические исследования. Форма структуры состоит из многих фреймов – элементарных порций знаний. Базы данных и знаний строятся на основе структуры объектов и понятий, представленных в схемах БД; форм отображения и процедур обработки знаний, представленных в формах; а также декларативных знаний, словарей и классификаторов, хранимых в СУБД. 
 Нами разработан механизм единой индексации реквизитов объектов и подобъектов всех уровней иерархии, позволяющий производить отбор любых объектов по условиям, заданным на реквизиты искомых объектов, а также подчиненных и вышестоящих объектов. Это обеспечивает конечному пользователю возможность осуществлять нерегламентированный поиск данных без их перебора. 
Наши системы ориентированы на XML не только как на язык экспорта/импорта, но и как на внутреннее представление данных. Созданы средства редактирования сколь угодно сложных и объемных документов, эффективные механизмы хранения, индексации и поиска XMLдокументов. 
Наши решения позволяют наглядно описывать объекты и подобъекты, образующие сложные структуры с тысячами реквизитов, такие как Аэробус S320, биохимические соединения или выставка экспонатов Государственного исторического музея. 
 В настоящее время в направлении СУБД ведутся исследовательские работы по нескольким перспективным направлениям. Центральным из них является разработка «Технологии Единых Форм», которая должна стереть границу между бумажными и электронными документами. Создание такой технологии позволит привести к единым формам все основные типы документов. После сканирования информации интеллектуальные модули будут способны автоматически проводить в распознанных документах различной сложности поиск нужных фрагментов и заносить их в соответствующие поля БД. Если крупное предприятие имеет папки бумажных договоров за определенный срок, то с помощью «Технологии единых форм» они смогут быть обработаны так, что результатом станет база данных, содержащая всю значимую информацию по договорам. На ее основе при помощи OLAP-модуля возможно будет автоматическое проведение анализа всех бизнес-процессов, описанных в данных договорах за нужный срок. 
Перспективные направления 
Здесь следует отметить такие направления, как: 
<ul> 
 <li>речевые технологии (создание речевых баз данных, методов анализа и обработки речевых сигналов, создание систем распознавания и синтеза речи);</li> 
 <li>создание систем цветного технического зрения;</li> 
 <li>распознавание сцен; </li> 
 <li>создание систем мониторинга видеопотоков; </li> 
 <li>разработка «Технологии Единых Форм» </li> 
</ul> 
и другие. 
 В Cognitive Technologies еженедельно проводятся научные семинары, на которые приглашаются известные ученые и специалисты. Из многих идей, высказанных на этих мероприятиях, впоследствии были получены важные научно-практические результаты. 
 Надежным средством поддержания научного потенциала коллектива компании является продуманная кадровая политика. Компания имеет многолетние связи с базовыми кафедрами МФТИ, МГУ, МИСиС и др. Руководители и ведущие специалисты компании преподают на этих кафедрах. Многие студенты уже с третьего курса начинают участвовать в проектах Cognitive. Наиболее продвинутые из них в последствии остаются работать в компании. 
Труды ученых компании публикуются во многих журналах, трудах конференций, в частности, в ежегодном сборнике трудов ИСА РАН.