Иван Волков: «Искусственный интеллект — это больше, чем просто хайп»

Технический директор компании Content AI

После ухода ABBYY команда ее бывшего российского подразделения продолжила работать со всеми заказчиками и партнерами под новым именем. А главное — компания Content AI смогла лицензировать технологии, фактическим разработчиком которых она была, и продолжила развивать их в русле импортозамещения.

Сетования об уходе западных компаний и их продуктов с отечественного рынка уже стали дежурной риторикой на различных ИТ-мероприятиях. Список тех, кого мы недосчитались за последние полтора года, внушителен. А «импортозамещение — это боль», как уверяют (чаще в кулуарах) айтишники. Тем интереснее кейс компании Content AI: после ухода ABBYY команда ее бывшего российского подразделения продолжила работать со всеми заказчиками и партнерами под новым именем. А главное — компания смогла лицензировать технологии, фактическим разработчиком которых она была, и продолжила развивать их в русле импортозамещения. Чего удалось добиться такими небанальными решениями, рассказал Иван Волков, технический директор компании.

В решениях Content AI используется искусственный интеллект. Как вам кажется, можно ли считать это главным направлением в глобальном технологическом развитии и основной сферой интересов ИТ-сообщества? И почему?

Тема эта, безусловно, горячая, привлекающая внимание представителей самых разных областей. В первую очередь потому, что искусственный интеллект значительно расширяет возможности машин и, как следствие, позволяет качественно трансформировать многие бизнес-процессы. Сегодня компании пытаются использовать большие лингвистические модели для решения все новых и новых задач. И, повторюсь, искусственный интеллект реально предоставляет новые возможности — это не просто хайп. Накопленный опыт позволил совершить своего рода революцию в этой области. Мы активно следим за происходящим в глобальном ИТ-сообществе и размышляем, как использовать технологические тренды и новые инструменты для развития своих продуктов.

Сейчас некоторые компании сокращают специалистов, делая ставку на искусственный интеллект. Руководство полагает, что разработчика сможет заменить цифровое решение. Тот же Chat GPT умеет писать код. Что вы об этом думаете? Искусственный интеллект действительно стал полноценным соперником человека и вскоре заменит его?

Я думаю, что прямой угрозы для ИТ-специалистов, то есть их работы и рабочих мест, нет. Но изменения, притом значительные, неизбежны. И это дело ближайшего будущего.

Начну издалека. Современная экономика — это экономика сервисов. Когда покупаешь некую вещь, ее себестоимость составляет 10–20% ее цены. А остальное уходит на логистику, маркетинг, сервис. Вот что составляет большую часть добавочной стоимости. И, как мне кажется, в области производства контента и в области разработки спустя некоторое время будет происходить примерно то же. Создать что-то окажется просто и дешево. Это не будет основным фактором, определяющим ценность.

В новых условиях труд программистов станет намного более производительным. Они смогут решать куда более сложные задачи, чем сейчас. Другими словами, небольшая команда будет способна за короткий срок создать, например, свой компилятор или программный пакет. То есть, отвечая на ваш вопрос, программисты не исчезнут, но характер их работы изменится. Кроме того, им придется изменить свои навыки и знания — простое написание кода когда-нибудь станет автоматизированным.

В каком-то смысле это уже происходит. Сервисы вроде GitHub Copilot решают задачи в области интеллектуальной помощи разработчикам. И в некоторых случаях результаты действительно впечатляют — они осуществляют сложные манипуляции с кодом, которые раньше мог делать только опытный разработчик. Но повсеместным применение подобных решений будет, как мне кажется, через 5–10 лет.

За последнее время в каких новых сферах появились прикладные решения с ИИ? И как они себя показали?

Технологии машинного обучения развиваются активнейшим образом, поэтому даже перечисление сфер, в которых они применяются, будет достаточно долгим. Я бы предложил остановиться на том, что происходило за последние год-два. Главным событием за этот период стало появление генеративных нейросетей. Их все обсуждают, они уже сгенерировали невероятное количество контента (изображения, тексты, музыка, видео), заполонившего Интернет.

К слову, замечу: если, образно говоря, покопаться в стартапах на основе машинного обучения, у многих найдешь «под капотом» ChatGPT и Promt Engineering.

Показали себя новые решения, на мой взгляд, наилучшим образом. Благодаря им появились сервисы и проекты, которые еще недавно невозможно было вообразить. ChatGPT реалистично имитирует ответы человека и способен быть гибким в этой области. С изображениями, их созданием и обработкой, искусственный интеллект тоже отлично справляется. Если же сосредоточиться на корпоративной выгоде от применения новых решений, то они могут помочь автоматизировать многие процессы, например работу кол-центров. В нашей компании отдельные элементы рабочих процессов разработки автоматизированы с помощью ChatGPT.

Кстати, почему именно ChatGPT стал столь громким событием не только в индустрии, но и в широком общественном поле?

Причин несколько. Главная из них — поведение ChatGPT очень похоже на человеческое. Его «мысли» неотличимы от человеческих. По его ответам создается ощущение, что запрос им действительно понят, а ответ обдуман. Это качественно отличается от всего, что было прежде.

Также я хотел бы обратить внимание на новое свойство — способность решать разноплановые задачи без переобучения. Это открывает принципиально новые возможности во множестве областей, от копирайтинга до генерации кода.

Если вернуться на 30 лет назад и оценить различные прогнозы, можно ли увидеть там предположения о появлении искусственного интеллекта и сбывшиеся сценарии его развития?

На самом деле тема искусственного интеллекта волнует человека давно. Может быть, даже не 30 лет, а гораздо дольше. За этот период даже появилось выражение «зима искусственного интеллекта». Это о ситуации, когда происходит какой-то локальный прорыв в данной области, но за ним ничего не следует, технология не развивается. Из-за этого у искусственного интеллекта сформировался во многом «хайповый» имидж. Многим стало казаться, что дальше разговоров и обещаний тут дело не пойдет.

Но сейчас многие специалисты сходятся во мнении, что новой «зимы» в ближайшей перспективе ждать не стоит, потому что стала видна реальная перспектива развития. С пресловутым тестом Тьюринга новые решения справляются. Так что скептики в этот раз ошиблись.

Многие прогнозы относительно практического применения искусственного интеллекта сбылись. То, что раньше было в научно-фантастических книгах, стало доступной для многих реальностью.

Расскажите чуть подробнее, как в Content AI используется ChatGPT для решения задач разработки?

Мы экспериментировали с разными задачами. Целью было повышение производительности труда разработчиков. Отзывы смешанные. Например, возможность трансформации одного языка программирования в другой в Refact.ai действительно работает. Но наш проект просто не влезает в контекст, которым может оперировать нейросеть. Поэтому мы не можем применить здесь новое решение, и писать приходится как раньше, вручную. Инструменты применения нейросетей, скажем так, сыроваты, но я уверен, что это преодолимые проблемы. Мы продолжаем работать с этим и рассчитываем получить эффект в ближайшем будущем.

Недавно Content AI объявила о выпуске продукта ContentCapture с новой функциональностью – распознаванием русского рукописного текста. Расскажите об этом подробнее.

ContentCapture – флагманский продукт нашей компании. Это программный комплекс с элементами искусственного интеллекта, который позволяет обрабатывать в едином потоке любые документы — акты и товарные накладные, договоры, отчеты и т.д. Объем корпоративного документооборота может достигать сотен тысяч документов в день. Сразу перед несколькими подразделениями стоит задача их оперативного ввода и обработки – сверки данных в документе с внутренними базами, переноса в соответствующие системы. Делать это вручную зачастую непосильный труд. Наша универсальная платформа как раз позволяет решить эту задачу. Достаточно просто отсканировать бумагу или указать, где находится электронный документ, и ContentCapture самостоятельно определит его тип, распознает все необходимые текстовые и числовые данные, проверит корректность извлеченной информации и отправит в нужную корпоративную систему.

В недавнем релизе нашего продукта появилась важная функция распознавания русского рукописного текста. Прежде ContentCapture могла распознавать печатный и так называемый рукопечатный текст — текст, написанный от руки печатными буквами. Но по-прежнему множество документов хотя бы частично заполняется от руки, курсивом. Это отдельные разделы в документах, удостоверяющих личность, анкеты, заявления, служебные записки. И исчезать они в ближайшем будущем не собираются.

Тесты показали высокую эффективность новой функции. Качество распознавания рукописного текста варьируется в промежутке 85–95% в документах определенного типа: речь идет о паспортах и других документах, удостоверяющих личность, тестовых формах. Но важно отметить, что большое значение имеет почерк. Грубо говоря, если текст можно прочитать, то система его распознает. Но есть, конечно, случаи, когда написанное даже человек не сможет разобрать. Тут технологиям пока тоже трудно справляться.

А слова, в рукописном виде состоящие из множества похожих элементов, например «шиншиллы», ContentCapture хорошо распознает?

Мы обучали систему на огромном количестве документов. В тестовой выборке в том числе были и школьные сочинения, которые разбирались построчно. И именно для этих текстов качество распознавания составляло 95%. Это очень хороший показатель, особенно с учетом того, что почерк у детей бывает очень разный — и по стилю, и по качеству.

Как разрабатывался ContentCapture? И как вы планируете развивать продукт в дальнейшем?

Наша компания является технологическим преемником ABBYY в России. ContentCapture выросла, если можно так сказать, из аналогичного продукта ABBYY — платформы FlexiCapture, которая в свою очередь имеет долгую историю, у нее было 12 версий за более чем 25 лет существования. Это демонстрирует зрелость продукта и широту его возможностей, ведь с каждой новой версией появлялась новая продвинутая функциональность. Но отмечу, что хотя система ContentCapture и немало унаследовала от FlexiCapture, мы привнесли в нее много своего и продолжаем развивать уже по новому сценарию, с акцентом на решение задач российских пользователей. Например, распознавания русского рукописного в продукте ABBYY не было и нет. А для английского языка качество распознавания текста у нашего продукта выше, чем в платформе FlexiCapture.

Сейчас мы работаем над версией ContentCapture, адаптированной к операционным системам на базе Linux. Релиз кросс-платформенного продукта запланирован на осень. Этого у ABBYY не было — все их решения были только под Windows.

Также добавлю, что устанавливать наш продукт можно как непосредственно на машины, так и в корпоративном облаке.

Очевидно, что среди обрабатываемых ContentCapture документов может встречаться и коммерческая тайна, и другая конфиденциальная информация. Как обеспечивается безопасность в этом случае? Можно ли быть уверенным, что подобные данные не попадут ни к кому постороннему?

Да, можно. Для этого есть вариант разворачивания ПО локально, без доступа к Интернету. А внутри комплекса предусмотрены широкие возможности управления правами доступа. То есть утекать данным некуда. И все посторонние лица отсечены.

Для некоторых сценариев необходима дополнительная визуальная проверка корректности данных оператором. Чтобы избежать риска утечки, существуют специальные режимы верификации. Поясню на примере паспорта. У него есть серия и номер. Режим реализован так, что серию видит и подтверждает один оператор, а номер — другой. Таким образом, ни у кого нет полной информации о данном паспорте и соблюдена полная конфиденциальность.

Вы работаете с заказчиками напрямую или через партнеров?

В основном через партнеров. В редких случаях, с особенно крупными заказчиками, мы работаем как вендор, но для поставки или внедрения нашего продукта в корпоративную систему заказчика всегда привлекается партнер. Техническое сопровождение всех клиентов мы осуществляем самостоятельно.

Что планируется реализовывать в ContentCapture в будущем?

У нас несколько основных векторов развития. Первый — движение в сторону отечественных операционных систем. Продукт уже в реестре российского ПО. Мы поддерживаем отечественные операционные системы, но некоторые функции для них пока недоступны. Это планируется исправить в осеннем релизе.

Второй вектор — снижение порога входа. Наш комплекс мощный, он способен решать множество задач, но в некоторых случаях требуется хорошо его знать. В одном из ближайших релизов будет представлена технология, которая позволит вместо ручного описания документа размечать его, указывать, где находятся необходимые данные, а система будет сама учиться их извлекать. Сюда же относится план по упрощению установки и настройки комплекса.

Третий вектор связан с производительностью. ContentCapture способна обрабатывать до миллиона документов в день. Но архитектура такова, что отдельные документы при этом могут обрабатываться относительно долго. Наша цель — улучшить результат.

Наконец, мы работаем над автоматической валидацией документов на основе подписи и печати. Это будет реализовано уже в осеннем релизе.

Реклама ООО "Контент ИИ" erid: LjN8KaKWH

Журнал IT Manager

Опубликовано 27.07.2023

Импортозамещение Искусственный интеллект AI Распознавание Отечественное ПО Электронный документооборот

Предыдущая
Настоящее и будущее аналитических систем: от BI к комплексному управлению данными

Следующая
О геоаналитике от «Геоинтеллекта»

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30