Сергей Гарбук: «Стандарты искусственного интеллекта»

Логотип компании
Стадарт направлен на то, чтобы выполнить миссию технического комитета — унифицировать методы испытания ИИ, гарантировать предсказуемый и достаточно качественный результат эксперимента.

Со дня создания в 2012 году Фонда перспективных исследований его деятельность направлена на содействие осуществлению научных разработок в сфере инновационных технологий и производства высокотехнологичной продукции военного, специального и двойного назначения. Сергей Гарбук, возглавляющий сегодня Технический комитет по стандартизации № 164 («Искусственный интеллект»), разрабатывал в ФПИ правила и методы оценки первых проектов по созданию технологий, которые мы сегодня называем искусственным интеллектом. Спустя несколько лет на базе этого направления была разработана серия национальных стандартов в области ИИ.

Какие первые проекты с использованием ИИ были реализованы в Фонде?

Всё началось с систем распознавания лиц в сложных условиях – например, когда человек, которого нужно узнать, противодействует этому. Следующим шагом стало распознавание речи, а затем — дешифрирование космических объектов, распознавание снимков, полученных из космоса и с беспилотных летательных аппаратов. Мы отбирали исполнителей для этих проектов и в какой-то момент поняли, что проводить конкурс в соответствии с привычными процедурами бессмысленно, потому что все претенденты напишут практически одинаковые конкурсные заявки: расскажут про искусственный интеллект, нейронные сети, глубокое обучение. В 2015 году еще не было выработано признанных сообществом унифицированных процедур оценки качества таких технологий. То есть, если нужно было сравнить технологии ИИ двух разных разработчиков, скажем, в области распознавания речи, возникала сложная ситуация. Заказчик слушает разработчика, а тот утверждает, что у него вероятность правильного распознавания, допустим, 99% и доказывает это на своей тестовой модели. Следом приходит другой разработчик и на основе уже своей тестовой выборки показывает, что и у него вероятность правильного распознавания 99%. В результате исполнители конкурируют лишь ценой. А это опасно, когда в таких сложных задачах будет выбрана компания, предложившая самую низкую цену, без учета множества других факторов, влияющих на качество решения. Если заказчик продвинутый и обладает достаточным опытом и компетенцией, а главное — ресурсами, то он сам создаст тестовый набор данных, который подходит именно ему, и на его основе проверит и выберет более подходящую систему. Однако это происходит далеко не всегда.

И как же вы решили эту проблему?

Мы стали проводить, как сейчас называют, технологические конкурсы. То есть готовили представительные тестовые наборы данных для прикладных задач по распознаванию лиц, речи, объектов и изображений и к этим наборам предлагали методики измерения результатов. И в какой-то момент поняли, что это и есть стандартные испытания искусственного интеллекта, выполняющие очень важную миссию — сравнение функционально подобных технологий и выявление из них лучших. Более того, мы решили, что, когда речь идет об автоматизации человеческой деятельности, необходимо ответственно заменить человека на компьютер, а значит, иметь возможность сравнивать не только программу с программой, но и действия программы и действия человека, который прежде решал эту задачу вручную и зачастую неплохо. Это и натолкнуло на мысль, что методики следует превращать в национальные стандарты, делать их публичными, доступными для сообщества. Другими словами, мы начали создавать прозрачные правила игры на этом рынке.

Но ведь у западных коллег тоже есть подобные работы. Вы действовали параллельно или с учетом стандартов, разрабатываемых в других странах?

Это не один, а два вопроса. Ведется ли деятельность по сравнению технологий? Да, уже лет 15 мы изучаем опыт и наработки друг друга, это очень серьезные и важные кейсы. Но нельзя просто взять западные образцы и сделать уверенный вывод, что технология подтвердила свое качество и будет хорошо работать при решении той или иной задачи. А во-вторых, мы практически никогда не знаем, как создавался тестовый набор данных, а это важнейший нюанс технологии искусственного интеллекта. Когда не знаешь, насколько несмещенным и объективным является тестовый набор, говорить о представительных оценках качества приложения невозможно. Есть опасность, что какая-то технология, демонстрирующая высокое качество на наборе, не нами придуманном, на практике будет подвержена специфическим информационным атакам. Более того, эта атака может быть даже предусмотрена в этом, не нами сделанном, наборе данных.

А стандарт избавляет от такой опасности?

Да, он направлен на то, чтобы выполнить миссию технического комитета — унифицировать методы испытания ИИ, гарантировать предсказуемый и достаточно качественный результат эксперимента. Вот это, пожалуй, самое главное. Есть и дополнительные функции, которые присутствуют в работе любого айтишного TK: унификация форматов, обеспечение терминологического единства и так далее. Но основное, повторяю, это гарантия предсказуемо качественной работы программы. Начали мы эту работу, ориентируясь на задачи безопасности, причём безопасность в нашем случае следует трактовать максимально широко: предлагаемые нами методики испытания необходимы везде, где речь идет об угрозе жизни и здоровью людей в случае некорректной работы системы. Я имею в виду множество отраслей и направлений — транспорт, медицину, технические средства обеспечения безопасности, промышленность и так далее. Отсутствие испытаний, гарантирующих качество работы систем, является, как сейчас принято говорить, нормативно-техническим барьером к их внедрению.

С чего начинается разработка стандарта?

Мы экспертным путем формируем перечень характеристик системы, которые необходимо проверить для каждой прикладной задачи, а также перечень существенных условий эксплуатации, факторов внешней среды, влияющих на качественную работу ИИ. Например, для распознавания лиц существенными факторами становятся ракурсы лица, возможность работы в условиях, когда часть лица закрыта очками, бородой, повязкой и так далее. Какая именно часть – 5 или 55%? Насколько сложными могут быть условия освещения, то есть градиент освещенности по лицу? Например, у нас есть фотографии двадцатилетнего человека, а опознать его надо спустя 30 лет, – как справится ИИ в таких условиях? На какие расы рассчитана система? Заказчиком определяется диапазон изменения возможных значений этих и других факторов, и исходя из заданных границ формируется тест для испытания.

Как формируется репрезентативная выборка? Что используется в качестве исходных материалов?

Иногда бывает непросто. Так, однажды перед нами встала задача выбора оптимальный технологии распознавания речи в сложных условиях: искусственному интеллекту предстояло справиться с акцентами, жаргонизмами, причем по широкой тематике, и при этом предполагалось, что речь будет искажена телефонными кодаками. И мы пошли следующим путем – подобрали соответствующие фрагменты разговоров радиослушателей с ведущими радиоэфира. Получилась 24-часовая выборка, которая была предварительно размечена нашими экспертами. И вот на этом, достаточно представительном наборе данных было проведено тестирование различных отечественных систем искусственного интеллекта. После этого с участием победителей такого технологического конкурса был реализован соответствующий проект ФПИ. Я убежден, что тогда мы получили лучшую на тот момент систему по распознаванию русской речи в сложных условиях.

Привлечь искусственный интеллект к ответственности за ошибки нельзя. Но тогда как решать юридические вопросы при его эксплуатации? Мне кажется, без этого многие рынки будут попросту закрыты для ИИ.

Стандарты в области оценки соответствия требованиям как раз и позволяют снять ограничения, о которых вы говорите. Именно стандарты могут перенести отношения потребителя технологии искусственного интеллекта и разработчика в цивилизованное русло. Потому что, как только мы измеряем характеристики технологии и гарантируем, что в данных условиях эксплуатация системы будет обеспечена с заданными характеристиками, сразу появляется возможность подключить к отношениям заказчика и разработчика страховую компанию. Риски становятся счетными, и, если вдруг что-то произошло, мы можем понять, страховой это случай или нет. Добросовестно ли разработчик провел сертификацию — на этот счет есть заключение органа по сертификации. В каких условиях использовалась система — легко проверить. Если разработчик и заказчик выполнили условия сертификации и, соответственно, условия эксплуатации, значит, это страховой случай — просчитанный и заложенный в страховые риски.

Кто может сертифицировать такие интеллектуальные продукты?

Я убежден, что оценка прикладных систем искусственного интеллекта должна осуществляться непосредственно в отраслях: в системе здравоохранения, на транспорте, в промышленности, то есть там, где есть возможность формировать представительные наборы данных, выявлять существенные факторы эксплуатации и проводить не абстрактную процедуру оценки соответствия требованиям, а решать прикладные задачи, учитывающие особенности отрасли. А наш комитет окажет методическую и любую другую помощь.

В ТК-164 входят научные учреждения, госструктуры и компании с государственным участием. А как в работе над стандартами участвуют компании, разрабатывающие такие системы? И насколько для них это важно?

Государство стоит на страже интересов общества и каждого человека. И структуры, входящие в наш комитет, гарантируют потребителям безопасность, надежность и функциональность предлагаемых продуктов. Но добросовестному разработчику участвовать в ТК не менее важно, чтобы защищать уже свои интересы. Лидеры рынка, потратившие много усилий, денег и идей на создание своих технологий, должны иметь гарантии, что появившаяся вчера компания с сырой и плохо работающей системой не сможет обмануть заказчика. Добросовестные игроки заинтересованы в установлении строгих и прозрачных правил игры.

Не могли бы вы привести такой пример?

Да, у нас есть опыт такой работы. Скажем, «Яндекс» сейчас по собственной инициативе и за счет собственных средств разрабатывает стандарты ИИ, связанные с контролем состояния водителя такси. Иными словами, компания борется за безопасность дорожного движения. И мы очень надеемся на участие бизнеса в разработке других стандартов, в частности в области распознавания речи. Драйвером разработки стандартов могут стать и сами клиенты, которым требуются качественные голосовые помощники, кол-центры, служба 112. И здесь перед нами стоит сложный вопрос – как получить гарантии, что тревожное сообщение человека будет воспринято с должным вниманием? Нужно ведь учитывать не только процент распознавания, но и эмоциональное состояние собеседника и соответственно реагировать. Я уже несколько раз подчеркнул, что гарантии эффективной работы систем искусственного интеллекта могут быть получены только в определенных условиях: нам надо знать, как наша система поведет себя, скажем, при разговоре на повышенных тонах, в других непредсказуемых сценариях. К счастью, ИИ достаточно гибок, чтобы существовать в атмосфере такой «плавающей автономности», и в зависимости от сложности задачи, внешних обстоятельств и даже правовых и политических ограничений передает свои функции человеку. Впрочем, правила по определению таких полномочий нам еще тоже предстоит выработать.

Опубликовано 25.06.2022

Похожие статьи