ИИ проявляет недостаточную сообразительность при вылавливании «грязного» контента

Логотип компании
04.09.2018Автор
ИИ проявляет недостаточную сообразительность при вылавливании «грязного» контента
Ученые из университетов Аалто и Падуа протестировали семь новейших модулей искусственного интеллекта, используемых для выявления контента, содержащего оскорбления и нецензурную речь. Все провалились.

Ученые из университетов Аалто (Aalto University) и Падуа (University of Padua) протестировали семь новейших модулей искусственного интеллекта, используемых для выявления контента, содержащего оскорбления и нецензурную речь.

В результате выяснилось, что ИИ настолько плохо справляется со своей ролью, что дает зеленый свет виртуальным троллям. Подобные системы созданы для автоматической блокировки любого информационного потока, содержащего в себе элементы насилия, порнографии и оскорблений любого характера.

Однако, как показали многочисленные тесты, стоит злоумышленнику немного видоизменить текст, вставив дополнительные символы, пробелы между словами, как ИИ оказывается сбытым с толку. Так, хорошо работают вставки в предложения безобидных слов типа «любовь».

Анализируемые модели ИИ дружно провалили экзамен. Эти трюки не обманут людей, но ИИ не смогли легко адаптироваться к новой информации, выходящей за пределы того, что было заложено во время учебного процесса. 

«Алгоритмы хорошо работают только при использовании знакомых схем, заложенных в них создателями в процессе обучения. Все предлагаемые методы обнаружения являются уязвимыми. Если собеседник способен автоматически вставлять опечатки или добавлять безобидные слова, он легко сможет обойти все препоны ИИ», - говорят ученые.

И это при том, что исследователи были весьма вежливы и вместо ругательств и оскорблений вставляли одну лишь букву «F».

Самые слабые модели - это те, которые проверяют предложения слово за словом. Те, которые способны, в том числе, анализировать, разбивая текст на отдельные группы слов, лучше справились с задачей.

Ученые пришли к однозначному выводу, что разработчики должны уделять больше внимания учебному набору данных, а не самим алгоритмам.

Похожие статьи