Метод TLG позволяет выявлять нелепые изображения с точностью до 87,5%
10.10.2025
Команда исследователей из группы «Вычислительная семантика» AIRI, Сколтеха, MWS AI и МФТИ представила инновационный подход к одной из сложных задач компьютерного зрения — определению того, нарушает ли изображение здравый смысл.
Новый метод TLG (Through the Looking Glass, «Сквозь зеркало» или «В Зазеркалье» — это отсылка к повести «Алиса в Зазеркалье» Льюиса Кэрролла) предлагает не анализировать само изображение, а исследовать, как большие мультимодальные языково-визуальные модели описывают картинку текстом. Противоречия и галлюцинации в таких описаниях указывают на «странность» изображения.
Для тестов учёные создали масштабный датасет WEIRD — 824 изображения с нелепыми ситуациями, значительно расширивший ранее использовавшийся в сообществе датасет WHOOPS!. Метод TLG превосходит более сложные и ресурсоёмкие системы, достигая до 87,5% точности.

