Можно ли отчислить студента по результатам ИИ-детектора

Логотип компании
Можно ли отчислить студента по результатам ИИ-детектора
изображение создано нейросетью
Студенты все чаще прибегают к помощи ИИ в обучении. Вместе с этим появляются инструменты проверки, задача которых — различить работу человека и машины. Насколько точны эти системы и стоит ли опираться на их выводы – разбирался IT-World.

Когда говорят об ИИ-детекции, обычно подразумевают целый комплекс технологий, позволяющих определить, был ли тот или иной объект (текст, изображение, аудио) создан или модифицирован с помощью искусственного интеллекта.

Главная задача детектора — выявить факт использования нейросетей и понять, где результат работы принадлежит человеку, а где был применен алгоритм. Это важно как для проверки академических и журналистских текстов, так и для сферы медиа, образования и даже права.

В моей практике основное внимание уделяется именно текстам. Сегодня существует несколько десятков сервисов, которые умеют различать, чья работа перед нами. Проще говоря, детекция отвечает на вопрос, человеком написан этот текст или программой. Это важно для образования, науки, журналистики и других сфер, где нужно понимать, кто является автором контента.

ИИ-детекция и проверка на плагиат — в чем разница?

Поиск присутствия искусственного интеллекта в тексте и проверка на плагиат — принципиально разные технологии. Если коротко: определители плагиата занимаются обнаружением копий, а ИИ-детекторы ищут присущий машинным алгоритмам характерный «почерк» в тексте.

Высшее образование в ИТ-сфере: ждем кризиса или живем спокойно?

Проверка на плагиат работает по простой логике: есть большая база источников, и программа ищет совпадения между проверяемым текстом и тем, что уже когда-то было опубликовано. Если фрагмент встречается в другом документе, система указывает конкретный источник — будь то книга, статья или веб-страница. По сути, это поиск повторов.

ИИ-детекция устроена иначе. Здесь невозможно предъявить «оригинал», потому что тексты, созданные нейросетями, не хранятся в открытых базах. При том, что генеративные модели обучались на миллиардах документов, итоговый текст обычно уникален. Поэтому задача детекторов в другом — их учат искать признаки машинного письма прямо в конкретном тексте.

Таких признаков довольно много, и они разнообразны: от использования относительно редких слов до особенностей распределения частей речи или нехарактерных стилистических конструкций. Это область постоянных исследований, специалисты непрерывно ищут все новые маркеры различий между человеческим и искусственным текстом, но те становятся все более размытыми.

Как работает детекция ИИ-текста: от загрузки до вердикта

Если сильно упростить, работа детектора выглядит так: вы загружаете текст, система его обрабатывает и выдает результат — оценку того, насколько велика вероятность, что перед нами искусственный текст. Внешне процесс кажется скучным и линейным, но внутри скрыт целый набор методов, которые постоянно развиваются.

Искусственный интеллект и «общество зомби». Почему технологии, созданные для развития, делают нас слабее

10–15 лет назад отличить „машинный“ текст было проще. Например, хорошо работали детекторы, основанные на законе Ципфа, который описывает распределение частотности слов языка. Если в тексте это распределение нарушалось, то, скорее всего, перед нами было не человеческое творение. Но более поздние модели научились следовать закону Ципфа даже лучше, чем живые авторы».

Сегодня детекторы работают более тонко, они ищут такие маркеры, как:
  • необычные слова, которые редко встречаются в человеческом вокабуляре;
  • смещение частот частей речи (речь про обилие прилагательных или глаголов) по сравнению с естественной речью; 
  • синтаксические и стилистические нюансы (к примеру, в научных текстах алгоритмы часто выстраивают чрезмерно длинные и перегруженные предложения, тогда как в новостных материалах, наоборот, могут предпочитать парцелляцию).

Абсолютного признака машинного текста не существует. Система работает с вероятностями, а ее выводы строятся на совокупности косвенных сигналов. Поэтому корректный детектор никогда не скажет „это точно написал ИИ“. Все, что он действительно способен сделать — указать, насколько текст похож на те, что обычно создают генеративные модели.

Большинство признаков присутствия ИИ в текстах «спрятаны» глубоко в структуре самих текстов. Интересно, что для их поиска все чаще используют те же самые большие языковые модели (LLM), которые эти тексты и генерируют. Принцип примерно такой: модели подают текст на вход, а затем анализируют информацию, извлеченную из внутренних слоев нейросети. На основе этих данных система и делает вывод — создан текст человеком или машиной.

Контент от ИИ: какие риски несет цифровое авторство?

А чтобы такие алгоритмы работали, их предварительно обучают. Для этого собирают корпус текстов: часть из них написана людьми, часть — нейросетями. Иногда используют более сложные методы, например «подмешивают» фрагменты сгенерированного текста в человеческие. Задача алгоритма в этом случае — научиться находить такие вставки.

Затем включается стандартная схема машинного обучения: модели «скармливают» выборку, и постепенно она «настраивает» свои параметры так, чтобы как можно точнее различать естественные и искусственные тексты. Со временем благодаря большим объемам данных и корректировкам качество детекции становится все выше.

Стоит заметить, что уровень детекции зависит еще и от размера загружаемого текста. В 2022 году мы с коллегами провели собственное исследование, и в результате поняли: чем короче текст, тем сложнее алгоритмам определить его происхождение. Напротив, по мере увеличения объема точность детектора растет: он увереннее отличает ИИ-текст от текста живого автора. Мы выяснили, что „порог насыщения“ наступает примерно на уровне 900 символов. После этого качество распознавания выходит на стабильный уровень».

Конечно, за прошедшее время ситуация могла измениться — алгоритмы становятся совершеннее день ото дня. Но общий тренд остается прежним: короткие тексты детектировать довольно проблемно, а длинные, наоборот, дают больше оснований для корректного анализа.

*G. Gritsay, A. Grabovoy and Y. Chekhovich, «Automatic Detection of Machine Generated Texts: Need More Tokens,» 2022 Ivannikov Memorial Workshop (IVMEM), Moscow, Russian Federation, 2022, pp. 20-26, doi: 10.1109/IVMEM57067.2022.9983964

Почему разные детекторы дают разные результаты

Один и тот же текст может показать разные результаты проверки в зависимости от детектора. Причина проста: каждую систему создают разные команды под разные задачи, обучают на разных наборах данных и закладывают в нее собственное понимание того, как должен выглядеть «искусственный» текст. Это можно сравнить с автомобилями: все они едут, но различаются скоростью, комфортом и ценой.

Главная сложность в том, что объективно проверить вердикт детектора невозможно. Если в случае с плагиатом мы можем открыть источник и увидеть совпадение, то здесь все работает иначе. Детектор лишь выносит вероятностное суждение: текст кажется ему искусственным или нет.

Конечно, существуют признаки, на которые обращают внимание алгоритмы. Например, в сгенерированных текстах часто много «воды» — речь про длинные абзацы без конкретики. Могут встречаться логические несостыковки, когда концовка противоречит началу. Но проблема в том, что такие ошибки может допустить и человек.

Поэтому ни один детектор не дает стопроцентной гарантии. Чем больше признаков «машинного письма» встречается одновременно, тем выше вероятность, что текст сгенерирован. Но окончательный результат всегда остается вероятностным, а не абсолютным.

Кроме того, в реальности тексты редко бывают полностью сгенерированными или полностью написанными человеком. Чаще встречаются гибридные варианты, где часть текста сгенерировал алгоритм, а часть написал автор (и, скорее всего, потом это все еще и хорошенько отредактировал).

Со смешанными материалами детекторам работать сложнее. Во-первых, не все системы способны анализировать большие объемы, такие как полноценная дипломная работа на 50 страниц. Поэтому текст обычно разбивается на фрагменты, которые проверяются отдельно, а результат собирается воедино. Во-вторых, качество обнаружения генерации сильно зависит от того, насколько глубоко человек переработал исходный текст. Чем больше правок было внесено, тем меньше шансов, что детектор распознает искусственное происхождение. В принципе, можно сгенерировать материал полностью и так тщательно его переписать, что ни одна система уже не определит участие алгоритма. Это логично: если над текстом активно поработал человек, он стирает те самые „машинные следы“, на поиск которых нацелены методы детекции».

А еще детекторы можно попытаться запутать, используя специальные сервисы, которые «очеловечивают» сгенерированные тексты. Их задача — снизить вероятность того, что детектор определит текст как искусственный. Проще говоря, они повышают шансы пройти проверку.

Такие сервисы часто работают по принципу замены слов на синонимы. Иногда это приводит к курьезам. Например, в физике полупроводников есть термин „дырка“ — это строго научное понятие, связанное с проводимостью. А автоматический сервис может заменить его на слово „отверстие“, что полностью искажает смысл и выдает вмешательство программы».

Поэтому если и прибегать к помощи подобных инструментов, то после них крайне необходимо внимательно вычитывать и править текст, чтобы тот не потерял научную точность и выглядел убедительно.

Стоит ли преподавателям опираться на результаты ИИ-детекторов?

Одна из актуальных проблем с ИИ-детекцией — ложные срабатывания. Случается, что даже тексты Пушкина программы отмечают как «сгенерированные». И это еще ничего — доказать подлинность произведения классика просто. Гораздо сложнее, если детектор ошибочно пометил ваш собственный текст.

В такой ситуации доказать авторство постфактум почти невозможно. Эмоции и уверения „я писал сам“ редко помогают, поэтому к возможным подозрениям нужно готовиться заранее. Лучший способ защитить себя — сохранять черновики и промежуточные версии работы. Когда видно, как текст постепенно развивался от первых заметок и плана до итогового варианта — это сильный аргумент в пользу того, что работа действительно написана человеком. Особенно полезны инструменты вроде Google Docs, где автоматически сохраняются все правки с датами.

Еще один значимый маркер подлинности — список литературы. В поддельных текстах часто встречаются фиктивные или некорректные ссылки. Если же список составлен тщательно и содержит реальные источники, это весомый аргумент в пользу автора.

Рабочие заметки, наброски, ссылки на источники — все это формирует цифровой след, который работает на пользу автору. Чем больше таких материалов, тем убедительнее доказательство самостоятельной работы. Сейчас разрабатываются сервисы, которые смогут фиксировать процесс подготовки работы. По сути, это цифровое подтверждение того, что текст был написан человеком шаг за шагом, а не сгенерирован.

Сегодняшние детекторы текстов во многом устарели. Их главный недостаток в том, что они дают оценку — искусственный или человеческий текст перед нами, но не дают этому никаких объяснений. Между тем результаты опросов утверждают, что более половины студентов регулярно используют нейросети, поэтому ярлык „этот текст сгенерирован“ почти ничего не значит. Куда важнее другое — указывать конкретные слабые места работы: логические ошибки, повторы, слабую аргументацию. Это объективные критерии, которые полезны и автору, и проверяющему. Когда детекторы научатся делать такие разборы, это станет настоящим шагом вперед.

Сегодня элементы детекции уже встроены в системы поиска заимствований и даже в генеративные сервисы. Технически такое «встраивание» несложно, но вот вопрос справедливости остается открытым.

Поэтому ответ на вопрос «можно ли отчислить студента только на основании того, что детектор отметил его работу как сгенерированную» — скорее нет. Если текст действительно не соответствует теме, не содержит собственных результатов или оказался плагиатом — это веское основание для отказа. Но простая пометка «сгенерировано ИИ» не является доказательством.

Тем не менее показания детекторов стоит воспринимать как сигнал, на что обратить внимание и какие отдельные фрагменты работы стоит изучить внимательнее.


Опубликовано 09.10.2025

Похожие статьи