Определяет ли Google тексты, написанные ИИ? Как это влияет на поисковую выдачу?

Логотип компании
Определяет ли Google тексты, написанные ИИ? Как это влияет на поисковую выдачу?
Изображение: ParinPix, Shutterstock
Издание SEO_AI в материале «Can Google detect ChatGPT? How does it affect rankings if recognized» внимательно изучило вопрос влияния того факта, что текст написан нейросетью, на его поисковую выдачу сервисом Google Search.

Могут ли алгоритмы Google определять, что текст написан не человеком, а нейросетью? Может ли Google Search сообщить об этом пользователю? Ответ тут и «да», и «нет», - утверждают аналитики издания SEO_AI.

Еще в 2022 году специалиста Google Джона Мюллера (John Mueller) спросили в интервью, отличает ли поисковая система ИИ-текст от текста, написаного человеком. «Я не могу утверждать этого», - уклончиво ответил тогда г-н Мюллер. Это интервью вызвало большой интерес и дебаты, потому что в ходе интервью Джон Мюллер сравнил контент, сгенерированный нейросетью, с автоматически генерируемым спамом. Тем не менее, в настоящее время Google такой позиции в отношении контента, сгенерированным ИИ, не придерживается — сейчас подобные тексты спамом, как показывает практика, не считаются.

Что же считается в Google спамом? Спам, по мнению алгоритмов Google, это контент, который был сгенерирован программно, не несет никакой оригинальной или новой информации, целью его создания была манипуляция уровнем поисковой выдачи, а не помощь пользователям. В противоположность высококачественному контенту, созданному людьми и обеспечивающему лучший опыт для пользователей с целью сохранения доверия к поисковой системе.

Тем не менее, в настоящее время ИИ используется не только и не столько для создания спама. Часто авторы применяют его для создания полезного для пользователей контента. Таким образом, довольно сложно отличить контент, созданный только для манипуляции поисковой выдачей, от полезного контекта, созданного с помощью нейросети.

Как алгоритмы Google могут отличать тексты, созданные человеком, от текстов, созданных с помощью нейросети? Для этого авторы SEO_AI углубились в особенности работы больших языковых моделей. Такая модель работает на основе вероятностей : ставит следующее слово в предложении, базируясь на слове предыдущем и размещая вслед за ним слово с максимальной вероятностью. Для этого анализируются схемы и статистика языка на базе огромных объемов текста. Таким образом большая языковая модель генерирует вполне натурально звучащие предложения. Но уже появились приложения-тестеры, например, GLTR (Giant Language model Test Room), которые определяют, кто был автором текста — человек или ИИ. Человек, очевидно, куда менее предсказуемый автор. Приложение создано в сотрудничестве MIT-IBM Watson AI lab и Harvard NLP.

В GLTR текст анализируется на основе входит ли каждое следующее слово в предложении в топ-10 вероятностных, топ-100 вероятностных, или топ-1000 и менее вероятностных, потом создается распределение вероятностей для текста, после чего становится очевидно, кто автор. Есть еще один инструмент GPT-2 Output Detector Demo компании Huggingface. Очевидно, что количество подобных инструментов будет только расти, и в целом выявление текста, написанного с помощью ИИ, не является большой проблемой. Впрочем, по мере совершенствования ИИ применение слов будет, вероятно, все менее прямолинейно определенным.

По некоторым сведениям, OpenAI, крупнейший разработчик ИИ, работает и над тем, чтобы предоставлять поисковым системам инструменты, распознающие работу нейросетей и ставящим специальный «водяной знак» на подобные тесты, не вмешиваясь собственно в поисковую выдачу.

В целом, как было уже указано выше, в Google фокусируются на том, чтобы контент был полезным, и только потом на инструменте его создания, разве что помечая текст, созданный с помощью ИИ, специальным знаком для справки пользователю. 

При этом в SEO-сообществе в отсутствие официальных заявление от Google в настоящее время представлены три точки зрения: 1) Google определяет, был ли текст написан с помощью нейросети, и это негативно влияет на поисковую выдачу; 2) Google определяет — как было указано выше, это не слишком сложно, но на выдачу это не влияет; 3) Google вообще не определяет, был ли контент создан с помощью ИИ.

‍Точный ответ пока неизвестен, мы в IT-World внимательно следим за темой.

Опубликовано 06.12.2024

Похожие статьи