Издержки и задержки поиска

Логотип компании
12.07.2010
Поисковые компании борются с задержками. Однако новые технологии отчего-то сильно напоминают хорошо выдержанные старые…

Летом, когда рассказать особо не о чем, да и не кому (все в отпусках), поисковые компании, пиаря себя, хватаются за каждую технологию, как за спасительную соломинку. При этом похожая технология, используемая конкурентом, игнорируется. Известно же, что бревно в чужом глазу, доставляет гораздо меньше неприятностей, чем соломинка в своем собственном.

9 июля компания «Яндекс» объявила о том, что специалисты ее американского офиса разработали нового поискового робота, названного Orange. Это очень трудолюбивый робот. Он, как сообщает компания, «работает в режиме реального времени». В отличие, вероятно, от других поисковых роботов, используемых «Яндексом». Те, возможно, не приступают к поискам сразу, а только выпив чашечку виртуального кофе, или после того, как обсудят с коллегами последние сплетни в глубоко законспирированной социальной сети, объединяющей роботов-поисковиков.

«Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек», — описывает «Яндекс» обязанности трудоголика Orange.

В московском офисе Google, ознакомившись с пресс-релизом «Яндекса» отметили, что американская компания использует такую технологию уже давно. В доказательство был предоставлен пресс-релиз полугодовой давности. Не исключено, впрочем, что схожесть технологий мнимая, и проблема заключается в пиаре, который у разных поисковых компаний выглядит подозрительно похожим.

Вот что написал «Яндекс» 9 июля:

«Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти в том числе и документы, которые были созданы только что. Чтобы хорошо отвечать на такие запросы, «Яндекс», во-первых, научился выявлять их среди общего потока, и во-вторых, внедрил нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.»

А вот, текст, разосланный пресс-службой российского офиса Google 12 февраля:

«Если вам когда-нибудь приходилось искать информацию о событии, которое только что появилось в лентах новостей, например, землетрясение на Гаити или открытие игр в Ванкувере — вы знаете, как важно иметь возможность следить за новостями в режиме онлайн. Сегодня Google объявляет о поддержке функции «Прямо сейчас» в русскоязычном поиске на google.ru. Она позволяет показывать в результатах поиска динамический поток новостного контента, публикуемого в Интернете. Теперь, запустив поиск, вы увидите заголовки новостей и блог-постов, опубликованных всего несколько секунд назад…»

Справедливости ради корреспондент IT World обратился и к компании Mail.ru, которая с недавнего времени опирается на свои собственный поисковые технологии.

Владислав Шабанов, руководитель поисковых проектов Mail.Ru, так прокомментировал заявление «Яндекса»:

«Наш анализ показывает, что тексты новостей дают, как правило, наиболее релевантные ответы на запросы, связанные с текущими событиями. Поэтому мы для таких запросов добавляем в результаты поиска ссылки на соответствующие новости. Это простая, но эффективная технология.

Разумеется, мы уделяем серьезное внимание и общей свежести поисковой базы, и частоте её обновления. Поиск@Mail.Ru ищет информацию как в большой базе, так и в базе новостей, которая обновляется раз в несколько минут, и задержка в несколько часов в обновлении большой базы сказывается на совсем небольшом количестве запросов.»

Выводы: С одной стороны поиск штука «простая и эффективная». При этом при прочтении пресс-релизов о развитии поиска, возникают непростые вопросы, о трудовой дисциплине роботов-поисковиков. Кроме того, начинаешь верить в сказку о том, что в случае необходимости в интернете найдется все. И новая технология и старый пресс-релиз.