Аркадий Волож: «Поисковики как ракеты»
«Мы живем на планете, где кроме нас обитают еще семь миллиардов человек, из них два миллиарда пользуются Интернетом. А поисковых систем при этом сейчас всего шесть. Их все знают: сначала была Yahoo, потом Seznam, затем мы, за нами Google, корейская поисковая система, китайская Baidu и Microsoft Bing. Это более-менее условный список. То есть технология эта редкая, а пользуются ее многие», – рассказал Аркадий Волож, генеральный директор компании «Яндекс», в ходе встречи с прессой в Санкт-Петербурге.
«Поисковики – они как ракеты, – пояснил г-н Волож. – Все в школе учили, как работает ракета, но многие ли могут ее запустить? За системами поиска стоят два больших умения: способность пользоваться фундаментальной математикой плюс способность обрабатывать огромные объемы данных». Оказалось, что мало кому это по силам.
У компании «Яндекс», по словам г-на Воложа, целые «улицы» серверов: в основном ЦОДы расположены в Подмосковье, Рязанской области, а также в Европе и Америке. «Мы потребляем электроэнергию десятками мегаватт, с этой инженерией надо уметь работать, – отметил он. – На эти серверы надо сложить большие данные и уметь их обрабатывать. 10-20 терабайт данных сортируются на 230 стандартных серверах за 15-20 минут. Больших серверов в мире много, а вот чтобы перечислить компании, владеющие средствами оперирования огромными данными, хватит пальцев двух рук. И уж совсем мало тех, кто может сделать “математику” для обработки этих данных, создать алгоритмы. В компании “Яндекс” десятки команд работают в этом направлении».
Г-н Волож отметил, что хотя всех обучающихся по специальности Computer Science учат составлять алгоритмы, этих знаний обычно недостаточно. Поэтому компания «Яндекс» основала в 2007 году «Школу анализа данных» (ШАД).
«Интернет стал чуть ли не первой областью, где появилось много данных, которые требовали обработки, – сказал Аркадий Волож. – Второй такой областью стали финансы. Мы долго работали с большими данными, нарабатывали опыт, а потом стали смотреть вокруг – что еще можем сделать? Сейчас мы обрабатываем на наших серверах геологические данные, для компаний StatOil и Shell например. Нам удалось снизить время обработки данных сейсморазведки с 26 дней до 4 часов».
Рассказывая о сотрудничестве с Европейским центром ядерных исследований CERN, которому «Яндекс» предоставил свои вычислительные ресурсы и технологии, в том числе алгоритм машинного обучения «Матрикснет», Аркадий Волож пояснил, что это решение позволяет выполнять поиск по сложным запросам, когда в учет необходимо принимать множество критериев. С помощью этого алгоритма изучался распад мезонов в рамках эксперимента на Большом адронном коллайдере.
Аркадий Волож привел еще один пример. «В “Яндекс” обратилась команда, которая построила новую лодку – им надо было подсчитать гидродинамические процессы. Они рассчитывали по сетке 1000 на 1000 точек, а мы – миллион на миллион. В результате есть вероятность, что будет побит мировой рекорд скорости плавания», – подчеркнул г-н Волож.
По словам г-на Воложа, в мире используется все больше разнообразных датчиков, и если данные с сенсоров самолетов, например, обрабатывать и создавать оптимальную стратегию действий, то можно экономить 2–5% расходов на авиакеросин и запасные части, а это огромная сумма в мировом масштабе. «Данные – это кровь экономики, – подчеркнул он. – И только в двух регионах мира их умеют хорошо обрабатывать: это Силиконовая долина в США и конгломерат «Скандинавия+Россия+Израиль». Новая экономика – это фабрики по обработке данных, а не пластмасс и металлов».
«Мы открыли “Школу анализа данных” в 2007 году, уже было пять выпусков, подготовлен 251 специалист, – сообщила Елена Бунина, директор ШАД и HR компании «Яндекс». – Хотели открыть базовую кафедру, но ничего не получилось: предметы, что требовались “Яндексу”, преподаются редко. Собственно, поэтому и возникла мысль создать собственную школу. Сначала думали, больше 50 человек не наберем и больше 15 выпускников не будет, но когда дали объявление, через пару дней от желающих учиться пришло 300 анкет, и мы взяли 80 человек. На следующий год было 500 анкет, потом 800, впрочем, затем наступил спад. В этом году мы выпустили 81 студента». В будущем ШАД не планирует набирать больше 150 человек.
Что касается предметов, то первоначально студенты ШАД доучивают дискретную математику и теорию вероятностей. Затем штудируют программирование, методы обработки текстов и изображений. Обучение рассчитано на два года. В настоящее время в «Яндексе» работают порядка 200 выпускников ШАД. Отделения открыты в Санкт-Петербурге (совместно с Академией современного программирования), Минске и Киеве. Можно учиться и заочно. По словам Аркадия Воложа, на проект ШАД потрачено около миллиарда рублей.
Опубликовано 05.07.2013