Пока не началось восстание машин

С бурным развитием методов машинного обучения и началом их применения на практике возник вопрос: насколько мы можем доверять получаемым компьютерами результатам?

В октябре 2016-го Сбербанк, чья IT-команда, пожалуй, сильнейшая на российском рынке, объявил конкурс по Big Data, в котором поучаствовал и я, заняв почетное (или позорное, называйте как хотите) 98-е место. Такого рода конкурсы, начавшись на Западе, приживаются и у нас: за год до сберовского подобное соревнование проводил уже, к примеру, «Билайн». Цель – поднять волну интереса к технологиям машинного обучения, стимулируя прилив студентов на соответствующие специальности. Ну и найти суперзвезд себе в штат – в стиле советской передачи «Алло, мы ищем таланты!».

Нужно сказать, что в области машинного обучения мы достаточно достойно смотримся на мировом фоне: в топе интернет-площадки № 1 для соревнований Kaggle полно русских фамилий, а гуру и безусловный авторитет Константин Воронцов из МФТИ (он тоже выступал с докладом на тусовке Сбера по итогам конкурса) – профессионал мирового уровня.

Область стремительно развивается. Пресса, конечно же, в основном обращает внимание на рекорды вроде победы суперкомпьютера от Google в матче по го над чемпионом мира Ли Седолем или машинного распознавания иероглифов, но работа идет и во множестве гораздо более мелких вопросов, приближенных к повседневной жизни. Это и диагностика в медицине, и оптимизация процессов в разнообразных бизнесах, например банковский скоринг (определение вероятности возврата кредита заемщиком по данным заполнения анкет с учетом даже того, что данные могут быть неверными), и совершенствование муниципальной инфраструктуры, сферы оказания услуг населению, и, конечно же, распознавание образов и машинное зрение. Продукт машинного обучения, самоуправляемые автомобили, хотя ими пока и не полны улицы городов, уже не вызывает такого ажиотажа, как всего несколько лет назад.

Так чем же занимается машинное обучение?

Любая наука в своем становлении проходит три этапа. Первый – простое собирание фактов, например описание свойств всевозможных веществ или видов растений и животных. Затем – систематизация этих данных, например периодическая таблица элементов Менделеева, классификация живой природы Карла Линнея. И наконец, попытки проникнуть в суть вещей, глубинных законов, которые и приводят к столь широкому разнообразию всего и вся в природе. Почти всегда эта последняя стадия составляет предмет уже других наук – в нашем случае квантовой физики и теории эволюции и микробиологии, а по сути – математики (ей дальше отступать уже некуда, звание царицы наук обязывает).

Однако далеко не во всех областях мы можем дойти до третьего, триумфального этапа. Это может оказаться просто не по зубам современному состоянию науки! И тогда на помощь приходит машинное обучение. По сути, это есть просто способ (в самом широком смысле слова) установить закономерности, математические связи между совершенно разными явлениями и фактами с целью понять и количественно, то есть формулами, описать их природу. Скажем, между преступностью и уровнем образованности населения, доступностью всякого внешкольного рода занятий и количеством, расположением и графиком работы точек реализации спиртного и табака. Или между семейным положением, количеством трудоустройств гражданина и числом его дальних поездок и перелетов в год для вычисления вероятности того, что он вовремя погасит долги.

Представим, что люди с голубыми глазами и светлыми волосами лучше других возвращают банковские кредиты (пример, конечно, искусственный). Наука о данных выловит эту закономерность и поставит на пользу банку, рекомендуя охотнее работать с этой категорией населения. Но объяснить этот феномен, то есть построить модель голубоглазого блондина… Бог в помощь.

Руководитель проекта Google Translate заметил как-то, и это шутка, в которой очень большая доля истины: «Всякий раз, когда я увольняю одного лингвиста, качество перевода улучшается». То есть, несмотря на наличие большого количества математических лингвистических моделей (работам Н.Хомского, скажем, уже больше 50 лет!), машинные методы бьют теоретический подход всухую.

Пока не началось восстание машин. Рис. 1 — Тихо Браге

Известная максима «Знание некоторых принципов легко возмещает незнание некоторых фактов» что парадоксально, превращается в свою полную противоположность. Компьютеру принципы пока недоступны, но он с лихвой перекрывает это изобилием фактов, которые ему скармливают для поиска закономерностей!

Пример из книги Педро Домингоса “The Master Algorithm”. Три достойных мужа рода человеческого обогатили наши знания о мире:

• Тихо Браге, датский астроном. Составил точнейшие для своего времени каталоги движения планет.

Исаак Ньютон

• Иоганн Кеплер. На основе данных Тихо Браге вывел три закона (законы Кеплера), которым движение планет подчиняется.

• Исаак Ньютон. Сформулировал закон всемирного тяготения, из которого законы Кеплера следуют прямым аналитическим путем, и построение небесной механики состоялось и приобрело законченный вид.

Что вышло бы, подключи мы к этому процессу машинное обучение? Компьютер воспользовался бы исходными данными Тихо Браге и заменил собой Иоганна Кеплера, самостоятельно выведя три его закона как наиболее точно аппроксимирующие информацию о движении планет.

До гения Ньютона компьютер (пока, во всяком случае) не дотянулся бы. Но делать расчеты и предсказания можно и на этой основе, не понимая глубинной природы вещей.

Далекое зарево проблемы

С бурным развитием методов машинного обучения и началом их применения на практике возник проклятый вопрос: насколько можно доверять получаемым компьютерами результатам? На сегодняшний момент решение этой проблемы выглядит так.

Компьютерный алгоритм должен изложить «ход своих рассуждений», если можно так выразиться, языком, понятным хотя бы специалисту в данной отрасли. Трудно сказать, насколько такое требование будет гирей на ноге компьютера, хотя некоторые моменты в работе таких алгоритмов мы уже понимаем с трудом или не понимаем совсем. Нашумевшее сообщение о программе Google Translate, которая, обучаясь на образцах параллельных текстов на разных языках, в конце концов выработала свой собственный внутренний алгоритм, уже настораживает. Едва ли люди захотят разбираться, как компьютер делает это. Но требование «интерпретируемости результата», которое в Европе хотят ввести законодательно для тех отраслей, от которых зависит жизнь (экспертные медицинские системы), есть хотя бы попытка как-то подступиться к будущим проблемам, когда мы возложим на компьютерные программы важные аспекты жизнедеятельности общества. Так, компьютер, оснащенный программой диагностики рака, в случае постановки положительного диагноза будет обязан изложить свои аргументы: скажем, привести примеры больных с подтвержденным заболеванием и близкими анализами или что-то в этом роде, убедительное для опытного врача-диагноста.

Это – пока лишь далекое зарево проблемы. Но я, честно говоря, не думаю, что когда мы столкнемся в полный рост с невозможностью понять, каким путем компьютер пришел к тем или иным выводам, то только по этой причине откажемся от его предсказаний. Просто потому, что они будут нечеловечески точны, конкретны и эффективны.

Между прочим, это одна из областей (наряду, к примеру, с робототехникой и методами научных изысканий с применением компьютеров), где мы вплотную подходим к вопросам соотношения человеческого и машинного интеллекта – проблеме поэтически известных «восстания машин» и перехода прогресса от биологического на машинный уровень и пр. В машинном обучении столкновение с этими непростыми вопросами происходит во многих направлениях.

Компьютерное обучение порождает проблемы, которые уже и сейчас можно отнести к моральным. Тот самый пример – точность предсказаний в чувствительных областях, таких как диагностика заболеваний. Поскольку ситуация «болен/здоров» совершенно несимметрична и, к счастью, смещена в область здоровых индивидуумов, то ошибки поставить здоровому диагноз, что он болен, а больному, что он здоров, совершенно неравнозначны! В случае сомнений можно просто отправить пациента на повторные анализы, возможно, с использованием других методик.

Не все результаты этой науки так уж приятны для человека. Ну если по мелочи, то (анонимный) анализ перемещений людей по городу на основе данных регистрации их мобильных телефонов на вышках сотовых операторов показывает, что подавляющее большинство наших сограждан ходит одними и теми же дорожками большую часть своей жизни. Одними маршрутами ездит на работу и с работы и даже в одно и то же время одного и того же выходного дня одним и тем же путем обходит прилавки однажды и навсегда выбранного ими супермаркета при покупке продуктов на неделю. Одна из задач (самая простая) конкурса Сбербанка состояла в том, чтобы по профилю трат денег с кредитной карты (анонимизированному, понятно!) определить пол человека. То есть для какого-то количества людей, на котором алгоритмы настраивались и искали закономерности, пол был известен, а для остальной части его нужно было предсказать. Итог обескураживает. Лучший результат и первое место – правильное определение пола более чем в 91% случаев! Причем если вдуматься, то реальный показатель еще выше, поскольку в 9% ошибок вошли варианты, когда жена постоянно пользуется кредиткой мужа, двигаясь по магазинам с недостижимой мужчинами скоростью примерно 35 000 руб./час. Тут возникают вопросы, не есть ли возможность выбора и свобода воли человека некоторая внушаемая ему иллюзия, раз мы (подавляющее большинство из нас) настолько предсказуемы в своем поведении? Просто окружающий мир, а точнее, социум очень ненавязчиво, но чрезвычайно эффективно профилирует и даже предпрограммирует наше поведение вплоть до мелочей. Но это вопрос другого исследования.

Можно сказать, что наука о данных расширяет наши знания о мире и ставит вопросы, которые потом потребуют уже осмысления совсем других наук и на совершенно другом уровне представлений о мире. А пока можно использовать добытые машинным обучением данные во благо бизнеса, общества и вообще всех сторон существования в этом мире. Не забывая о подводных камнях.

Журнал IT Expert [№ 07-08/2017] Подписка на журналы

Опубликовано 11.07.2017

Предыдущая
Естественный отбор, или О том, как слышать

Следующая
Samsung тоже разрабатывает умные колонки

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30