Нейронные сети для нетривиальных задач в области компьютерного зрения

Системы помощи водителю, распознавание лиц и различных объектов, разработка собственных архитектур сетей

Системы помощи водителю (ADAS)

Одной из самых распространенных задач компьютерного зрения, где сейчас применяются нейросети, является система помощи водителю или даже полностью автономного вождения. Google, Tesla, Uber и другие корпорации работают в этом направлении. Свой интерес демонстрирует большинство крупных компаний. Так, даже Apple, не связанная с данной тематикой, заявила, что хочет выпустить в ближайшем будущем беспилотный автомобиль. В рамках этой темы существует много подзадач с самыми разными решениями. Тему лидаров и радаров и связанные c ними вещи в этот раз опустим, хотя они необходимы для полностью автономного вождения. Подробно остановимся на технологиях компьютерного зрения, так как именно они являются основополагающими в ADAS и автономного вождения.

С точки зрения компьютерного зрения, в ADAS обычно решаются следующие задачи: обнаружение (детекция) и классификация различных объектов и семантическая сегментация дорожных сцен. Результат работы детекции – это, как правило, обведенные описывающими прямоугольниками объекты.

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 1

На изображении показаны результаты детекции и классификации. Так работают алгоритмы семейства SSD (Single Shot Detector). Они называются так по понятной причине – здесь на выходе решаются обе задачи и для всех объектов, причем всё это за один прогон алгоритма. С удобством подхода связана его популярность в детекции. А еще пару лет назад всё это разбивалось на этапы: отдельно локализация, отдельно классификация, а перед этим еще и подготовка, возможно, ручное проектирование признаков и прочее. На каждом этапе появлялись свои сложности, приходилось постоянно что-то пробовать и подкручивать, поэтому с приходом свёрточных нейронных сетей все вздохнули свободнее – сети, созданные специально для изображений, автоматически находят наилучшие признаки для работы при правильном проектировании сети и тренировке. А с приходом SSD-подходов проблем стало значительно меньше (добавились, правда, новые, но в целом стало существенно проще и точнее).

На изображении (см. рисунок) – пример работы нашей системы на дорожной сцене из Южной Кореи. На нем алгоритм ищет машины, людей и дорожные знаки. Обычно это минимальный набор, интересующий всех. Имея информацию о расположении этих объектов, можно предупреждать засыпающего водителя об опасном сближении, помогать заметить пешехода и не превышать скорость. Мы также применяли эту информацию для адаптивного круиз-контроля, когда автомобиль старается держать дистанцию до впереди идущего автомобиля. Обычный круиз этим и неудобен: при сближении его приходится отключать и переходить в ручное управление, а при помощи радара и информации с камер можно автоматически регулировать скорость.

Пример работы нашей системы на кадре с Западного Скоростного диаметра Санкт-Петербурга:

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 2

Снизу можно наблюдать результат классификации дорожных знаков. Классификацию выполняет отдельный модуль, что дает возможность легко варьировать набор классов. Здесь мы ищем только знаки ограничения скорости и фильтруем ошибки SSD-алгоритма, но эти классы можно расширить.

На кадрах – алгоритмы, рассчитанные на работу на очень слабых устройствах, уровнем чуть сильнее смартфона. Это вносит огромное количество ограничений, ведь нейросети – крайне тяжелые алгоритмы, для одного прогона нужно выполнить от миллионов до сотен миллионов операций, поэтому разработка решения для реального времени требует опыта и мастерства.

Стоит отметить, что эти решения устаревают очень быстро. Можно разработать ПО, а через неделю выйдет прорывная статья, на основе которой можно сделать что-то в разы эффективнее – и быстрее, и точнее. Нужно постоянно «держать руку на пульсе» – читать все новые статьи буквально каждый день (ну уж каждую неделю точно) и анализировать чужие успехи. Существует мнение, что программирование – это область, где все происходит очень быстро, поэтому все учебные программы устаревают моментально и могут быть неактуальны уже через год. Так вот отрасль искусственного интеллекта (ИИ) – это еще более изменчивая область, если сравнивать даже с программированием.

Помимо перечисленных ADAS-задач актуален вопрос поиска дорожной разметки. Любой водитель понимает, что при хорошей разметке знаки практически не нужны, разметка гораздо нагляднее. Поэтому в компьютерном зрении тоже хотелось бы собирать и анализировать эту информацию. Мы такую систему разрабатывали, основываясь на самых современных методах, в том числе семантической сегментации. Вот пример работы системы:

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 3

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 4

На первом изображении результат семантической сегментации, который потом обрабатывается специальными алгоритмами, чтобы получить координаты линий.

Системы помощи водителю должны не только находить объекты, но и понимать общую обстановку. Когда небольшого набора классов недостаточно и хочется учитывать контекст, как это делает человек, в дело вступает семантическая сегментация. Результатом ее работы является присвоение каждого пикселя на фотографии определенному классу.

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 5

Здесь наша система ищет дорогу, автомобили, здания, деревья и тротуар. Это всё только лишь по одному снимку, никакой дополнительной информации! Алгоритмы учитывают не только внешний вид объектов, но и их взаимное расположение, что гораздо ближе к человеческому мышлению, чем формальный поиск внешне похожего, как это делают SSD-подходы.

Как можно видеть на рисунке, сегментация имеет и недостатки. Например, все автомобили отмечены одним большим пятном. Этого достаточно, чтобы не врезаться, но может быть мало, чтобы, например, припарковаться. Поэтому существуют и специальные комбинированные подходы – на выходе таких алгоритмов есть и сегментация, и описывающие прямоугольники:

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 6

Самая известная сеть для такого подхода – это Mask-RCNN, она является, по сути, алгоритмом SSD, дополненным сегментацией.[r1] Преимущества велики, но и минусы существенны: данные для такой сети необходимы более сложные (с точки зрения их сбора и обработки), чем для других алгоритмов, а сами сети работают медленнее. Но бывает, что высокие скорости не требуются, например, для распознавания тигров в заповеднике.

Тигры, как люди

По всей территории Дальневосточного заповедника амурского тигра расставлены фотоловушки, которые фотографируют оказавшихся в кадре тигров. Данные собирают и по уникальному рисунку шерсти определяют, что это был за тигр и как он передвигался по заповеднику. Вручную это делать очень долго, поэтому сотрудники заповедника захотели использовать автоматическую систему. Если ADAS – это очень распространенные и даже немного рутинные задачи, то этот проект уникален.

Для разработчиков здесь две основные задачи. Во-первых, нужно убедиться, что на фотографии тигр, потому что в кадр может попасть и другой зверь. Во-вторых, тигра надо аккуратно обрезать на фотографии, чтобы понять, что это за тигр. После всех этих операций тигра надо сравнить с базой для определения разновидности.

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 7

Пример из фотоловушки

В кадр могут попасть несколько тигров, поэтому для детекции мы применяли описанный выше подход Mask-RCNN. Вот результат его работы:

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 8

Сравнить тигров между собой, чтобы понять, какой тигр из фотоловушки какому тигру в базе соответствует, – не тривиальная задача. Мы попробовали и обдумали множество подходов, в том числе «старый» с ваучерами (раньше такие задачи решались, по сути, попыткой сравнения каждой полоски) и пришли к интересной идее. Для тигров мы использовали наработки для распознавания лиц. Сейчас на основе этого подхода разрабатываются системы идентификации человека в России, в Китае и в других странах. Алгоритм называется Facenet, разработка Google. Суть в том, что нейросеть обучается различать лица между собой, выделяя нужные признаки. На выходе такого алгоритма получаются значения признаков, закодированные в некое N-мерное пространство, что позволяет набор для одного лица сравнивать с набором для другого, просто взяв расстояние между ними в этом пространстве. Чем дальше наборы, тем больше лица различаются.

Мы адаптировали этот подход для сравнения тигров и их полосок на шкурах. Самой серьезной проблемой была нехватка данных – в миллионы раз меньше, чем для лиц. А новые было тяжело собирать: не везде полоски видно, вариантов поз и ориентаций больше, качество снимков с фотоловушек часто неудовлетворительное, особенно ночью. Но в итоге у нас получилось, и нейросеть научилась «смотреть» на полоски. Это очень интересный опыт, насколько нам известно, нейросетевые подходы для опознавания личности животного еще не применяли.

Впоследствии мы сделали для этой системы еще и симпатичный веб-интерфейс.

Нейронные сети для нетривиальных задач в области компьютерного зрения. Рис. 9

Сегментация в медицине

В мире компьютерного зрения и сверточных нейросетей задачи классификации считаются практически решенными, а задачи детекции – детально разработанными и исследованными. Для основы хорошего решения задачи классификации или детекции нужен только хороший набор данных (для выдающегося результата, конечно, понадобятся еще опыт и чутье). Сегментация требует залезать «под капот» гораздо чаще. Её промышленное применение ограничивает лишь то, что она значительно медленнее детекции, но вопросы производительности будут решены со временем.

Сегментация востребована в медицинском компьютерном зрении, например, для распознавании рентгеновских снимков. Этот важный метод обследования поставлен на поток, однако для грамотной интерпретации нужен опытный специалист, чья подготовка занимает долгие годы. Идея обучить компьютер и снять эту задачу с человека активно развивается, и прямо сейчас, например, на Kaggle проходит очередное соревнование по распознаванию на снимке пневмонии. Заболевание может протекать скрыто и входит в список наиболее частых причин смерти в мире, поэтому точность диагностики актуальна как никогда.

В сфере медицины мы работаем над одним проектом, который включает в себя сегментацию медицинских изображений в реальном времени на слабом устройстве (для этого готовые сегментационные решения совершенно не подходят). Для решения задачи мы взяли самую популярную и хорошо зарекомендовавшую себя в области медицинских изображений сеть – Unet. Этот алгоритм успешно решает множество задач бинарной сегментации, но скоростью не радует – даже на небольшом разрешении работает по полсекунды и дольше. Поэтому мы переработали архитектуру с учетом более современных идей.

Авторы ряда статей пишут об ускорении работы нейросетей благодаря использованию уже готовых или тривиально создаваемых слоев (это очень важно для последующей развертки). К таким архитектурам относятся ResNeXt, SqueezeNext и MobileNetV2. Особенно известен MobileNet, созданный в Google, – сейчас с этой архитектурой работает едва ли не большая часть современных решений для слабых устройств. SqueezeNext, и Mobilenet можно оптимизировать, задействовав более эффективные для мобильных платформ слои, комбинируя мелкие свертки, специальные соединения слоёв и т.д.

Мы отобрали лучшие идеи, провели множество экспериментов, проверили собственные гипотезы и в итоге получили очень быстрый и маленький Unet, который назвали LUnext (Light Unext). В этой сетке всего два миллиона параметров, и она работает примерно в пять раз быстрее, чем оригинал, конечно, немного уступая в точности. Но выигрыш в скорости перевешивает этот недостаток.

Сервер вместо Data Scientist

Среди задач в сфере машинного обучения встречаются весьма экзотичные. Один раз нас попросили написать сервер, который бы принимал данные и максимально автоматически тренировал на них нейросеть. Конечно, это невозможно – тренировкой должен заниматься квалифицированный специалист. Он принимает решения, исходя из своих знаний, а иногда опирается только на опыт. В этой области искусственного интеллекта многие решения субъективны и интуитивны, поскольку все нюансы, как и почему это работает, человечеством до сих пор не изучены. Все гиперпараметры, решения о тренировке, валидации и тестировании – всё, вплоть до субъективных решений при разметке данных, специалист делает на свой страх и риск.

В нашем случае заказчик утверждал, что его устроит базовое решение, когда сеть сходится минимально и шлифовка (fine-tune) результата не выполняется. Грубо говоря, лишь бы работало. Мы написали такой сервер, оставив в программном интерфейсе для управления минимум опций. Остальные гиперпараметры вычисляются из данных, а если вычисление невозможно, производится попытка угадать что-то близкое. Это сработало на удивление неплохо, хотя до серьезных индивидуальных результатов и не дотянет.

Сфера возможного использования нейросетей, конечно, куда шире, чем в нашем обзоре. Бизнес всё чаще интересуется методами искусственного интеллекта, а значит, в ближайшем будущем автоматизация многих консервативных областей будет более активной.

Михаил СМИРНОВ,

технический директор ООО «Системы компьютерного зрения» (ГК ЛАНИТ)

Максим КУПРАШЕВИЧ,

руководитель группы машинного обучения ООО «Системы компьютерного зрения» (ГК ЛАНИТ)

[r1]Поправила

Журнал IT News

Опубликовано 05.10.2018

Ланит Рынок ПО Искусственный интеллект AI Нейронные сети

Предыдущая
Digma DiCam 72C и 4К FreeDrive Action: сестры-экстремалы

Следующая
Windows 10 самостоятельно удаляет файлы

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30