Распознавание лиц для бизнеса включает в себя использование технологий для повышения безопасности организаций и коммерческих организаций с целью улучшения качества обслуживания клиентов, а также повышения эффективности работы. Технология распознавания лиц использует компьютерные алгоритмы для идентификации авторизованных лиц по их лицу. Распознавание лиц для бизнеса помогает следующим образом:
- Обеспечение лучшего контроля доступа
- Контроль рабочего времени и посещаемости
- Обеспечение аутентификации клиентов
- Улучшение авторизации платежей
- Улучшение безопасности и видеонаблюдения
Если вы являетесь руководителем предприятия и задаетесь вопросом, что за шумиха поднялась вокруг этой новой разработки и есть ли в ней какая-то польза, мы поможем вам. В этой статье мы рассмотрим историю распознавания лиц, его развитие, текущее использование, противоречия, внедрение и многие другие аспекты. К концу курса вы будете иметь полное представление о том, что представляет собой технология распознавания лиц и каковы ее последствия для бизнеса, в том числе:
- Точность распознавания лиц
- Применение распознавания лиц
- Сравнение популярных API для распознавания лиц
Давайте начнем!
Эволюция распознавания лиц
При всей шумихе и освещении в СМИ вокруг распознавания лиц эта технология существует уже довольно давно. Первой серьезной алгоритмической работой по распознаванию лиц стала программа Viola-Jones Object Detection Framework, опубликованная в 2001 году. Несмотря на то, что это был универсальный фреймворк для идентификации объектов на изображениях, он был быстро применен для распознавания лиц с очень хорошим успехом. Основной причиной популярности этого алгоритма стала его скорость: в то время как процесс обучения был мучительно медленным, процесс обнаружения был чрезвычайно быстрым. Уже в 2001/2004 годах средний настольный компьютер с этим алгоритмом мог обрабатывать кадр размером 300px X 300px за 0,07 секунды (подробнее здесь). Показатели точности, хотя и не сравнимые с человеческими, были впечатляющими – 90 %. Однако настоящий прогресс был достигнут лишь в 2010-2020 годах, когда конволюционные нейронные сети стали лучшим методом распознавания лиц. Причиной тому стала доступность сырой вычислительной мощности и гигантской системной памяти, которые стали доступны благодаря облачным вычислениям, предоставляемым провайдерами инфраструктуры как услуги (Infrastructure-as-a-Service, IaaS). Впервые в истории компьютеры стабильно побеждали людей в распознавании лиц, особенно когда речь шла о большом количестве случайных лиц.

Как работает распознавание лиц?
Распознавание лиц – это многоступенчатый процесс, в котором участвуют несколько специализированных подсистем.

Вот что означают различные этапы:
Обнаружение / отслеживание: Эта часть этапа предварительной обработки отвечает за идентификацию и отслеживание лиц в заданном изображении или видеофайле. Как только этот процесс завершен, мы точно знаем, что в исходном материале есть лицо, и его можно обрабатывать дальше. Этап отслеживания также отвечает за отслеживание определенных частей, особенностей или выражений лица, если это необходимо.
Выравнивание: Проблема распознавания лиц усугубляется тем, что лица на данном изображении или видео не подчиняются никаким правилам. Лицо может быть увеличено или уменьшено, выглядывать из-за дерева или присутствовать в боковом профиле, что еще больше усложняет задачу распознавания лиц. Именно здесь на помощь приходит выравнивание лица: оно подсказывает, где на данном изображении/видео находится лицо и каковы контуры его черт.

Извлечение признаков: Как следует из названия, на этом этапе процесса (сейчас мы находимся на этапе распознавания) отдельные черты лица, такие как глаза, нос, подбородок, губы и т. д., извлекаются в форме, которую алгоритмы могут использовать на следующем этапе. На этом этапе компьютер собрал достаточно сложных данных, чтобы однозначно отличить лицо.
Сопоставление/классификация признаков: На этом этапе данные, полученные в результате извлечения признаков, сопоставляются с заданной базой данных, чтобы установить личность человека. Этот этап также известен как классификация, поскольку алгоритм может потребоваться для категоризации лиц, а не для их индивидуальной идентификации. По окончании этого процесса мы точно знаем, является ли данное лицо частью базы данных, с которой мы сравнивали, или нет. Конечный результат также может содержать метки, как мы привыкли видеть на Facebook.

Соображения по развертыванию: Серверная сторона и клиентская сторона. Распознавание лиц может работать как на сервере, так и на устройстве, с которым взаимодействует пользователь. Например, когда вы загружаете фотографию в Facebook, алгоритмы работают на стороне сервера; с другой стороны, система идентификации, использующая ваше лицо для разблокировки устройства, должна работать на стороне клиента. Так какой же вариант лучше? Честно говоря, дело не в том, какой вариант лучше. И серверное, и клиентское развертывание имеют свои преимущества; на практике предприятия развертывают гибридную систему. Рекомендуется обучать модели на стороне сервера, где учебные данные и ресурсы обработки не ограничены. После обучения моделей их можно упаковать и развернуть на стороне клиента, что повышает скорость работы системы, а также сохраняет конфиденциальность пользователей. Отправка всего на сервер влечет за собой задержку, которая в некоторых случаях может быть плохой или неприемлемой. В то же время, если держать все на стороне клиента, это приведет к созданию более слабых моделей.
Насколько точно распознавание лиц?
Точность – не совсем точное понятие в распознавании лиц. Основная причина заключается в том, что это нечеткая задача со всевозможными искаженными входными данными (плохое освещение, лицо частично закрыто волосами, качество камеры и т. д.) и даже обманчивыми входными данными (подробнее об этом позже!). В результате нейронные сети, используемые для распознавания лиц, должны быть настроены на конкретную задачу, что ограничивает их возможности. Так, если промышленная система распознавания лиц может похвастаться 100-процентной точностью (что часто и происходит), то эта же система может оказаться неточной даже на 20 %, когда ее попросят идентифицировать лица на фотографии в толпе. В одном из исследований определенный тип алгоритма распознавания лиц смог достичь точности 98,52 %, что выше, чем точность человека в 97,53 %, достигнутая в том же тесте. В другом исследовании, проведенном в области криминалистики, сочетание человеческого мнения и алгоритмов в некоторых случаях давало наилучшие результаты. В итоге для целенаправленных, четко определенных приложений распознавание лиц – лучший инструмент, который у нас есть.
Где используется распознавание лиц?
Даже за тот короткий период, пока были разработаны жизнеспособные алгоритмы, распознавание лиц нашло невероятно полезное и захватывающее применение. Некоторые из них бросаются в глаза, а некоторые настолько тонко и фундаментально вплетены в повседневную жизнь, что мы едва ли задумываемся о том, что скрывается за ними.
Facebook – это, пожалуй, самый распространенный пример работы современных систем распознавания лиц. Как только вы загружаете фотографию, социальная сеть начинает распознавать лица. Если некоторое время назад вас просили отметить друзей, то теперь Facebook способен сделать это самостоятельно.

Новое классное приложение от Facebook – функция информирования пользователей о том, что кто-то загрузил фотографии с их лицами, даже если они не были отмечены на этих снимках.
Snapchat активно использует функцию распознавания лиц для многих своих функций, в частности, для смешных фильтров, которые так популярны.

Чтобы эти фильтры работали, контуры и черты лица объекта должны быть определены идеально, иначе наложения не будут выглядеть реалистично. То же самое можно сказать и о Face Swap, еще одной популярной функции Snapchat. Если вам интересно узнать больше о возможностях Snapchat в области распознавания лиц, смотрите.
Uber уже давно борется с проблемами конфиденциальности и безопасности, и новейшим оружием в арсенале компании стало распознавание лиц. Компания запустила новую функцию, в которой личность водителей-партнеров проверяется по их лицам. В своем блоге компания сообщает, что после тестирования нескольких поставщиков технологий распознавания лиц, они остановились на Microsoft Face API из-за его высокого качества. Интересно, что эта проверка личности в режиме реального времени хорошо работает в условиях недостаточной освещенности и способна распознавать очки.

Учитывая, что распознавание лиц успешно работает в естественных условиях, легко предсказать, что вскоре оно заменит другие методы идентификации в учебных заведениях, больницах, библиотеках и т. д.
Предотвращение преступлений в розничной торговле – естественное продолжение применения системы распознавания лиц. Ежегодно розничная торговля теряет около 45 миллиардов долларов из-за магазинных краж и других преступлений в сфере розничной торговли, а противостоять этому практически невозможно. Теперь такие компании, как FaceFirst, помогают ритейлерам использовать распознавание лиц для обнаружения предыдущих преступников и оповещения сотрудников службы безопасности.

Полиция, как и все другие учреждения, начинает использовать систему распознавания лиц. Например, в Великобритании полиция Южного Уэльса использует камеры, установленные на фургонах, чтобы облегчить наблюдение за толпой.

Хотя эта новообретенная суперсила в руках полиции вызвала бурные общественные дебаты о неприкосновенности частной жизни, полицейские считают, что она поможет им лучше пресекать правонарушения. Как сказал Ричард Льюис, заместитель главного констебля полиции Южного Уэльса, в интервью газете Financial Times:
Если вы выявляете человека, совершившего преступление [ранее], вы, по сути, говорите: мы знаем, что вы здесь, пожалуйста, ведите себя прилично.
В здравоохранении недавно нашли неожиданное применение: распознавание лиц помогло обнаружить редкое генетическое заболевание под названием синдром Ди Джорджа. Синдром Ди Джорджа встречается примерно у 1 из 6 000 детей и приводит к деформации нескольких частей тела. Проблема здравоохранения в данном случае более остра для бедных стран, у которых нет средств на дорогостоящие методы диагностики. Таким образом, распознавание лиц с поразительной точностью 96,6% дает новую надежду жертвам синдрома Ди Джорджа.

В авиационной отрасли все активнее внедряется система распознавания лиц, которая вскоре заменит обычные посадочные талоны. В настоящее время имеются ограниченные, но многообещающие результаты в помощи идентификации пассажиров при вылете из страны. Администрация транспортной безопасности (TSA) США разработала план широкого использования биометрии на основе распознавания лиц.
Неоднозначное использование системы распознавания лиц
Технологии расширяют наши возможности, но их хорошее или плохое использование зависит только от нас. Нет сомнений, что такое мощное и радикальное средство, как распознавание лиц, используется таким образом, что вызывает беспокойство по поводу фундаментальных прав человека и этики. Самым ярким примером спорного использования системы распознавания лиц является огромная китайская система наблюдения, в которой за 1,4 миллиарда граждан страны следят около 200 миллионов камер.

Система отслеживает людей и оценивает их действия, постоянно обновляя метрику, называемую “баллом гражданина”. Хотя в мощной государственной системе слежения есть определенная польза (например, отслеживание неплательщиков по долгам), многие видят в ней приход антиутопического будущего, которое представлял себе Джордж Оруэлл. Это будущее, где правительства имеют неограниченную власть над человеком, а частная жизнь не существует. Второй пример спорного использования системы распознавания лиц также происходит (что неудивительно?) из Китая. На этот раз школьная система использует систему распознавания лиц для обеспечения “внимательности” учеников во время занятий. Новая система распознавания лиц, хотя она еще не получила широкого распространения, заменяет удостоверения личности, читательские билеты, системы учета посещаемости и т. д., используя для идентификации лицо ученика.

Но самое интересное, что эта система следит за уровнем внимания учеников, использованием мобильных телефонов и т.д. и предупреждает учителя о превышении определенного порога. Хотя система видеонаблюдения с распознаванием лиц существует не только в Китае – США пытаются использовать ее для борьбы с насилием с применением огнестрельного оружия в школах, – именно Китай, похоже, продвинулся в этом направлении дальше всех остальных стран.
Сравнение популярных API для распознавания лиц
Какие существуют варианты использования системы распознавания лиц? В этом разделе мы рассмотрим, что используется чаще всего и как различные решения соотносятся друг с другом. Прежде чем мы начнем, напомним, что эти API быстро развиваются, и вы, скорее всего, встретите в блогах сообщения о том, что в этом API нет такой-то или такой-то функции. Не принимайте решения, основываясь на этом. Сначала проанализируйте потребности своего бизнеса, внимательно изучите предлагаемые функции, попробуйте и только потом принимайте решение.
OpenCV
Исследования в области ИИ – это воронка без дна. Обучить и довести до совершенства систему распознавания лиц очень сложно, и лучше всего оставить это дело конгломератам с глубокими карманами и армией исследователей. Однако если ваши потребности просты, и вы хотите иметь полный контроль над системой, и, конечно, готовы к содержанию крошечной/маленькой команды инженеров, OpenCV может вам подойти. Это библиотека компьютерного зрения с открытым исходным кодом, которая отличается удивительной точностью и доступна для всех платформ программирования. Вот захватывающий пример того, как можно создать систему распознавания лиц с помощью Python и OpenCV всего за 25 строк кода! В некоторых блогах можно встретить утверждение, что в OpenCV нет функции распознавания лиц. Это полная ложь, и вот доказательство. В целом, OpenCV может стать отличным выбором для вашего бизнеса, если потребности просты и специфичны.
Amazon Rekognition
Rekognition – это мощное предложение от одного из крупнейших облачных провайдеров – AWS. Это полностью управляемый, мощный сервис для платформы AWS, и если вы уже используете AWS для развертывания, Rekognition, вероятно, будет лучшим выбором.

Некоторые из потрясающих возможностей, предлагаемых Rekognition, таковы:
- Анализ в режиме реального времени (по мере загрузки изображения или видео в S3)
- Обширный анализ лица (пол, цвет волос, выражение лица, открыты глаза или нет и т.д.)
- Pathing (захват траекторий движения идентифицированных объектов в видео)
- Определение сцены и активности (в помещении/на улице, “игра в футбол” и т.д.)
- Модерация небезопасного контента (например, обнаженной натуры)
Самый большой плюс Rekognition одновременно является и самым большим минусом – вам будет очень сложно использовать его с сервисами, не относящимися к AWS, и придется просто отказаться от этой затеи.
Kairos
В отличие от Rekognition, Kairos предоставляет вам ИИ через API (рифма непреднамеренна, клянемся!), позволяя вам полностью контролировать свои данные и серверы. Kairos позиционирует себя как сервис, ориентированный на защиту частной жизни, и крайне критично относится к Amazon и другим компаниям, вступающим в сговор с правительством (как и ACLU, кстати).

Kairos работает как с изображениями, так и с видео и обладает всеми приятными функциями, которые вы ожидаете от современного API для распознавания лиц. В нем есть некоторые удивительные функции, которые можно найти в Rekognition, но если они вам не нужны и вы уже управляете своими данными, зачем беспокоиться?! Для тех, кто параноидально относится к конфиденциальности и не хочет отправлять данные на обработку по проводам, Kairos предлагает локальное развертывание, но цены зависят от вашего случая использования и могут быть довольно высокими.
Cloud Vision Google
Компания Google решила разграничить свои сервисы распознавания лиц для изображений и видео. API для изображений известен как Cloud Vision, а сервис, ориентированный на видео, называется Video Intelligence.

Хотя сервис, ориентированный на работу с изображениями, довольно похож на то, что предлагает AWS, видеосервис имеет приятную функцию каталогизации и поиска. Это будет полезно компаниям, у которых есть большие видеоархивы, которые они могут захотеть проанализировать или поискать в них. При этом в Video Intelligence отсутствуют функции распознавания лиц, и, похоже, они предлагаются только в Cloud Vision. Отслеживание объектов и распознавание текста также находятся в бета-версии, что значительно отстает от предложений Amazon.
Azure Face API
Поскольку Microsoft относится к своим облачным предложениям более серьезно, чем к настольным (наконец-то), Azure Face API – это одно из замечательных предложений. В нем есть все интересные функции, которые вы ожидаете (обнаружение, идентификация, группировка лиц, поиск похожих лиц, эмоции и т. д.), и он одинаково хорошо работает с видео. Это не совсем относится к распознаванию лиц, но стоит упомянуть, что Azure также предлагает клиентскую службу компьютерного зрения, которая позволяет использовать ваши исходные данные и обучать модели в соответствии с вашими потребностями. Как и в сервисе Google, прямо на главной странице доступна игровая площадка, что делает тестирование API очень увлекательным!

Есть ли существенные различия между лучшими управляемыми сервисами распознавания лиц? Не совсем. Сейчас в этой области наблюдается острая конкуренция, и новые функции появляются быстрее, чем пицца. Если вы уже привязаны к определенной экосистеме, использование их собственной службы распознавания лиц имеет смысл. В противном случае, если ваши потребности специфичны (контроль над собственными данными, необходимость только в распознавании лиц и т. д.), лучше выбрать другого поставщика.
Системы распознавания лиц. В то время как одни исследователи посвятили свою жизнь совершенствованию технологии распознавания лиц, другие заняты разработкой методов, позволяющих их обмануть. Одна из таких интересных разработок – очки Adversarial Glasses, которые выглядят обычными для человека, но обманывают экспертные системы распознавания лиц.

Тем не менее, эти очки пока не доступны на рынке, хотя исследователи утверждают, что их можно легко напечатать в 3D-формате. Еще одним интересным событием стал запуск очков ekō на Kickstarter. Несмотря на то, что продукт уже не выпускается, он работал на удивительно простой идее: простые, повседневные солнцезащитные очки за 45 долларов, которые просто отражали свет, заставляя камеры и устройства видеонаблюдения сходить с ума.

Как и в сфере кибербезопасности, в области распознавания лиц “хакеры” и исследователи скрещивают рога в гонке за совершенством. Примерно в 2014 году мы наблюдали популярность камуфляжного макияжа, который обеспечивал невидимость при распознавании лиц, но сейчас он уже неактуален. Появится ли AES-шифрование при распознавании лиц? Только время покажет!
Подходит ли вам распознавание лиц?
Распознавание лиц может быть полезно для любого бизнеса, связанного с людьми – да, это значит, для любого бизнеса! Хотя в настоящее время распознавание лиц используется правительствами, крупными компаниями или технологическими стартапами, нет никаких причин, по которым ваш бизнес не может извлечь из этого выгоду. Возможности поистине безграничны, если приложить немного творческого мышления: приветствие и идентификация клиентов в отеле, определение местонахождения вашего друга в море людей, поиск людей с похожими лицами (возможно, для использования в качестве актеров), определение личности на собеседовании (опять же, мы просто даем волю воображению; возможно, в таком исследовании не будет ничего существенного), индивидуализация банковского обслуживания при входе дорогого клиента… Существует бесконечное множество способов использовать распознавание лиц на малых и больших уровнях, чтобы сделать ваш бизнес лучше.
Заключение
Очень скоро распознавание лиц станет настолько распространенным и привычным, что мы даже не будем замечать его (как мобильные телефоны?). На самом деле поисковые системы, распознающие лица, тоже набирают обороты. Хотя базовая технология почти доведена до совершенства, в реальном мире дело не только в распознавании лиц, но и в том, что мы можем делать с этой способностью.