machine vision

Компьютерное зрение в мобильной разработке

Миллионы лет эволюция совершенствовала работу головного мозга, превращая его в отточенный механизм, работающий быстро и без ошибок. И, пожалуй, самая сложная, наименее исследованная часть этого механизма — зрение.
Ученые до сих пор не разобрались окончательно, как визуальная информация обрабатывается зрительными центрами мозга, какие этапы анализа она проходит. Но это не мешает им поставить перед собой амбициозную цель: попытаться сымитировать работу человеческого зрения.
Компьютерное (машинное) зрение — это раздел Artificial Intellect (Искусственный интеллект, AI), который специализируется на извлечении информации из изображений.
Первые серьезные исследования в этой науке начались в 50-е годы прошлого века. Из трех возможных перспектив (имитация работы: 1. глаза, 2. зрительной коры головного мозга, 3. глубинных отделов мозга) первая оказалась наиболее реальной. Именно по этому пути и двинулись разработки в сфере машинного зрения.

Области применения компьютерного зрения

Наиболее очевидная область применения машинного зрения — робототехника. Первые системы распознавания объектов на изображении были связаны с промышленностью. Задачей роботов была проверка соответствия детали на конвейере заданному шаблону.
Но со временем роботы появились и в массовом производстве, для применения в быту. И тут они должны были «видеть» не деталь, лежащую на конвейере, а сложные трёхмерные сцены, состоящие из множества предметов, уметь распознавать лица людей, их эмоции, ориентироваться в пространстве с помощью компьютерного зрения.
Второе перспективное направление — системы Big Data. Здесь главные игроки — огромные корпорации, например, Google и Facebook, которым ежедневно приходится распознавать миллиарды изображений.
Также компьютерное зрение оказалось очень полезным в системах помощи водителю. Мы говорим о распознавании дорожных знаков и разметки, детектировании препятствий на дороге. Интересная разработка в этой области — беспилотный автомобиль Google. Для распознавания объектов он использует целый комплекс датчиков, радаров и видеокамер, но всё же не может двигаться на незнакомых дорогах или при плохой видимости.

И, наконец, мобильная разработка. Компьютерное зрение выполняет на мобильных устройствах самые разные функции: создаёт основу для дополненной реальности, распознаёт изображения, лица, надписи на иностранном языке, считывает штрихкоды и многое другое.

Технологии распознавания изображений

Их на данный момент три:

  1. контурный анализ,
  2. поиск шаблона (Template Matching),
  3. сопоставление по ключевым точкам.

Контурный анализ — это метод распознавания и поиска объектов по их контурам (иными словами, по кривой, которая очерчивает границы объекта на изображении). Главное преимущество контурного анализа — стабильность результатов при изменении масштабов объекта или его смещении. Но есть и определенные ограничения:
• контур объекта может быть зашумлен помехами или иметь одинаковую яркость с фоном, в этом случае выделить его будет невозможно
• при наложении нескольких объектов один на другой контур будет определяться некорректно

Несмотря на эти нюансы, контурный анализ хорошо себя зарекомендовал при распознавании объектов с четкими границами, на контрастном фоне. Пример: распознавание печатного текста.

Template Matching применяется для распознавания изображений, аналогичных некоему заданному шаблону. Входные параметры — это собственно изображение, на котором нужно найти объект, и шаблон этого самого объекта.
Цель работы данного алгоритма — найти на изображении область, которая в наибольшей степени совпадёт с шаблоном объекта. Template Matching оптимален в том случае, если нужно быстро найти объект на изображении.
И ещё один алгоритм — сопоставление по ключевым точкам, или Feature Detection. Алгоритм вычисляет на изображении ключевые особенности, которые затем используются для сравнения двух картинок и определения у них общих составляющих.
В отличие от контурного анализа и поиска шаблонов, сопоставление по точкам устойчиво к помехам и трансформациям. При этом алгоритм работает настолько быстро, что его можно применять в режиме реального времени.
Рассмотрим пример мобильного приложения для распознавания лиц на основе технологии компьютерного зрения. Автор приложения — PunicApp, одна из немногих компаний, работающих с технологиями распознавания и анализа объектов.
Наше мобильное приложение позволяет определить по мимике, говорит человек правду или лжёт. В отличие от множества «аналогов», приложение от PunicApp — не развлекательное. Это действительно научный инновационный продукт. В его основе — компьютерное зрение, система распознавания лиц на видео и машинное обучение.
Технология компьютерного зрения позволяет распознать те участки на лице, где ярче всего отслеживаются движения мимических мышц. Для наглядности, мышцы закрепляются точками, которые двигаются во время разговора (технология дополненной реальности). И, наконец, для большей достоверности в нашем приложении отслеживаются движение зрачков и пульс.

приложение распознавание лица

Приложение Verity детектирует лицо и распознает “мимические точки” для отслеживания мимики по видео.

Путем проб и ошибок мы пришли к тому, что пульс нужно измерять, наблюдая за изменением цвета лба человека. Как известно, гемоглобин поглощает свет, и цвет лица меняется, когда человек нервничает. Конечно, создать идеальные условия для оценки цвета лба не так легко — нужно очень хорошее освещение. Поэтому этот фактор в нашем приложении является второстепенным.
Для анализа информации и вынесения вердикта — правду или ложь говорит собеседник — мы написали алгоритм с элементами искусственного интеллекта. В этот алгоритм включены два типа паттернов. Первый — собственно технология распознавания лиц по мимике. И второй — машинное обучение. Алгоритм сравнивает информацию о мимике с паттернами и выносит свое решение.
Приложение называется Verity, сегодня оно доступно для платформ iOS и Android. Мы ведем разработку десктопной версии, которую удобно будет использовать при переговорах и даже на собеседованиях.

Компьютерное зрение: перспективы развития

Компьютерное зрение — очень перспективное направление. И вот почему. Компьютеры становятся мощнее, фото- и видеокамеры повышают точность изображений — а чем лучше исходные данные, тем проще извлечь из них информацию. И, наконец, улучшаются алгоритмы машинного обучения.
Популярность этой технологии заметна. Так, 15 лет назад на конференцию по распознаванию объектов приезжали лишь студенты и преподаватели из университетов, а сегодня на подобных мероприятиях собираются исследователи, стартаперы, представители больших софтверных корпораций.
Если у вас есть идея мобильного приложения на основе распознавания объектов, оставляйте заявку на сайте или сразу пишите на e-mail: info@punicapp.com.

Posted by:

Mobile News

Leave A Comment

Your email address will not be published. Required fields are marked (required):

Back to Top

Development of mobile apps for iOS (iPhone, iPad), Android, WinPhone. Design of customized application and selling ready‑to‑use products. Development of web sites and Internet applications. Quality assurance at all stages.

Punicapp ltd., Novosibirsk 630128, Demakova str., 30th bld., 505th ofc.

PSRN 1125476085943, TRN 5406711974, CRR 540601001

Request a call

or

Request a call