Распознавание изображений для бизнеса

Распознавание изображений используется в бизнесе для:
- анализа видео и снимков камер наблюдения (например, для распознавания клиентов, фиксации краж в магазине)
- классификации отсканированных документов и извлечения данных из них
- мониторинга социальных сетей (анализа эффективности маркетинговых акций, анализа конкурентов)
- распознавания одежды и аксессуаров на фотках (для электронной коммерции)
- автоматического контроля сотрудников по скриншотам экрана компьютера

Примеры использования распознавания изображений для бизнеса приведены ниже.

См. также: Топ 10: ИИ платформы

06.08.20. Cisco купила разработчика ПО для автоматического распознавания картинки с камер видеонаблюдения


Cisco купила стартап Modcam, который разрабатывает ПО для автоматического распознавания картинки с камер видеонаблюдения. Предполагается, что активы купленного стартапа дополнят ассортимент смарт-камер Meraki, которым обладает Cisco. Технологии Modcam могут использоваться в системах видеонаблюдения для точного определения местоположения объектов и определения маршрута движения. Возможности интеллектуальных камер Cisco Meraki со своей стороны включают распознавание движений и объектов. Однако аналитика в рамках этого оборудования ограничивается лишь одной камерой.


2020. Facebook представила ИИ-инструмент для распознавания товаров на фотографиях


Facebook запустила инструмент GrokNet, который может определять разные категории товаров на фотографии с помощью технологий искусственного интеллекта. Он распознаёт десятки тысяч разных атрибутов, например, бренды, цвета, размер. Этот инструмент уже интегрирован в торговую площадку Facebook Marketplace — с его помощью пользователи могут быстро создавать описание товара (сервис пока не доступен в России). Например, когда продавец загружает фотографию своего дивана, сайт предлагает указать характеристики «чёрный», «кожа», «секционный диван». ИИ-система «училась» распознавать изображения на базе, которая включает около 100 млн пользовательских фотографий в Marketplace.


2020. В СБИС появилось ИИ-распознавание первичных документов


В бухгалтерском модуле системы управления бизнесом СБИС появилась функция автоматического ввода/распознавания первичных документов. Она работает на технологии машинного обучения и позволяет распознавать товарные накладные (ТОРГ-12), УПД, счета-фактуры и авансовые отчеты. Достаточно отсканировать документ или сфотографировать с помощью смартфона и добавить картинку в систему. Она сама добавит документ в базу и извлечет из него данные (контагентов, номенклатуру товаров, затраты...). Разработчики обещают высокую точность распознавания даже на нечетких снимках. Многостраничные документы - тоже поддерживаются.


2019. Яндекс запустил сервис для распознавания лиц и изображений


В арсенале платформы Яндекс.Облако появился сервис Yandex Vision для анализа изображений при помощи машинного обучения. Например, при помощи сервиса компании могут распознавать тексты архивов и искать по ним данные, переводить тексты с изображений и модерировать контент пользователей. Бизнесу Yandex Vision может пригодиться для сканирования однотипных документов и занесения их в систему документооборота, например, по ключевым словам. Сервис также ищет лица людей на изображении и выделяет их прямоугольниками, но пока не распознает — с помощью этой функции нельзя находить похожие лица или идентифицировать личность. Яндекс уже определился с ценами на распознавания текста: 120 руб за 1000 картинок в месяц. Обнаружение лиц - пока бесплатно. Подобный сервис уже предоставляют Mail.ru и FindFace.


2017. Adobe представил свой искусственный интеллект - Sensei


Флагманские продукты компании Adobe - Photoshop и Premiere - предназначены для обработки изображений и видео. Это огромное поле работы для искусственного интеллекта. И такой интеллект появился - Adobe Sensei. Только представьте, что можно будет автоматически вырезать объект из фотографии или видео, или наложить фантастические эффекты. Кроме работы с графикой, Sensei будет использоваться для поиска и разметки изображений в Adobe Creative Cloud, для распознавания текста на фотографиях в Adobe Document Cloud и для предиктивной аналитики в системе управления маркетингом Adobe Marketing Cloud.


2015. Нейросеть Microsoft победила Google и Intel в конкурсе на распознавание изображений


Программа, разработанная командой Microsoft Research под руководством Цзянь Сана (на фото) показала лучший результат на шестом конкурсе по распознаванию изображений ImageNet. Ей удалось превзойти конкурентные системы от Google, Intel, Qualcomm и Tencent, а также ряда стартапов. Система компьютерного зрения Microsoft представляет собой очень глубокую нейросеть из 150 слоев, которую обучали с применением фреймворка глубокого остаточного обучения. Microsoft уже использует компьютерное зрение в своих продуктах: игровом сенсоре Kinect и системе распознавания лиц Windows Hello.


2015. Стартап Deepomatic получил $1.4 млн на распознавание одежды на картинках


Французский стартап Deepomatic получил $1.4 млн инвестиций от Alven Capital и нескольких бизнес-ангелов на развитие своей технологии компьютерного зрения, которая специализирована на распознавании элементов одежды. Идея в том, чтобы дополнять картинки с модной одеждой e-commerce ссылками. Например, вам понравились туфельки на девушке, изображенной на картинке - вы кликаете и попадаете на страничку интернет-магазина, где продаются эти туфли.


2015. Искусственный интеллект Baidu побил рекорд Google в распознавании изображений


Китайскаий интернет-гигант Baidu создал суперкомпьютер Minwa, который (по словам разработчиков) сумел превзойти рекорд компании Google по качеству распознавания изображений. Суперкомпьютер показал точность 95,42%, по сравнению с результатом 95,2%, показанным искусственным интеллектом Гугла. Minwa имеет 72 мощных центральных процессоров и 144 графических процессоров. В компьютере запрограммирована нейронная сеть, способная не только выполнить распознавание объектов на изображениях с высокой разрешающей способностью, но и самообучаться, что позволяет системе выявлять характерные особенности каждого из отдельных объектов. Таким образом, система может распознать изображение, представленное в любой форме, даже когда оно повернуто на некоторый угол и сфотографировано снова.


2014. Google создал алгоритм для создания подписей к изображениям на естественном языке


Разработчики из подразделения Google Research создали алгоритм обучения нейросети для автоматической генерации текстового описания объектов на изображениях на естественном (английском) языке. Он сочетает в себе алгоритмы компьютерного зрения и обработки естественного языка. К примеру, система способна создавать подписи наподобие «две собаки играют на траве» или «маленькая девочка в розовой шляпке надувает пузыри». Идея пришла благодаря последним достижениям в машинном переводе, где одна рекуррентная нейронная сеть (RNN) преобразует предложение на одном языке в векторную модель, а вторая - преобразует эту модель в предложение на другом языке. Вот инженеры и подумали, почему бы в качестве первой нейросети не использовать сверточную нейросеть для распознавания объектов на изображениях (CNN). Разработчики планируют использовать полученную систему, например, для помощи слепым людям и для усовершенствования поиска картинок на Google Images.


2013. Cortica получил $1.5 млн от Mail.Ru на развитие технологии распознавания изображений


Израильский стартап Cortica получил $1.5 млн инвестиций от Mail.Ru для развития своей технологии распознавания изображений. Разработчики говорят, что их технология симулирует человеческий кортекс мозга (отсюда и название) и способна распознавать изображения с такой же высокой точностью, как человек. Для Mail.ru эта технология интересна прежде всего для таргетирования рекламы по картинкам, которые просматривают пользователи в социальных сетях (VK, Одноклассники).


2013. Google купил стартап DNNresearch - победителя конкурса распознавания изображений


Google купил канадский стартап DNNresearch, который в 2012 с большим перевесом выиграл конкурс ImageNet (в котором нейросети соревнуются в точности распознавания изображений). DNNresearch состоит всего из 3 человек - профессора Университета Торонто - Джорджа Хинтона (на фото) и его двух студентов. Ранее Гугл предоставлял Хинтону грант в размере $600K на его исследования в сфере компьютерного зрения. Для Гугла эта технология очень важна для улучшения поиска по картинкам в Google Images и по фоткам в Google Photos.