Распознавание изображений для бизнеса

Распознавание изображений используется в бизнесе для:
- анализа видео и снимков камер наблюдения (например, для распознавания клиентов, фиксации краж в магазине)
- классификации отсканированных документов и извлечения данных из них
- мониторинга социальных сетей (анализа эффективности маркетинговых акций, анализа конкурентов)
- распознавания одежды и аксессуаров на фотках (для электронной коммерции)
- автоматического контроля сотрудников по скриншотам экрана компьютера

Примеры использования распознавания изображений для бизнеса приведены ниже.

01.09.21. Google представила технологию, которая повышает разрешение изображений до 16 раз без потери качества



В блоге Google, посвященном нейросетям и машинному обучению появился пост под названием «Создание изображений высокой четкости с использованием моделей диффузии». Новая технология позволяет увеличивать разрешение изображения в 16 раз, сохраняя ключевые детали. Google опубликовал набор примеров, демонстрирующих каскадное масштабирование фотографий с низким разрешением. Фотография 32×32 может быть увеличена до 64×64, а затем до 256×256. Фотография размером 64×64 может быть увеличена до 256×256, а затем до 1024×1024.


2020. Microsoft Azure AI теперь описывает изображения так же хорошо, как и люди


Новая модель нейросети для генерации описаний к изображениям теперь доступна потребителям через Computer Vision в Azure Cognitive Services, которое является частью Azure AI, и позволяет разработчикам использовать эту возможность для улучшения доступности своих сервисов. Согласно результатам исследования, при оценке на тестах nocaps система ИИ создавала более содержательные и точные описания, чем это делали люди для тех же изображений. Новая модель уже используется в приложение Seeing AI и в конце этого года начнет работать в Microsoft Word и Outlook для Windows и Mac, а также в PowerPoint для Windows, Mac и в веб-версии. Автоматическое описание помогает пользователям получить доступ к важному содержимому любого изображения, будь то фотография, возвращенная в результатах поиска, или иллюстрация для презентации.


2020. Cisco купила разработчика ПО для автоматического распознавания картинки с камер видеонаблюдения



Cisco купила стартап Modcam, который разрабатывает ПО для автоматического распознавания картинки с камер видеонаблюдения. Предполагается, что активы купленного стартапа дополнят ассортимент смарт-камер Meraki, которым обладает Cisco. Технологии Modcam могут использоваться в системах видеонаблюдения для точного определения местоположения объектов и определения маршрута движения. Возможности интеллектуальных камер Cisco Meraki со своей стороны включают распознавание движений и объектов. Однако аналитика в рамках этого оборудования ограничивается лишь одной камерой.


2020. Facebook представила ИИ-инструмент для распознавания товаров на фотографиях



Facebook запустила инструмент GrokNet, который может определять разные категории товаров на фотографии с помощью технологий искусственного интеллекта. Он распознаёт десятки тысяч разных атрибутов, например, бренды, цвета, размер. Этот инструмент уже интегрирован в торговую площадку Facebook Marketplace — с его помощью пользователи могут быстро создавать описание товара (сервис пока не доступен в России). Например, когда продавец загружает фотографию своего дивана, сайт предлагает указать характеристики «чёрный», «кожа», «секционный диван». ИИ-система «училась» распознавать изображения на базе, которая включает около 100 млн пользовательских фотографий в Marketplace.


2020. В СБИС появилось ИИ-распознавание первичных документов


В бухгалтерском модуле системы управления бизнесом СБИС появилась функция автоматического ввода/распознавания первичных документов. Она работает на технологии машинного обучения и позволяет распознавать товарные накладные (ТОРГ-12), УПД, счета-фактуры и авансовые отчеты. Достаточно отсканировать документ или сфотографировать с помощью смартфона и добавить картинку в систему. Она сама добавит документ в базу и извлечет из него данные (контагентов, номенклатуру товаров, затраты...). Разработчики обещают высокую точность распознавания даже на нечетких снимках. Многостраничные документы - тоже поддерживаются.


2019. Яндекс запустил сервис для распознавания лиц и изображений



В арсенале платформы Яндекс.Облако появился сервис Yandex Vision для анализа изображений при помощи машинного обучения. Например, при помощи сервиса компании могут распознавать тексты архивов и искать по ним данные, переводить тексты с изображений и модерировать контент пользователей. Бизнесу Yandex Vision может пригодиться для сканирования однотипных документов и занесения их в систему документооборота, например, по ключевым словам. Сервис также ищет лица людей на изображении и выделяет их прямоугольниками, но пока не распознает — с помощью этой функции нельзя находить похожие лица или идентифицировать личность. Яндекс уже определился с ценами на распознавания текста: 120 руб за 1000 картинок в месяц. Обнаружение лиц - пока бесплатно. Подобный сервис уже предоставляют Mail.ru и FindFace.


2017. Adobe представил свой искусственный интеллект - Sensei



Флагманские продукты компании Adobe - Photoshop и Premiere - предназначены для обработки изображений и видео. Это огромное поле работы для искусственного интеллекта. И такой интеллект появился - Adobe Sensei. Только представьте, что можно будет автоматически вырезать объект из фотографии или видео, или наложить фантастические эффекты. Кроме работы с графикой, Sensei будет использоваться для поиска и разметки изображений в Adobe Creative Cloud, для распознавания текста на фотографиях в Adobe Document Cloud и для предиктивной аналитики в системе управления маркетингом Adobe Marketing Cloud.


2015. Нейросеть Microsoft победила Google и Intel в конкурсе на распознавание изображений



Программа, разработанная командой Microsoft Research под руководством Цзянь Сана (на фото) показала лучший результат на шестом конкурсе по распознаванию изображений ImageNet. Ей удалось превзойти конкурентные системы от Google, Intel, Qualcomm и Tencent, а также ряда стартапов. Система компьютерного зрения Microsoft представляет собой очень глубокую нейросеть из 150 слоев, которую обучали с применением фреймворка глубокого остаточного обучения. Microsoft уже использует компьютерное зрение в своих продуктах: игровом сенсоре Kinect и системе распознавания лиц Windows Hello.


2015. Стартап Deepomatic получил $1.4 млн на распознавание одежды на картинках



Французский стартап Deepomatic получил $1.4 млн инвестиций от Alven Capital и нескольких бизнес-ангелов на развитие своей технологии компьютерного зрения, которая специализирована на распознавании элементов одежды. Идея в том, чтобы дополнять картинки с модной одеждой e-commerce ссылками. Например, вам понравились туфельки на девушке, изображенной на картинке - вы кликаете и попадаете на страничку интернет-магазина, где продаются эти туфли.


2015. Искусственный интеллект Baidu побил рекорд Google в распознавании изображений



Китайскаий интернет-гигант Baidu создал суперкомпьютер Minwa, который (по словам разработчиков) сумел превзойти рекорд компании Google по качеству распознавания изображений. Суперкомпьютер показал точность 95,42%, по сравнению с результатом 95,2%, показанным искусственным интеллектом Гугла. Minwa имеет 72 мощных центральных процессоров и 144 графических процессоров. В компьютере запрограммирована нейронная сеть, способная не только выполнить распознавание объектов на изображениях с высокой разрешающей способностью, но и самообучаться, что позволяет системе выявлять характерные особенности каждого из отдельных объектов. Таким образом, система может распознать изображение, представленное в любой форме, даже когда оно повернуто на некоторый угол и сфотографировано снова.


2014. Google создал алгоритм для создания подписей к изображениям на естественном языке



Разработчики из подразделения Google Research создали алгоритм обучения нейросети для автоматической генерации текстового описания объектов на изображениях на естественном (английском) языке. Он сочетает в себе алгоритмы компьютерного зрения и обработки естественного языка. К примеру, система способна создавать подписи наподобие «две собаки играют на траве» или «маленькая девочка в розовой шляпке надувает пузыри». Идея пришла благодаря последним достижениям в машинном переводе, где одна рекуррентная нейронная сеть (RNN) преобразует предложение на одном языке в векторную модель, а вторая - преобразует эту модель в предложение на другом языке. Вот инженеры и подумали, почему бы в качестве первой нейросети не использовать сверточную нейросеть для распознавания объектов на изображениях (CNN). Разработчики планируют использовать полученную систему, например, для помощи слепым людям и для усовершенствования поиска картинок на Google Images.


2013. Cortica получил $1.5 млн от Mail.Ru на развитие технологии распознавания изображений



Израильский стартап Cortica получил $1.5 млн инвестиций от Mail.Ru для развития своей технологии распознавания изображений. Разработчики говорят, что их технология симулирует человеческий кортекс мозга (отсюда и название) и способна распознавать изображения с такой же высокой точностью, как человек. Для Mail.ru эта технология интересна прежде всего для таргетирования рекламы по картинкам, которые просматривают пользователи в социальных сетях (VK, Одноклассники).


2013. Google купил стартап DNNresearch - победителя конкурса распознавания изображений



Google купил канадский стартап DNNresearch, который в 2012 с большим перевесом выиграл конкурс ImageNet (в котором нейросети соревнуются в точности распознавания изображений). DNNresearch состоит всего из 3 человек - профессора Университета Торонто - Джорджа Хинтона (на фото) и его двух студентов. Ранее Гугл предоставлял Хинтону грант в размере $600K на его исследования в сфере компьютерного зрения. Для Гугла эта технология очень важна для улучшения поиска по картинкам в Google Images и по фоткам в Google Photos.