Машинное обучение для бизнеса - обзор


18.07.19. IBM запустила портал с бесплатными наборами данных для машинного обучения


IBM запустила портал с бесплатными наборами данных для машинного обучения в компаниях - IBM DAX (Data Asset eXchange). DAX является коллекцией «тщательно отобранных бесплатных и открытых наборов данных», которые поставляются с «четко определёнными лицензиями». Все записи и метаданные представлены в стандартизированном формате, а также адресованы определённым отраслям. В репозитории DAX можно встретить уникальные массивы данных, которыми пользуются в IBM и IBM Research: например, Finance Proposition Bank и Contracts Proposition Bank, предназначенные для улучшения понимания естественного языка решениями IBM. IBM позиционирует DAX как дополнение к хранилищу IBM Model Asset eXchange (MAX), в котором специалисты по обработке данных и разработчики могут получить бесплатные модели машинного и глубокого обучения с открытым исходным кодом.


2018. Google запустил простой сервис машинного обучения для бизнеса


В Гугле говорят, что многие бизнесы могли бы воспользоваться достижениями технологии машинного обучения, например, для автоматической сортировки товаров в интернет-магазине или визуального контроля качества произведенной продукции. Но, говорят, у бизнесов не достаточно хороших программистов, которые могли бы запрограммировать нейросеть. Поэтому Гугл выпустил "сервис для чайников" Cloud AutoML (или для тех кто хочет поиграться с искусственным интеллектом, но всегда боялся это сделать). Обещается, что основная работа по созданию нейросети будет состоять в загрузке паттернов (изображений, звуков, текстов) и из разметки для обучения нейросети. Все остальные настройки можно будет сделать в визуальном редакторе. Потом сервис можно подключить к своей системе с помощью API и автоматизировать задачи. Правда, пока Cloud AutoML может работать только с изображениями.


2017. Яндекс выложил в свободный доступ свой движок машинного обучения CatBoost


Яндекс выложил исходный код алгоритма машинного обучения CatBoost, которым компания планирует заменить Матрикснет в Поиске и всех остальных своих проектах. CatBoost, как и Матрикснет, реализует модель градиентного бустинга. Особенность алгоритмов машинного обучения такого типа заключается в том, что они эффективнее, чем другие модели, работают с разнородными данными, которые описывают различные факторы: например, информацию о демографии, предпочтениях пользователя и историю запросов. Основным преимуществом CatBoost перед «Матрикснетом» создатели называют его способность работать не только с числовыми, но и с другими данными. Библиотека доступна на языках программирования R и Python, она поддерживает операционные системы Linux, Windows и macOS.


2017. Microsoft добавил гугловскую систему машинного обучения TensorFlow в облако Azure Machine Learning


Microsoft представила набор инструментов Azure Batch AI Training для обучения глубоких нейросетей, который скоро станет частью платформы Azure Machine Learning. Он позволяет использовать наиболее популярные фреймворки для глубокого обучения TensorFlow от Google, Cognitive Toolkit от Microsoft, Caffe и «любые другие библиотеки». Система предназначена для обучения глубоких нейросетевых моделей — например, реккурентных и свёрточных нейронных сетей и глубоких сетей доверия. Одна из основных особенностей таких моделей заключается в том, что для их работы требуются большие объёмы памяти для хранения и обработки информации обо всех внутренних зависимостях.


2017. Google приобрел сообщество для исследователей в области машинного обучения Kaggle


Google купил сообщество для исследователей в области машинного обучения Kaggle. Этот сервис стал основной платформой для проведения соревнований в области машинного обучения и анализа данных. В феврале 2017 года Kaggle и Google провели совместное соревнование, посвященное алгоритмам классификации видео на YouTube с призовым фондом в $100 тысяч. С помощью Kaggle Google сможет получить доступ к самому большому и активному сообществу таких специалистов. Сегодня на Kaggle зарегистрировано более 500 тысяч специалистов в области теории анализа и обработки данных.


2017. IBM открывает доступ к главному компоненту Watson


Два года назад IBM запустила платформу Watson Developer Cloud, которая предоставляет разработчикам API-интерфейсы к способностям Watson к обработке естественного языка. Теперь компания открывает доступ к базовому компоненту Watson - платформе машинного обучения IBM Machine Learning (правда, пока не из облака, а для корпоративных дата-центров). Одной и главных особенностей этой платформы является встроенный рекомендательный движок, который должен помочь специалистам по анализу и обработке данных выбирать алгоритмы для их проектов. Механизм проводит оценку ряда параметров, включая то, какой род записей компания хочет обрабатывать и как быстро требуются результаты. Разработчики говорят, что IBM Machine Learning работает с любыми языками программирования и поддерживает большинство популярных в индустрии AI-фреймворков, включая SparkML, развитием которого активно занимается сама IBM.


2017. Технология Google AutoML позволяет создавать нейросети автоматически


В Гугле говорят, что многие бизнесы могли бы воспользоваться достижениями технологии машинного обучения, например, для автоматической сортировки товаров в интернет-магазине или визуального контроля качества произведенной продукции. Но, говорят, у бизнесов не достаточно хороших программистов, которые могли бы запрограммировать нейросеть. Поэтому Гугл создал технологию AutoML которая создает нейросети автоматически. Работает это так: вы загружаете базу размеченных изображений и AutoML подбирает несколько нейросетей-кандидатов и прогоняет эту базу через каждую сеть, обучая их и выделяя самую подходящую модель. Если верить Google, даже сейчас уровень AutoML уже таков, что она может быть эффективнее экспертов-людей в вопросе поиска лучших подходов для решения конкретных проблем.


2016. IBM и Nvidia создали специализированный сервер для машинного обучения


Хотя IBM уже создала децентрализованный процессор для нейросетей TrueNorth, он пока еще не готов к коммерческой эксплуатации. Пока системы искусственного интеллекта работают на традиционной серверной архитектуре. Да, это требует больших компьютерных ресурсов и много энергии, зато надежно. И эти системы тоже можно оптимизировать. IBM совместно с Nvidia представили совместный продукт - IBM Power Systems S822LC. Он включает в себя два 8-ядерных центральных процессора IBM и четыре графических процессора Nvidia (именно графические процессоры в основном используются для моделирования нейросетей и их машинного обучения).


2016. Google предоставил свои технологии машинного обучения в качестве облачных API


В облачной платформе Google Cloud Platform появился сервис Learning Cloud Machine, который предоставляет возможность сторонним разработчикам создавать приложения, использующие ИИ-технологии компании. На данный момент сервис предоставляет 4 API-интерфейса: Cloud Speech API (распознавание речи), Vision API (компьютерное зрение), Translate API (переводчик), Cloud Natural Language API (обработка естественного языка). Например, стороннее приложение может отправить в Cloud Speech API запись голоса и получить обратно текстовую транскрипцию. Качество распознавания будет таким же, как например в Google Now. При этом разработчику нет необходимости самому разбираться в машинном обучении для распознавания речи. Напомним, в марте подобный ИИ API запустила и Microsoft.


2015. Google открыл код своей системы машинного обучения TensorFlow


Google преобразовал свою систему машинного обучения TensorFlow в проект с открытым исходным кодом. TensorFlow позволяет создавать и обучать нейросети и используется компанией в сервисах распознавания устной речи, написания автоматических ответов в электронной почте и для распознавания картинок в Google Photos. Представители Google отмечают, что решения, разработанные при помощи TensorFlow, легко масштабируются в зависимости от имеющихся аппаратных ресурсов, поэтому платформа может принести пользу как научно-исследовательским организациям, так и энтузиастам машинного обучения. ***


2015. Стартап H2O получил $20 млн на развитие open-source платформы машинного обучения для бизнеса


H2O - это open-source платформа, позволяющая предприятиям быстро обрабатывать большие массивы неструктурированных данных с помощью машинного обучения. H2O.ai, компания, которая разработала эту платформу, получила очередные $20 млн инвестиций (добив общую сумму инвестиций до $34 млн). Платформа H2O уже широко используется в финансовой сфере, страховании и медицине для таких задач как предсказание оттока клиентов, защита от фрода, рекомендация оптимальных продуктов для клиентов, рекомендация оптимальных медицинских препаратов.


2015. Amazon добавила сервис машинного обучения в свою облачную платформу


Облачная платформа Amazon служит базой для многочисленных приложений. И чтобы эти приложения соответствовали духу времени и умнели, Amazon добавила на эту платформу новый сервис - Amazon Machine Learning. Он позволяет использовать алгоритмы машинного обучения для создания моделей поиска закономерностей в больших данных. Напомним, в прошлом году IBM запустила платформу, позволяющую использовать возможности искусственного интеллекта Watson в сторонних приложениях, однако в том случае речь шла о конкретных ИИ-функциях (типа распознавания речи и машинного перевода). Amazon же предлагает более универсальный инструмент для обработки любых больших данных.


2014. Google финансирует стартап, разрабатывающий ИИ для анализа больших данных


Стартап Automatic Statistician, который позиционирует себя, как разработчик ИИ для научных данных, получил от Гугла премию Google Focused Research Award в $750,000. Стартап основан профессором Кэмбриджа, Зоубином Гахрамани (на фото), и находится на совсем ранней стадии. Его специализации - находить зависимости и строить модели из больших массивом входящих данных с помощью машинного обучения. В результате система выдает понятные графики и сопроводительный текст, описывающий найденные зависимости на естественном языке.


2013. Стартап Skytree получил $18 млн на развитие своей платформы машинного обучения для бизнеса


Американский стартап Skytree, который разрабатывает систему машинного обучения для предприятий получил $18 млн инвестиций от гиганта доставки UPS, инвестфонда U.S. Venture Partners и лично от основателя фирмы Sun Microsystems Скотта Макнили. Skytree предоставляет движок, который можно установить на собственную серверную инфраструктуру, обучить и использовать для анализа больших данных. Система предоставляет возможность редактировать программный код, либо настраивать себя с помощью визуального интерфейса.