Искусственный интеллект для поиска

Машинное обучение нейросетей позволяет производить поиск по кластерам текстовой информации с применением распознавания смыслов предложений (а не только по наличию ключевых слов). Основные применения интеллектуального поиска для бизнеса - это:
- базы знаний для поддержки клиентов
- поиск во внутреннем корпоративном портале для сотрудников компании
- поиск в социальных сетях для маркетингового анализа
- поиск во внутренней переписке для расследования и предотвращения инцидентов

Примеры использования ИИ для поиска - даны ниже.

11.06.21. Яндекс радикально обновил свой поиск, добавил отзывы об организациях



Яндекс выпустил масштабное обновление своей поисковой системы, которое получило название Y1. В него встроили какую-то новую нейросеть YaLM для определения смысла запросов, поэтому проверьте SEO-позиции сайта вашей компании. Также, Яндекс начал анализировать отзывы об организациях, обобщать их и показывать в результатах поиска визуальную шкалу оценок. К примеру, если пользователь отправит запрос о каком-нибудь кафе, поиск покажет, как другие посетители оценили кухню или персонал. Так что проверьте, как выглядит ваша организация. Еще, поисковик научился находить нужный фрагмент видео по смыслу текстового запроса, начал давать больше быстрых ответов (демонстрируя запросы других пользователей по данной теме и ответы на них), улучшил поиск по изображению с "умной камеры".


2020. Поиск Яндекса перешел на новую нейротехнологию анализа текста



Яндекс перевел свой поиск на технологию анализа текста на основе нейросетей-трансформеров, над созданием которой работал 10 лет. Теперь поисковик компании лучше оценивать смысловую связь между запросами и содержанием интернет-документов. Технология называется YATI и основана на нейросетях-трансформерах. Для обучения каждой нейросети, ей скармливают реальные поисковые запросы и тексты документов, которые видели реальные пользователи. YATI должна угадывать, какой документ понравится пользователю, а какой нет. Для дообучения используется экспертная разметка асессоров, которые оценивают по сложной шкале каждый документ, насколько он релевантен запросу. Яндекс берет этот массив данных и дообучает трансформер угадывать эту экспертную оценку — так он учится ранжировать. По заверению разработчиков, поисковый движок научился гораздо лучше оценивать смысловую связь между запросами пользователей и содержанием документов в интернете.


2020. HeadHunter запатентовал технологию скоростного поиска вакансий и сотрудников



Компания HeadHunter запатентовала компоненты технологии «умного» поиска сайта hh.ru для рекомендации резюме и вакансий. запуск запатентованных технологий в рамках умного поиска hh.ru был произведен во второй половине 2019. Изобретение используется как для обработки запросов работодателей при поиске в базе резюме, так и для обработки запросов соискателей при поиске вакансий. Изобретение hh.ru предлагает автоматизированный поиск релевантных документов для рекомендательного подбора персонала с машинным обучением и с понижением размерности многомерных данных.


2019. Google внедряет крупнейшее за последние годы обновление алгоритма поиска



Google объявил о самом большом за последние годы апдейте своего поискового алгоритма под кодовым названием BERT. Он затронет каждый 10 запрос, а значит компаниям стоит проконтролировать, как изменятся позиции их сайтов, и подумать, как приспособиться к новому алгоритму. Апдейт завязан на искусственный интеллект, а точнее на обработку естественного языка в длинных запросах. Теперь нейросеть Гугла определяет связи между словами и пытается определить смысл общей фразы (а не просто ищет слова, как раньше). На картинке - пример про визу. Раньше гуглу было все равно, кто куда путешествует, а теперь он понимает, что это запрос про визу для бразильцев. Сейчас новый алгоритм заработает для английских запросов, а затем постепенно перекинется на другие языки.


2019. Brand Analytics в Топ-5 российских компаний в области поиска и извлечения информации из текстов



Аналитическая система Brand Analytics вошла в Топ-5 рейтинга компаний, разрабатывающих технологии поиска и извлечения информации из текстов. При этом Brand Analytics занимает высшую позицию среди других систем мониторинга и анализа социальных медиа, попавших в топ. Рейтинг опубликован Центром Национальной технологической инициативы на базе Московского физико-технического института (МФТИ) во втором выпуске альманаха «Искусственный интеллект», посвященном масштабному исследованию рынка технологий обработки естественного языка (Natural Language Processing, NLP) в России и мире.


2017. Яндекс запустил новый поисковый алгоритм на основе нейронных сетей


Яндекс запустил новый алгоритм ранжирования сайто в поиске - Королев, который активно использует технологию машинного обучения нейросетей. Основное отличие от предыдущей версии в том, что новый алгоритм сравнивает Смысл поисковых запросов и веб-страниц целиком - а не только их заголовок. Смысл страницы определяется не только ее текстом, но и всеми запросами, по которым пользователи находят эту страницу. Что это означает для сайта вашей компании? Возможно, теперь вам будет выгоднее отдать сайт в руки маркетолога, который понимает смысл вашего бизнеса, чем в руки SEO-специалиста, который ориентируется на классические методы раскрутки сайтов и оптимизации текстов.


2017. Яндекс запустил виртуального ассистента, похожего на Google Now



Яндекс обновил своё поисковое приложение для iOS и Android, которое теперь превратилось в универсального помощника типа Google Now. Оно принимает во внимание текущее время и местоположение пользователя и может подсказать расписание общественного транспорта, ближайшие заведения и скидки в магазинах. Например, днем он сосредотачивает внимание на кафе, где можно заказать бизнес-ланч, а вечером показывает в первую очередь бары. Зимой сервис подсказывает, где находятся катки и горки, а летом – пляжи. Приложение фиксирует часы работы организаций и заведений, и фильтрует выдачу подсказок, исключая из нее объекты, которые уже завершили или вот-вот завершат рабочий день. Это помогает, например, быстро найти круглосуточные заведения в позднее время суток.


2016. Яндекс создал поисковик для бизнеса



Недавно Яндекс запустил сервис мониторинга СМИ для крупных компаний - Медиана. Теперь они расширяют границы поиска бизнес-информации до всего (открытого) Интернета. Новый сервис Яндекс Экстракт представляет собой поисковик, который может извлечь из интернета и упорядочить ВСЮ информацию по изучаемому вопросу. В первую очередь, Яндекс хочет заинтересовать новым сервисом банки, ритейлеров, консалтинговые компании. Например, перед выводом нового товара на рынок можно изучить рынок: конкурентов, интерес и мнения пользователей. Поисковик использует машинное обучение: нужно показать ему несколько подходящих результатов поиска, и он будет искать что-то похожее. Можно настроить, чтоб он выдавал новые результаты поиска раз в день, неделю или месяц. Стоимость Экстракта пока формируется индивидуально для каждого клиента.


2014. Pinterest купил стартап VisualGraph, разрабатывающий визуальный поиск



В социальной сети Pinterest миллионы людей расшаривают миллиарды картинок (не дополняя их текстовыми пояснениями). Поэтому для создателей сети - жизненно важно знать смысл этих картинок, чтобы дать пользователям возможность искать нужные картинки и чтобы показывать им релевантную рекламу. Для этого Pinterest купил стартап VisualGraph, который разработал технологию распознавания изображений с помощью машинного обучения. В стартапе работало всего 2 человека (на фото), теперь они стали разработчиками в Pinterest.


2013. Yahoo купила стартап LookFlow ради компьютерного зрения для Flickr



Yahoo владеет популярным сервисом для хранения и расшаривания фотографий Flickr. Поэтому им просто необходим ИИ для поиска и организации картинок. Для этого Yahoo купила стартап LookFlow, разрабатывающий технологию распознавания изображений. В стартапе работает два человека: Бобби Джарос (на фото) и Саймон Осиндеро.


2013. Google запустил интеллектуальный поиск фоток в своей социальной сети



Поиск картинок Google Images до сих пор оперирует не столько изображениями, сколько страницами, на которых эти изображения размещены. На этих страничках есть подписи к картинкам, окружающий текст. И это работает. Но в социальной сети Google+ у большинства фоток нет никаких подписей и текста. А пользователям было бы удобно искать фотки по ключевым словам. Поэтому, в Google взяли ту самую технологию для тренировки нейросетей, которая недавно распознавала кошек на Youtube и натренировали нейросеть на распознавание 2000 объектов (наиболее часто-встречающихся тегов).


2012. Поиск Google начинает оперировать знаниями, а не только словами


До сих пор поисковик Google оперировал только словами, фразами, предложениями, текстовыми страницами. Он находил нужные страницы по вхождению нужных слов, независимо от смысла этих слов. В большинстве случаев это работает, но иногда - качество поиска оставляет желать лучшего. Чтобы повысить качество поиска Google создал Knowledge Graph - базу знаний из объектов (знаменитых людей, книг, фильмов, городов, ресторанов, событий ...), связанных друг с другом в одну сеть. Вы уже можете видеть карточки объектов из этой базы справа в поиске, погуглив какую-нибудь знаменитость. Но идея не только в том, чтобы предоставить быструю выжимку знаний о конкретном объекте, но и в том, чтобы понять каждый запрос пользователя на уровне объектов, а не только слов.