Генерация изображений с помощью ИИ


2022. Google разработала улучшенный аналог нейросети DALL-E для генерации изображений



В 2021 году OpenAI представила нейросеть DALL-E, которая генерирует изображения по текстовому описанию, сформулированному простым языком. В DALL-E 2, представленной в начале апреля, исследователи модифицировали архитектуру модели и добились уже довольно качественной генерации в том числе и фотореалистичных изображений. Спустя полтора месяца исследователи из Google представили свою генеративную нейросетевую модель Imagen, которая архитектурно похожа на DALL-E 2, но все же имеет некоторые отличия и добивается лучших результатов. Imagen обучалась на собственных датасетах Google, в которых было суммарно 460 миллионов пар «изображение-описание», а также на публично доступном датасете Laion с 400 миллионами пар. В результате разработчикам удалось создать модель с высоким качеством генерации изображений разных типов.


2022. OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию



OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021-го. Программа теперь генерирует до четырёх раз более качественные изображения, чем предыдущая версия, опираясь лишь на описание на английском языке. На фото слева показаны возможности первой версии, а справа — на что способна обновлённая. Нейросеть научилась добавлять на изображения новые объекты и редактировать фотографии. DALL-E 2 может, например, заменить на изображении собаку на кота, или добавить надувного фламинго в интерьер. На примерах ниже слева находится оригинал, а справа — изображение после обработки нейросетью.


2021. Нейросеть от NVIDIA создает картинку по описанию. Как это выглядит


Американский производитель графических процессоров NVIDIA представил нейросеть GauGAN2, которая создает картинки по описанию. Достаточно предложения из трех-четырех слов. Пользователь может описать, что хочет увидеть на картинке, например «солнце в лесу» или «каменный пляж на закате». Нейросеть моментально реагирует на изменение запроса, поэтому его можно редактировать, пока не получиться нужный результат. Еще GauGAN2 позволяет создать карту сегментации. В ней можно начертить, как объекты будут располагаться на картинке.


2021. Сбер создал нейросеть, генерирующую картинки по описанию на русском языке



Сбер представил нейросеть ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна. Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики. Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив её с сервиса GitHub. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.