Нейросеть от компании Илона Маска и Microsoft преобразует текст в изображения: вот как это выглядит
Фронтенд-разработчик и энтузиаст в области искусственного интеллекта (ИИ) Алекса Штайнбрюк создала сайт, на котором с помощью нейросети для преобразования текста в изображение VQGAN+CLIP сгенерировала 44 изображения афиш к фильмам. Разбираемся, как она работает и угадываем зашифрованные нейронкой киноленты. У нас получилось только 9. А у вас?
Что это такое
VQGAN + CLIP — это нейросеть нового поколения, основанная на архитектуре CLIP, опубликованной компанией OpenAI (ее сооснователь — Илон Маск, а среди инвесторов — Microsoft, вложившая $1 млрд) в январе 2021 года. Она преобразует любой текст в изображение с учетом подсказок и некоторых параметров.
В отличие от аналогичных нейросетей для преобразования текста в изображения, таких как, например, AttentionGAN, инструмент создает более четкие и качественные картинки с высоким изображением.
VQGAN и CLIP
Архитектура нейронной сети VQGAN сочетает в себе сверточные нейронные сети (традиционно используемые для изображений) с преобразователями (традиционно используемыми для языка). Хотя VQGAN включает в себя трансформеры, модели обучаются не на тексте, а на чистых данных изображения.
CLIP = Contrastive Language – Image Pre-trainig
. Это модель, обученная определять, какая подпись из набора лучшего всего подходит для изображения. В отличие от VQGAN не является генеративной моделью, а просто обучена хорошо представлять как текст, так и изображение. Главная особенность в том, что CLIP отлично справляется с новыми наборами данных.
Работая вместе, VQGAN, как и все GAN, принимает вектор шума и выводит картинку. CLIP в свою очередь принимает:
- изображение и выводит его характеристики;
или
- текст и выводит текстовые функции.
Более подробно о принципах работы нейросети и как с ней работать можно посмотреть здесь и почитать здесь.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: