MLPops
760 subscribers
424 photos
120 videos
5 files
180 links
We are ML&MLOps community based in 🇷🇺Russia

Наш чат - t.me/+qJm7Ak4nU4EwZmJi
Download Telegram
Media is too big
VIEW IN TELEGRAM
🎴 StyleGAN3

Вчера вечером NVIDIA выложила StyleGAN3, статью которой выложили еще в июне (Alias-Free Generative Adversarial Networks)

🤔 Проблема StyleGAN и StyleGAN2
В процессе синтеза StyleGAN’ами изображений возникает нездоровая зависимость паттернов от абсолютных пиксельных координат. Как это проявляется? А проявляется это в виде того, что текстура кажется приклеенной к координатам, а не к поверхностям генерируемых изображений. В новой версии, нашли причину из-за которой возникает это проблема и избавились от неё.

📑 Paper | 💻 Code | 🤖 Colab | 🖥 Сайт
Завтра я
Anonymous Poll
60%
Приду
40%
Не приду
Поскольку 8 институт перевели на дистанционную форму. Нам нужно понять, сколько людей завтра придёт. Поэтому
This media is not supported in your browser
VIEW IN TELEGRAM
Долго пытался разобраться, как в StyleGan3 запихнуть Погосяна, но так и не разобрался. На выходных попробую доделать.

Сделал связку из CLIP -> StyleGan3

CLIP генерирует векторное представление изображения через текстовое описание, а StyleGan3 пытается привести начальное изображение к вектору от CLIP.

Вот что вышло по описанию: King Billy Herrington portrait in style of real life
Для тех кто остался дома, наш дедуля @MaximEremin поднял стрим на твиче. Сегодня будет разбирать Docker и Kubernetes.

Запись стрима будет ближе к вечеру.
https://www.twitch.tv/itcentremai
This media is not supported in your browser
VIEW IN TELEGRAM
Практииически получилось, на выходных точно добью и выложу 🤖Colab версию
Нашел модельку для StyleGAN2 с обученными весами на женщинах кошках. Совсем недавно, автор описал как увеличить ёмкость StyleGAN2 до 250 миллионов параметров и выложил веса модели, натренированной на косплей-лицах.

Я подготовил для вас 🤖Colab, генерируйте и кидайте в чатик

Только посмотрите какая милота получилась
VQGAN + CLIP

Это комбинация нейронных сетей которая преобразует текстовое описание в изображение.

VQGAN (Vector Quantized Generative Adversarial Network), это сеть сочетает в себе сверточные слои с слоями transformer, что отлично позволяет генерировать изображения с высоким разрешением.

CLIP (Contrastive Language–Image Pre-training) модель которую обучили определять какое описание из списка описаний лучше всего подходит для выбранного изображения

Как и все GAN сети, VQGAN принимает вектор шума и генерирует (выводит) реалистичное изображение. А CLIP генерирует векторное представление из текстового описания.

Пример созданных таким методом изображений:
- creation of the galaxy photo taken by the hubble telescope
- earth from space
- gravitational light distortion photo taken by hubble telescope
- pillars of creation photo taken by hubble telescope
- roscosmos rocket on takeoff

💻 Code | 🤖 Colab

P.S. Как нибудь вкратце распишу как CLIP был обучен и как пришли к этой идеи.