🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
👍6
Первое практическое применение РуДольфа и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
First Order Motion Model for Image Animation
Задача анимация изображения из видео, очень простая в формулировке, нужно сделать так что бы изображение повторяла движения на видео. Но решить ее без искажений достаточно сложно, кто то уже видел видео slidan'a на эту тему. Так вот, группа исследователей из Италии (университет DISI) опубликовали модель, которая работает в большинстве случаев куда лучше существующих аналогов, за счет нахождения ключевых точек и аффинных преобразований.
💻 Code | 📑Paper| 🤖Colab |🤗HuggingFace
Задача анимация изображения из видео, очень простая в формулировке, нужно сделать так что бы изображение повторяла движения на видео. Но решить ее без искажений достаточно сложно, кто то уже видел видео slidan'a на эту тему. Так вот, группа исследователей из Италии (университет DISI) опубликовали модель, которая работает в большинстве случаев куда лучше существующих аналогов, за счет нахождения ключевых точек и аффинных преобразований.
💻 Code | 📑Paper| 🤖Colab |🤗HuggingFace
👍7
Time-Travel Rephotography.
"В отличие от обычных способов восстановления изображений, которые применяют разные независимые операции, такие как шумоподавление, раскрашивание и сверхразрешение, мы используем фреймворк StyleGAN2 для проецирования старых фотографий в пространство современных фотографий с высоким разрешением, достигая всех этих эффектов в единой структуре. Уникальность подхода - запечатлеть идентичность и позу объекта фотографии, а не множество артефактов на антикварных фотографиях низкого качества."
Год назад канале Two Minute Papers, вышло видео с описанием технологии и статьи, помню как пару месяцев сидел мониторил когда разместят код, но потом забил. И вот спустя год, они его выложили! И причем сразу с колабом!
Дополнительно данным алгоритмом можно неплохо "очеловечивать" различных персонажей.
Для теста, взял авиаконструкторов СССР и прогнал через сетку, результат реально "ВАУ!"
💻 Code | 📑Paper| 🤖Colab
"В отличие от обычных способов восстановления изображений, которые применяют разные независимые операции, такие как шумоподавление, раскрашивание и сверхразрешение, мы используем фреймворк StyleGAN2 для проецирования старых фотографий в пространство современных фотографий с высоким разрешением, достигая всех этих эффектов в единой структуре. Уникальность подхода - запечатлеть идентичность и позу объекта фотографии, а не множество артефактов на антикварных фотографиях низкого качества."
Год назад канале Two Minute Papers, вышло видео с описанием технологии и статьи, помню как пару месяцев сидел мониторил когда разместят код, но потом забил. И вот спустя год, они его выложили! И причем сразу с колабом!
Дополнительно данным алгоритмом можно неплохо "очеловечивать" различных персонажей.
Для теста, взял авиаконструкторов СССР и прогнал через сетку, результат реально "ВАУ!"
💻 Code | 📑Paper| 🤖Colab
YouTube
This is What Abraham Lincoln May Have Looked Like! 🎩
❤️ Check out Weights & Biases and sign up for a free demo here: https://www.wandb.com/papers
❤️ Their mentioned post is available here: https://wandb.ai/wandb/instacolorization/reports/Overview-Instance-Aware-Image-Colorization---VmlldzoyOTk3MDI
📝 The paper…
❤️ Their mentioned post is available here: https://wandb.ai/wandb/instacolorization/reports/Overview-Instance-Aware-Image-Colorization---VmlldzoyOTk3MDI
📝 The paper…
👍1😱1