🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
👍6
Первое практическое применение РуДольфа и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
First Order Motion Model for Image Animation
Задача анимация изображения из видео, очень простая в формулировке, нужно сделать так что бы изображение повторяла движения на видео. Но решить ее без искажений достаточно сложно, кто то уже видел видео slidan'a на эту тему. Так вот, группа исследователей из Италии (университет DISI) опубликовали модель, которая работает в большинстве случаев куда лучше существующих аналогов, за счет нахождения ключевых точек и аффинных преобразований.
💻 Code | 📑Paper| 🤖Colab |🤗HuggingFace
Задача анимация изображения из видео, очень простая в формулировке, нужно сделать так что бы изображение повторяла движения на видео. Но решить ее без искажений достаточно сложно, кто то уже видел видео slidan'a на эту тему. Так вот, группа исследователей из Италии (университет DISI) опубликовали модель, которая работает в большинстве случаев куда лучше существующих аналогов, за счет нахождения ключевых точек и аффинных преобразований.
💻 Code | 📑Paper| 🤖Colab |🤗HuggingFace
👍7