AnimeBackgroundGAN
Теперь делать визуальные новеллы в разы проще, ведь появилась GAN сеть для анимефикации фонов. Фотографируешь фоновое изображение, проводишь через AnimeBackgroundGAN и получаешь фон для визуальной новеллы.
Что сделали авторы? Взяли фоновые изображения из произведений Макото Синкая, Мамору Хосода, Хаяо Миядзаки, Сатоси Кона, и обучили CartoonGAN на имитирование стилей авторов.
💻 Code | 📑Paper |🤗HuggingFace
Теперь делать визуальные новеллы в разы проще, ведь появилась GAN сеть для анимефикации фонов. Фотографируешь фоновое изображение, проводишь через AnimeBackgroundGAN и получаешь фон для визуальной новеллы.
Что сделали авторы? Взяли фоновые изображения из произведений Макото Синкая, Мамору Хосода, Хаяо Миядзаки, Сатоси Кона, и обучили CartoonGAN на имитирование стилей авторов.
💻 Code | 📑Paper |🤗HuggingFace
👍17❤2
🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
💻 Code | 📑Paper (Soon) | 🤖Colab
👍6
Первое практическое применение РуДольфа и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
🤗HuggingFace
👍1