HuggingFace релизнули Синтетический генератор для text задач
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
pip — ну типа всё как у людей.- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
🔥1
Подвез цистерну новогоднего настроения 🎄🍒
👍7💩5🦄1
Две недели боли и недосыпов, но я добил последнюю часть в диссере.
MPC на базе нейронки + ReplayBuffer для адаптации, ухожу на праздники со спокойной душой писать статейки.
Да, он пока не сверх точный, но это решается просто увеличением набора данных и вариацией сигналов управления.
Первые две картинки это MPC + Neural Network + ReplayBuffer, а 3-я картинка это PID который в MatLab подбирал. Тут как бы сразу видно, плюс большой в скорости переходного процесса.
Кому интересно часть диссера лежит в GitHub
https://github.com/TensorAeroSpace/TensorAeroSpace
MPC на базе нейронки + ReplayBuffer для адаптации, ухожу на праздники со спокойной душой писать статейки.
Да, он пока не сверх точный, но это решается просто увеличением набора данных и вариацией сигналов управления.
Первые две картинки это MPC + Neural Network + ReplayBuffer, а 3-я картинка это PID который в MatLab подбирал. Тут как бы сразу видно, плюс большой в скорости переходного процесса.
Кому интересно часть диссера лежит в GitHub
https://github.com/TensorAeroSpace/TensorAeroSpace
🔥6👍2🦄2
С Новым 2025 годом дорогие подписчики! 🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🎉3🦄1
Оч продуктивно начался год, добил обновленный курс по ML System Design теперь он стал больше в 4 раза, плюс добавил примеры проектирования реальных ML систем.
Скоро начну записывать видосики.
Плюс добил две статьи которые весели с ноября месяца:
- Векторные базы данных: Практическое руководство по Chroma DB
- Как создать LLM-агента для перевода текста в SQL-запросы
Пишите в комменты, про что еще стоит написать статейку
Скоро начну записывать видосики.
Плюс добил две статьи которые весели с ноября месяца:
- Векторные базы данных: Практическое руководство по Chroma DB
- Как создать LLM-агента для перевода текста в SQL-запросы
Пишите в комменты, про что еще стоит написать статейку
👍4
Оказывается когда есть выходные, то можно много чего сделать.
Вот вчера перелапатил всю сетевую часть своих self-hosted сервисов и бахнул мониторинг тачек через Prometheus + Grafana.
Написал статейку к себе, с какими особенностями Cloud.ru столкнулся и как порешал.
Кому интеренсо - Настраиваем мониторинг виртуальных машин в Cloud.ru 🚀
Вот вчера перелапатил всю сетевую часть своих self-hosted сервисов и бахнул мониторинг тачек через Prometheus + Grafana.
Написал статейку к себе, с какими особенностями Cloud.ru столкнулся и как порешал.
Кому интеренсо - Настраиваем мониторинг виртуальных машин в Cloud.ru 🚀
😎4
2к бачей за RTX 5090
Обещают 4к AI TOPS.
В сравнении на 4090 1,3к AI TOPS, на H100 3,958 AI TOPS
Bandwidth увеличили в 2 раза, а значит сильно увеличили пропускную способоность проца к пямяти, а значит меньше задержек при генерации токенов
Жду когда к нам завезут, оч хочется посчитать насколько она выгоднее серверных карт
Обещают 4к AI TOPS.
В сравнении на 4090 1,3к AI TOPS, на H100 3,958 AI TOPS
Bandwidth увеличили в 2 раза, а значит сильно увеличили пропускную способоность проца к пямяти, а значит меньше задержек при генерации токенов
Жду когда к нам завезут, оч хочется посчитать насколько она выгоднее серверных карт
❤3🦄1
Nvida греет гоев
Они походу рил сравнивали 5090 и 4090 в flux.dev в разных форматах fp4 и fp8
Чуть порывшись в инете и datasheet, как я понял, проблема в том что 4090 не поддерживает fp4, а только nf4, и типо качество при fp4 такое же как и fp8/fp16, но времени надо меньше на генерацию.
Как пример сравненеи на втором изображении bf16 лево и fp4 право в flux
Но всеравно оч прогретое сравнение, почему как раньше не выложили время обучения ResNet50 как раньше, не понял
Они походу рил сравнивали 5090 и 4090 в flux.dev в разных форматах fp4 и fp8
Чуть порывшись в инете и datasheet, как я понял, проблема в том что 4090 не поддерживает fp4, а только nf4, и типо качество при fp4 такое же как и fp8/fp16, но времени надо меньше на генерацию.
Как пример сравненеи на втором изображении bf16 лево и fp4 право в flux
Но всеравно оч прогретое сравнение, почему как раньше не выложили время обучения ResNet50 как раньше, не понял
👍2🦄1