MLPops

HuggingFace релизнули Синтетический генератор для text задач

Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.

Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.

Почему это круто?

Эта приблуда максимально упрощает тебе жизнь:

1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.

Фишки, от которых ты можешь прифигеть:
- Устанавливается через pip — ну типа всё как у людей.
- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.

Чё дальше?

Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:

Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.

🔥1

809 views09:27

MLPops

Вчера был 10 день презентаций от OpenAI

Теперь можно не писать в чатгпт, а просто ПОЗВОНИТЬ

❤4

770 views08:16

MLPops

2:24

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

Подвез цистерну новогоднего настроения 🎄🍒

👍7💩5🦄1

974 views16:12

MLPops

Две недели боли и недосыпов, но я добил последнюю часть в диссере.
MPC на базе нейронки + ReplayBuffer для адаптации, ухожу на праздники со спокойной душой писать статейки.
Да, он пока не сверх точный, но это решается просто увеличением набора данных и вариацией сигналов управления.

Первые две картинки это MPC + Neural Network + ReplayBuffer, а 3-я картинка это PID который в MatLab подбирал. Тут как бы сразу видно, плюс большой в скорости переходного процесса.

Кому интересно часть диссера лежит в GitHub
https://github.com/TensorAeroSpace/TensorAeroSpace

🔥6👍2🦄2

876 views15:35

MLPops

С Новым 2025 годом дорогие подписчики! 🍷

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🎉3🦄1

652 views21:01

MLPops

Оч продуктивно начался год, добил обновленный курс по ML System Design теперь он стал больше в 4 раза, плюс добавил примеры проектирования реальных ML систем.
Скоро начну записывать видосики.

Плюс добил две статьи которые весели с ноября месяца:
- Векторные базы данных: Практическое руководство по Chroma DB
- Как создать LLM-агента для перевода текста в SQL-запросы

Пишите в комменты, про что еще стоит написать статейку

👍4

802 views10:51

MLPops

Оказывается когда есть выходные, то можно много чего сделать.
Вот вчера перелапатил всю сетевую часть своих self-hosted сервисов и бахнул мониторинг тачек через Prometheus + Grafana.
Написал статейку к себе, с какими особенностями Cloud.ru столкнулся и как порешал.
Кому интеренсо - Настраиваем мониторинг виртуальных машин в Cloud.ru 🚀

😎4

696 views11:17

MLPops

2к бачей за RTX 5090

Обещают 4к AI TOPS.

В сравнении на 4090 1,3к AI TOPS, на H100 3,958 AI TOPS

Bandwidth увеличили в 2 раза, а значит сильно увеличили пропускную способоность проца к пямяти, а значит меньше задержек при генерации токенов

Жду когда к нам завезут, оч хочется посчитать насколько она выгоднее серверных карт

❤3🦄1

879 views09:23

MLPops

Nvida греет гоев

Они походу рил сравнивали 5090 и 4090 в flux.dev в разных форматах fp4 и fp8

Чуть порывшись в инете и datasheet, как я понял, проблема в том что 4090 не поддерживает fp4, а только nf4, и типо качество при fp4 такое же как и fp8/fp16, но времени надо меньше на генерацию.

Как пример сравненеи на втором изображении bf16 лево и fp4 право в flux

Но всеравно оч прогретое сравнение, почему как раньше не выложили время обучения ResNet50 как раньше, не понял

👍2🦄1

973 views08:15

MLPops

Есть тут любители LongChain или есть те кто без него отлично живут?

🍌3❤1👾1

717 views14:52

About

Blog

Apps

Platform