MLPops
788 subscribers
424 photos
120 videos
5 files
180 links
We are ML&MLOps community based in 🇷🇺Russia

Наш чат - t.me/+qJm7Ak4nU4EwZmJi
Download Telegram
🌟EXAONE 3.5: LG AI и их новая "магия".

Короче, LG AI Research выкатили тройку свежих моделей EXAONE 3.5, которые теперь разговаривают сразу на двух языках — английском и корейском. Плюс, контекстное окно аж на 32 тысячи токенов!

Как сделали лучше? Просто почистили датасет убрав дубликаты и персоналку.


🟠 2.4B — малышка для девайсов, можно таскать с собой, как пачку чипсов.
🟠 7.8B — середнячок, который хорош везде, куда не сунь.
🟢 32B — это уже пушка-гонка, если нужно решить что-то сложное и на максималках.

Вопросов если честно много, модельки глуповаты, плюс странный бэнч почему нет сравнения с другими моделями?


Короче жду статейку где разберут модельку или прогонят на арене
Please open Telegram to view this post
VIEW IN TELEGRAM
Все больше и больше погружаясь в работу с большими дадьками, начинаю ловить полный кринж от непонимания разработки, процессов и жизини микрочеликов который код пишут.

Вот наша платформа это гига квантовый скачек для разработчиков, смотришь а это тупо гиталаб со своими логотипами.
Чем он лучше чем GitHub? ПЛАТФОРМА НАША
Нахера мне это все? У меня есть GitHub, нужна будет какая то он прем история, то GitLab, а если захочу поизвращаться то gitea
У меня 33 платформы для разраба имеют авторизацию через GitHub

Ворваться на рынок где уже есть сформированные игроки? И идти говорить это наше, збс стратегия
Если хотите перебрать к себе клиентов то блин, делеайте плюшки как у GitHub Student Pack, завлекайте студентов, на хаки ходите с униками начните работать ваша база это студенты. Я вот вспоминаю первые курсы нашем собществе в институте начинались как раз с git и работы с ним, промики, лицензии на ide и тд

Или вот есть обучение МЛ моделей, а мы вот делаем инструменты для ДООБУЧЕНИЯ, это совершенно другое!
У меня только один вопрос, а они вообще понимают в чем разница между этим? Ну типо ручками хоть раз что то делали?

Короче чем выше к дядькам тем больше ор
This media is not supported in your browser
VIEW IN TELEGRAM
Типикал Artificial intelligence engineers (??Ilya Gusev??)
This media is not supported in your browser
VIEW IN TELEGRAM
Ох ох скоро скоро прием зачетов и экзаменов и сотни клоунов будут ждать когда можно смехуечку закинуть
MLPops
Там Google релизнули обновленную версию Gemeni-Exp-1206, пока что топ по задачам в коде Как использовать Gemini-Exp-1206 бесплатно? 1. Перейдите в Google AI Studio и войдите в систему (бесплатно). 2. Перейдите в раздел "Создать запрос" (Create prompt).…
Релизнули Gemeni 2.0 Flash Experemental

Ну релизнули и релизнули

Как тыкать бесплатно в посте выше написал.

Все равно пока нет сетки которая напишет за меня диссер по RL в САУ ЛА.
txtai: новая тулза работы с LLM и векторными поисками

✏️ Что это вообще такое?
txtai — это база данных эмбеддингов, которая умеет:
- Делать семантический поиск,
- Управлять рабочими процессами с большими языковыми моделями (LLM),
- Оркестрировать всякие сложные штуки, типа Retrieval Augmented Generation (RAG).

Короче, txtai — это микс векторных индексов, графов и реляционных баз. Это звучит сложно, но в реале всё просто, как шавуху макнуть в чесночный соус.

📦 Фишки txtai:
1. 🔎 Векторный поиск. SQL, графы, мультимодальная индексация — всё это в одном пакете.
2. 📄 Эмбеддинги для всего: текста, документов, аудио, картинок и даже видео.
3. 💡 Pipelines: отвечают на вопросы, маркируют данные, транскрибируют аудио, переводят текст и ещё много всего.
4. ↪️ Workflows: микросервисы для автоматизации бизнес-логики.
5. 🤖 Агенты: они связывают все эти штуки и решают сложные задачи сами. Типа Skynet, только без апокалипсиса.
6. ⚙️ Для разработчиков: Python и YAML в деле. Плюс API для JavaScript, Rust, Go и Java.
7. ☁️ Локально или в облаке: выбирай, что тебе удобнее.


📚 На чём работает?
- Python 3.9+
- Hugging Face Transformers
- Sentence Transformers
- FastAPI


🔗 Полезные ссылки:
- Официальная дока
- GitHub
- Примеры использования
Команда TGI из HuggingFace реально постаралась!

Теперь прямо "из коробки" вы получаете улучшения по сравнению с vLLM — и всё это без настройки. Всё, что нужно, — это указать Hugging Face model ID.

Основные моменты релиза:

🚀 Рывок в производительности:
- 3x больше токенов: TGI обрабатывает в 3 раза больше токенов.
- 13x быстрее: На длинных промптах ответы генерируются в 13 раз быстрее, чем в vLLM.
- Zero config: Никакой настройки, просто работай!

Подробности:

3x больше токенов
- Cократили потребление памяти, что позволяет обрабатывать значительно больше токенов.
- На одной L4 (24GB) TGI тянет 30k токенов на llama 3.1-8B, тогда как vLLM справляется с едва ли 10k.
- Огромная работа была проделана, чтобы уменьшить runtime и оптимизировать работу на ограниченных ресурсах.

13x быстрее
- На длинных промптах (200k+ токенов) время ответа в vLLM составляет 27,5 секунд, а в TGI — всего 2 секунды.
- Как это работает? Cохраняется первоначальный разговор, так что новый ответ можно сгенерировать почти мгновенно. Задержка при поиске — всего ~5us.

Zero config
- Убирайте все ваши флаги — скорее всего, вы получите лучшую производительность без них.
- TGI автоматически подбирает оптимальные значения в зависимости от оборудования и модели.
- В продакшене у нас больше нет флагов в деплоях (но для редких сценариев они остаются доступны).

Доку смотри тут:
👉 Документация по TGI
Сижу на 2070s и не вижу повода менять
Оч весело провел выходные, дисеры и 1000 эксперементов в RL
Самое сложное в политиках RL добиться стабильной сходимости, а то такая стабильность что из 100 раз 2 раза сходиться на 2 сек
Короче, январские будут збс прям чувствую
Meta снова закинула нас в будущее и презентовала новую тему с токенизацией. Короче, если вы не в курсе, токенизация — это такая штука, от которой у LLM-систем вечно мозги кипят, особенно с математикой. Ну, представьте: токенайзер берет число 380 и оставляет его как "380", а вот 381 уже превращает в "38" и "1". Логика, конечно, зверская. Модели такие: "Эм, что вообще происходит? Что это за число?". И да, токен ≠ слово, токен ≠ слог, токен вообще ничто определённое. Поэтому, кстати, модели страдают даже с банальными задачами типа "посчитай буквы r в слове strawberry".

Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.

Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.

Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.

Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.

Пост Meta