MLPops

🌟EXAONE 3.5: LG AI и их новая "магия".

Короче, LG AI Research выкатили тройку свежих моделей EXAONE 3.5, которые теперь разговаривают сразу на двух языках — английском и корейском. Плюс, контекстное окно аж на 32 тысячи токенов!

Как сделали лучше? Просто почистили датасет убрав дубликаты и персоналку.

🟠 2.4B — малышка для девайсов, можно таскать с собой, как пачку чипсов.
🟠 7.8B — середнячок, который хорош везде, куда не сунь.
🟢 32B — это уже пушка-гонка, если нужно решить что-то сложное и на максималках.

Вопросов если честно много, модельки глуповаты, плюс странный бэнч почему нет сравнения с другими моделями?

Короче жду статейку где разберут модельку или прогонят на арене

398 views11:38

MLPops

Please open Telegram to view this post

VIEW IN TELEGRAM

417 views12:01

MLPops

Все больше и больше погружаясь в работу с большими дадьками, начинаю ловить полный кринж от непонимания разработки, процессов и жизини микрочеликов который код пишут.

Вот наша платформа это гига квантовый скачек для разработчиков, смотришь а это тупо гиталаб со своими логотипами.
Чем он лучше чем GitHub? ПЛАТФОРМА НАША
Нахера мне это все? У меня есть GitHub, нужна будет какая то он прем история, то GitLab, а если захочу поизвращаться то gitea
У меня 33 платформы для разраба имеют авторизацию через GitHub

Ворваться на рынок где уже есть сформированные игроки? И идти говорить это наше, збс стратегия
Если хотите перебрать к себе клиентов то блин, делеайте плюшки как у GitHub Student Pack, завлекайте студентов, на хаки ходите с униками начните работать ваша база это студенты. Я вот вспоминаю первые курсы нашем собществе в институте начинались как раз с git и работы с ним, промики, лицензии на ide и тд

Или вот есть обучение МЛ моделей, а мы вот делаем инструменты для ДООБУЧЕНИЯ, это совершенно другое!
У меня только один вопрос, а они вообще понимают в чем разница между этим? Ну типо ручками хоть раз что то делали?

Короче чем выше к дядькам тем больше ор

438 viewsedited 14:52

MLPops

This media is not supported in your browser

VIEW IN TELEGRAM

438 views14:52

MLPops

416 views16:42

MLPops

Раньше смотрели сборки игровых компов, теперь смотрим сборки серваков

https://www.youtube.com/watch?v=RjWRXNiz50c

YouTube

Inside a MEGA AI GPU Server with the NVIDIA HGX H200

We take apart an NVIDIA HGX H200 8 GPU server from Aivres. The Aivres KR6288 is the company's Intel Xeon-powered AI server for the NVIDIA Hopper generation, and we have installed over 3.6Tbps of networking for a massive AI server.

STH Main Site Article:…

433 views08:02

MLPops

Типикал Artificial intelligence engineers (??Ilya Gusev??)

504 views13:53

MLPops

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Ох ох скоро скоро прием зачетов и экзаменов и сотни клоунов будут ждать когда можно смехуечку закинуть

386 views15:08

MLPops

Там Google релизнули обновленную версию Gemeni-Exp-1206, пока что топ по задачам в коде Как использовать Gemini-Exp-1206 бесплатно? 1. Перейдите в Google AI Studio и войдите в систему (бесплатно). 2. Перейдите в раздел "Создать запрос" (Create prompt).…

Релизнули Gemeni 2.0 Flash Experemental

Ну релизнули и релизнули

Как тыкать бесплатно в посте выше написал.

Все равно пока нет сетки которая напишет за меня диссер по RL в САУ ЛА.

396 views20:15

MLPops

txtai: новая тулза работы с LLM и векторными поисками

✏️ Что это вообще такое?
txtai — это база данных эмбеддингов, которая умеет:
- Делать семантический поиск,
- Управлять рабочими процессами с большими языковыми моделями (LLM),
- Оркестрировать всякие сложные штуки, типа Retrieval Augmented Generation (RAG).

Короче, txtai — это микс векторных индексов, графов и реляционных баз. Это звучит сложно, но в реале всё просто, как шавуху макнуть в чесночный соус.

📦 Фишки txtai:
1. 🔎 Векторный поиск. SQL, графы, мультимодальная индексация — всё это в одном пакете.
2. 📄 Эмбеддинги для всего: текста, документов, аудио, картинок и даже видео.
3. 💡 Pipelines: отвечают на вопросы, маркируют данные, транскрибируют аудио, переводят текст и ещё много всего.
4. ↪️ Workflows: микросервисы для автоматизации бизнес-логики.
5. 🤖 Агенты: они связывают все эти штуки и решают сложные задачи сами. Типа Skynet, только без апокалипсиса.
6. ⚙️ Для разработчиков: Python и YAML в деле. Плюс API для JavaScript, Rust, Go и Java.
7. ☁️ Локально или в облаке: выбирай, что тебе удобнее.

📚 На чём работает?
- Python 3.9+
- Hugging Face Transformers
- Sentence Transformers
- FastAPI

🔗 Полезные ссылки:
- Официальная дока
- GitHub
- Примеры использования

491 views08:56

MLPops

Команда TGI из HuggingFace реально постаралась!

Теперь прямо "из коробки" вы получаете улучшения по сравнению с vLLM — и всё это без настройки. Всё, что нужно, — это указать Hugging Face model ID.

Основные моменты релиза:

🚀 Рывок в производительности:
- 3x больше токенов: TGI обрабатывает в 3 раза больше токенов.
- 13x быстрее: На длинных промптах ответы генерируются в 13 раз быстрее, чем в vLLM.
- Zero config: Никакой настройки, просто работай!

Подробности:

3x больше токенов
- Cократили потребление памяти, что позволяет обрабатывать значительно больше токенов.
- На одной L4 (24GB) TGI тянет 30k токенов на llama 3.1-8B, тогда как vLLM справляется с едва ли 10k.
- Огромная работа была проделана, чтобы уменьшить runtime и оптимизировать работу на ограниченных ресурсах.

13x быстрее
- На длинных промптах (200k+ токенов) время ответа в vLLM составляет 27,5 секунд, а в TGI — всего 2 секунды.
- Как это работает? Cохраняется первоначальный разговор, так что новый ответ можно сгенерировать почти мгновенно. Задержка при поиске — всего ~5us.

Zero config
- Убирайте все ваши флаги — скорее всего, вы получите лучшую производительность без них.
- TGI автоматически подбирает оптимальные значения в зависимости от оборудования и модели.
- В продакшене у нас больше нет флагов в деплоях (но для редких сценариев они остаются доступны).

Доку смотри тут:
👉 Документация по TGI

540 views11:34

MLPops

Сижу на 2070s и не вижу повода менять

599 views16:21

MLPops

Оч весело провел выходные, дисеры и 1000 эксперементов в RL
Самое сложное в политиках RL добиться стабильной сходимости, а то такая стабильность что из 100 раз 2 раза сходиться на 2 сек
Короче, январские будут збс прям чувствую

437 views07:52

MLPops

Meta снова закинула нас в будущее и презентовала новую тему с токенизацией. Короче, если вы не в курсе, токенизация — это такая штука, от которой у LLM-систем вечно мозги кипят, особенно с математикой. Ну, представьте: токенайзер берет число 380 и оставляет его как "380", а вот 381 уже превращает в "38" и "1". Логика, конечно, зверская. Модели такие: "Эм, что вообще происходит? Что это за число?". И да, токен ≠ слово, токен ≠ слог, токен вообще ничто определённое. Поэтому, кстати, модели страдают даже с банальными задачами типа "посчитай буквы r в слове strawberry".

Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.

Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.

Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.

Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.

Пост Meta

549 views07:53

About

Blog

Apps

Platform