Meta снова закинула нас в будущее и презентовала новую тему с токенизацией. Короче, если вы не в курсе, токенизация — это такая штука, от которой у LLM-систем вечно мозги кипят, особенно с математикой. Ну, представьте: токенайзер берет число 380 и оставляет его как "380", а вот 381 уже превращает в "38" и "1". Логика, конечно, зверская. Модели такие: "Эм, что вообще происходит? Что это за число?". И да, токен ≠ слово, токен ≠ слог, токен вообще ничто определённое. Поэтому, кстати, модели страдают даже с банальными задачами типа "посчитай буквы r в слове strawberry".
Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.
Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.
Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.
Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.
Пост Meta
Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.
Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.
Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.
Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.
Пост Meta
Илья Суцкевер (сооснователь OpenAI, тот самый который который типо в Сбер уйти должен был) выступил на NeurIPS 2024
В кратце о чем говорил
1) Эпоха масштабирования данных завершилась. Вычислительные мощности продолжают улучшаться, но у нас по-прежнему есть только "один интернет".
2) Новыми большими направлениями становятся такие вещи, как TTT (Test-Time Training), ИИ агенты, inference time scaling, синтетические данные и многое другое.
3) На одном из слайдов он сравнивает массу мозга и массу тела у млекопитающих. Чем больше животное, тем тяжелее его мозг. Большинство млекопитающих следует общей тенденции (график показан в виде большой линии), но, как оказалось, гоминиды — люди, шимпанзе, неандертальцы и обезьяны — идут своим собственным путём. Их линия выше основной и имеет более крутой наклон.
Основная идея: даже в одном и том же окружении (на Земле) природа создала разные схемы масштабирования. Это должно вдохновлять нас искать новые подходы к масштабированию для повышения производительности.
Ссылка на видос
В кратце о чем говорил
1) Эпоха масштабирования данных завершилась. Вычислительные мощности продолжают улучшаться, но у нас по-прежнему есть только "один интернет".
2) Новыми большими направлениями становятся такие вещи, как TTT (Test-Time Training), ИИ агенты, inference time scaling, синтетические данные и многое другое.
3) На одном из слайдов он сравнивает массу мозга и массу тела у млекопитающих. Чем больше животное, тем тяжелее его мозг. Большинство млекопитающих следует общей тенденции (график показан в виде большой линии), но, как оказалось, гоминиды — люди, шимпанзе, неандертальцы и обезьяны — идут своим собственным путём. Их линия выше основной и имеет более крутой наклон.
Основная идея: даже в одном и том же окружении (на Земле) природа создала разные схемы масштабирования. Это должно вдохновлять нас искать новые подходы к масштабированию для повышения производительности.
Ссылка на видос
HuggingFace релизнули Синтетический генератор для text задач
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
pip
— ну типа всё как у людей.- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
Подвез цистерну новогоднего настроения 🎄🍒
Две недели боли и недосыпов, но я добил последнюю часть в диссере.
MPC на базе нейронки + ReplayBuffer для адаптации, ухожу на праздники со спокойной душой писать статейки.
Да, он пока не сверх точный, но это решается просто увеличением набора данных и вариацией сигналов управления.
Первые две картинки это MPC + Neural Network + ReplayBuffer, а 3-я картинка это PID который в MatLab подбирал. Тут как бы сразу видно, плюс большой в скорости переходного процесса.
Кому интересно часть диссера лежит в GitHub
https://github.com/TensorAeroSpace/TensorAeroSpace
MPC на базе нейронки + ReplayBuffer для адаптации, ухожу на праздники со спокойной душой писать статейки.
Да, он пока не сверх точный, но это решается просто увеличением набора данных и вариацией сигналов управления.
Первые две картинки это MPC + Neural Network + ReplayBuffer, а 3-я картинка это PID который в MatLab подбирал. Тут как бы сразу видно, плюс большой в скорости переходного процесса.
Кому интересно часть диссера лежит в GitHub
https://github.com/TensorAeroSpace/TensorAeroSpace
С Новым 2025 годом дорогие подписчики! 🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
Оч продуктивно начался год, добил обновленный курс по ML System Design теперь он стал больше в 4 раза, плюс добавил примеры проектирования реальных ML систем.
Скоро начну записывать видосики.
Плюс добил две статьи которые весели с ноября месяца:
- Векторные базы данных: Практическое руководство по Chroma DB
- Как создать LLM-агента для перевода текста в SQL-запросы
Пишите в комменты, про что еще стоит написать статейку
Скоро начну записывать видосики.
Плюс добил две статьи которые весели с ноября месяца:
- Векторные базы данных: Практическое руководство по Chroma DB
- Как создать LLM-агента для перевода текста в SQL-запросы
Пишите в комменты, про что еще стоит написать статейку
mlpops.ru
Узнайте, как эффективно использовать Chroma DB — современную векторную базу данных для хранения и поиска эмбеддингов. В статье подробно рассмотрены ключевые возможности Chroma DB: высокоскоростной поиск по схожести, управление метаданными, масштабируемость…