This media is not supported in your browser
VIEW IN TELEGRAM
Ох ох скоро скоро прием зачетов и экзаменов и сотни клоунов будут ждать когда можно смехуечку закинуть
🤡9
MLPops
Там Google релизнули обновленную версию Gemeni-Exp-1206, пока что топ по задачам в коде Как использовать Gemini-Exp-1206 бесплатно? 1. Перейдите в Google AI Studio и войдите в систему (бесплатно). 2. Перейдите в раздел "Создать запрос" (Create prompt).…
Релизнули Gemeni 2.0 Flash Experemental
Ну релизнули и релизнули
Как тыкать бесплатно в посте выше написал.
Все равно пока нет сетки которая напишет за меня диссер по RL в САУ ЛА.
Ну релизнули и релизнули
Как тыкать бесплатно в посте выше написал.
Все равно пока нет сетки которая напишет за меня диссер по RL в САУ ЛА.
txtai: новая тулза работы с LLM и векторными поисками
✏️ Что это вообще такое?
txtai — это база данных эмбеддингов, которая умеет:
- Делать семантический поиск,
- Управлять рабочими процессами с большими языковыми моделями (LLM),
- Оркестрировать всякие сложные штуки, типа Retrieval Augmented Generation (RAG).
Короче, txtai — это микс векторных индексов, графов и реляционных баз. Это звучит сложно, но в реале всё просто, как шавуху макнуть в чесночный соус.
📦 Фишки txtai:
1. 🔎 Векторный поиск. SQL, графы, мультимодальная индексация — всё это в одном пакете.
2. 📄 Эмбеддинги для всего: текста, документов, аудио, картинок и даже видео.
3. 💡 Pipelines: отвечают на вопросы, маркируют данные, транскрибируют аудио, переводят текст и ещё много всего.
4. ↪️ Workflows: микросервисы для автоматизации бизнес-логики.
5. 🤖 Агенты: они связывают все эти штуки и решают сложные задачи сами. Типа Skynet, только без апокалипсиса.
6. ⚙️ Для разработчиков: Python и YAML в деле. Плюс API для JavaScript, Rust, Go и Java.
7. ☁️ Локально или в облаке: выбирай, что тебе удобнее.
📚 На чём работает?
- Python 3.9+
- Hugging Face Transformers
- Sentence Transformers
- FastAPI
🔗 Полезные ссылки:
- Официальная дока
- GitHub
- Примеры использования
✏️ Что это вообще такое?
txtai — это база данных эмбеддингов, которая умеет:
- Делать семантический поиск,
- Управлять рабочими процессами с большими языковыми моделями (LLM),
- Оркестрировать всякие сложные штуки, типа Retrieval Augmented Generation (RAG).
Короче, txtai — это микс векторных индексов, графов и реляционных баз. Это звучит сложно, но в реале всё просто, как шавуху макнуть в чесночный соус.
📦 Фишки txtai:
1. 🔎 Векторный поиск. SQL, графы, мультимодальная индексация — всё это в одном пакете.
2. 📄 Эмбеддинги для всего: текста, документов, аудио, картинок и даже видео.
3. 💡 Pipelines: отвечают на вопросы, маркируют данные, транскрибируют аудио, переводят текст и ещё много всего.
4. ↪️ Workflows: микросервисы для автоматизации бизнес-логики.
5. 🤖 Агенты: они связывают все эти штуки и решают сложные задачи сами. Типа Skynet, только без апокалипсиса.
6. ⚙️ Для разработчиков: Python и YAML в деле. Плюс API для JavaScript, Rust, Go и Java.
7. ☁️ Локально или в облаке: выбирай, что тебе удобнее.
📚 На чём работает?
- Python 3.9+
- Hugging Face Transformers
- Sentence Transformers
- FastAPI
🔗 Полезные ссылки:
- Официальная дока
- GitHub
- Примеры использования
🔥1
Команда TGI из HuggingFace реально постаралась!
Теперь прямо "из коробки" вы получаете улучшения по сравнению с vLLM — и всё это без настройки. Всё, что нужно, — это указать Hugging Face model ID.
Основные моменты релиза:
🚀 Рывок в производительности:
- 3x больше токенов: TGI обрабатывает в 3 раза больше токенов.
- 13x быстрее: На длинных промптах ответы генерируются в 13 раз быстрее, чем в vLLM.
- Zero config: Никакой настройки, просто работай!
Подробности:
3x больше токенов
- Cократили потребление памяти, что позволяет обрабатывать значительно больше токенов.
- На одной L4 (24GB) TGI тянет 30k токенов на llama 3.1-8B, тогда как vLLM справляется с едва ли 10k.
- Огромная работа была проделана, чтобы уменьшить runtime и оптимизировать работу на ограниченных ресурсах.
13x быстрее
- На длинных промптах (200k+ токенов) время ответа в vLLM составляет 27,5 секунд, а в TGI — всего 2 секунды.
- Как это работает? Cохраняется первоначальный разговор, так что новый ответ можно сгенерировать почти мгновенно. Задержка при поиске — всего ~5us.
Zero config
- Убирайте все ваши флаги — скорее всего, вы получите лучшую производительность без них.
- TGI автоматически подбирает оптимальные значения в зависимости от оборудования и модели.
- В продакшене у нас больше нет флагов в деплоях (но для редких сценариев они остаются доступны).
Доку смотри тут:
👉 Документация по TGI
Теперь прямо "из коробки" вы получаете улучшения по сравнению с vLLM — и всё это без настройки. Всё, что нужно, — это указать Hugging Face model ID.
Основные моменты релиза:
🚀 Рывок в производительности:
- 3x больше токенов: TGI обрабатывает в 3 раза больше токенов.
- 13x быстрее: На длинных промптах ответы генерируются в 13 раз быстрее, чем в vLLM.
- Zero config: Никакой настройки, просто работай!
Подробности:
3x больше токенов
- Cократили потребление памяти, что позволяет обрабатывать значительно больше токенов.
- На одной L4 (24GB) TGI тянет 30k токенов на llama 3.1-8B, тогда как vLLM справляется с едва ли 10k.
- Огромная работа была проделана, чтобы уменьшить runtime и оптимизировать работу на ограниченных ресурсах.
13x быстрее
- На длинных промптах (200k+ токенов) время ответа в vLLM составляет 27,5 секунд, а в TGI — всего 2 секунды.
- Как это работает? Cохраняется первоначальный разговор, так что новый ответ можно сгенерировать почти мгновенно. Задержка при поиске — всего ~5us.
Zero config
- Убирайте все ваши флаги — скорее всего, вы получите лучшую производительность без них.
- TGI автоматически подбирает оптимальные значения в зависимости от оборудования и модели.
- В продакшене у нас больше нет флагов в деплоях (но для редких сценариев они остаются доступны).
Доку смотри тут:
👉 Документация по TGI
Оч весело провел выходные, дисеры и 1000 эксперементов в RL
Самое сложное в политиках RL добиться стабильной сходимости, а то такая стабильность что из 100 раз 2 раза сходиться на 2 сек
Короче, январские будут збс прям чувствую
Самое сложное в политиках RL добиться стабильной сходимости, а то такая стабильность что из 100 раз 2 раза сходиться на 2 сек
Короче, январские будут збс прям чувствую
🦄4
Meta снова закинула нас в будущее и презентовала новую тему с токенизацией. Короче, если вы не в курсе, токенизация — это такая штука, от которой у LLM-систем вечно мозги кипят, особенно с математикой. Ну, представьте: токенайзер берет число 380 и оставляет его как "380", а вот 381 уже превращает в "38" и "1". Логика, конечно, зверская. Модели такие: "Эм, что вообще происходит? Что это за число?". И да, токен ≠ слово, токен ≠ слог, токен вообще ничто определённое. Поэтому, кстати, модели страдают даже с банальными задачами типа "посчитай буквы r в слове strawberry".
Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.
Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.
Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.
Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.
Пост Meta
Так вот, в Meta решили такие: "А зачем нам вообще токены, давайте байты юзать". И идея вроде не нова — был уже старенький MambaByte, который про token-free LM (https://arxiv.org/abs/2401.13660), но Meta добавила фишку: чтобы последовательности байтов не уходили в бесконечность, они прикрутили динамическое кодирование в патчи.
Эти самые патчи теперь — главные звёзды шоу. Модель не просто хавает байты, а пытается угадать следующий патч. Как это работает? Патчи динамически делятся по энтропии следующего байта: если данные простые, то патчи длиннее, если сложные — короче. Но тут не всё так гладко: перед этим байты проходят через локальный энкодер, а после предсказания патчей их снова нужно декодить.
Теперь про бенчмарки. Ребят, там пушка! Их Byte Latent Transformer (BLT) по перплексии (это такая метрика, которая, если проще, не завязана на кривость токенизатора) уже на уровне или даже чуть выше LLaMA 3 с BPE. А самое сочное — это их масштабируемость. Они прокачали токен-фри LLaMA-3 8B на датасете в 1 триллион токенов, и эта штука в среднем сделала LLaMA-3 с BPE.
Короче, парни из Meta реально залетели в игру. Будем ждать, что из этого выйдет.
Пост Meta
🔥4👍1🦄1
Илья Суцкевер (сооснователь OpenAI, тот самый который который типо в Сбер уйти должен был) выступил на NeurIPS 2024
В кратце о чем говорил
1) Эпоха масштабирования данных завершилась. Вычислительные мощности продолжают улучшаться, но у нас по-прежнему есть только "один интернет".
2) Новыми большими направлениями становятся такие вещи, как TTT (Test-Time Training), ИИ агенты, inference time scaling, синтетические данные и многое другое.
3) На одном из слайдов он сравнивает массу мозга и массу тела у млекопитающих. Чем больше животное, тем тяжелее его мозг. Большинство млекопитающих следует общей тенденции (график показан в виде большой линии), но, как оказалось, гоминиды — люди, шимпанзе, неандертальцы и обезьяны — идут своим собственным путём. Их линия выше основной и имеет более крутой наклон.
Основная идея: даже в одном и том же окружении (на Земле) природа создала разные схемы масштабирования. Это должно вдохновлять нас искать новые подходы к масштабированию для повышения производительности.
Ссылка на видос
В кратце о чем говорил
1) Эпоха масштабирования данных завершилась. Вычислительные мощности продолжают улучшаться, но у нас по-прежнему есть только "один интернет".
2) Новыми большими направлениями становятся такие вещи, как TTT (Test-Time Training), ИИ агенты, inference time scaling, синтетические данные и многое другое.
3) На одном из слайдов он сравнивает массу мозга и массу тела у млекопитающих. Чем больше животное, тем тяжелее его мозг. Большинство млекопитающих следует общей тенденции (график показан в виде большой линии), но, как оказалось, гоминиды — люди, шимпанзе, неандертальцы и обезьяны — идут своим собственным путём. Их линия выше основной и имеет более крутой наклон.
Основная идея: даже в одном и том же окружении (на Земле) природа создала разные схемы масштабирования. Это должно вдохновлять нас искать новые подходы к масштабированию для повышения производительности.
Ссылка на видос
🔥6❤1👍1
HuggingFace релизнули Синтетический генератор для text задач
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
Генератор Синтетических Данных — это штуковина, которая помогает делать датасеты для обучения и дообучения языковых моделей. Ну там, если ты такой «ой, мне бы надо текста навалить для ИИ», то это как раз для тебя. В блоге всё расписали по-простому на примере, а для тех, кто читать не умеет — еще и видос на YouTube залили.
Что он умеет?
- Классификация текста – 50 образцов в минуту. Быстрее, чем чай заварить.
- Чат-данные для дообучения – 20 образцов в минуту. А тут уже как у чайника вода закипает.
Почему это круто?
Эта приблуда максимально упрощает тебе жизнь:
1. Опиши, что тебе вообще от датасета надо.
2. Покрути-повертей образцы, пока не надоест.
3. Херачь полноценный датасет в промышленных масштабах.
4. Заливай его на Hugging Face Hub или Argilla и кайфуй.
Фишки, от которых ты можешь прифигеть:
- Устанавливается через
pip — ну типа всё как у людей.- Можно локально хостить — не нужны твои данные «дяде в облако».
- Модели можно менять на Hugging Face. Хоть GPT, хоть Bart, хоть черт с рогами.
- Есть поддержка API, совместимых с OpenAI.
Чё дальше?
Если на GitHub проявишь активность и накликаешь звёзд, пацаны завезут вот такое:
Оценка датасетов с помощью LLM, как строгий учитель, который всё проверит и скажет, что ты налажал.
Генерация RAG-датасетов.
🔥1
Подвез цистерну новогоднего настроения 🎄🍒
👍7💩5🦄1