yandex
YandexGPT-5-Lite-8B-instruct-GGUF
YandexGPT-5-Lite-Instruct-GGUF Квантизованная версия YandexGPT 5 Lite 8B Instruct. Информация о модели доступна в основном репозитории: YandexGPT-5-Lite-8B-instruct. UPD: Мы обновили `.gguf` файл в изначальном репозитории на наиболее близкий по качеству к оригинальной модели. llama.cpp Для начала нужно собрать llama.cpp (или обновить, если уже есть): Можно ускорить сборку если позволяют ресурсы: `cmake --build build --config Release -j 10` Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью. Если позволяют ресурсы, можно ускорить инференс, добавив `-t 10`. Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью. Особенности шаблона Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательности `Ассистент:[SEP]`, завершая её токеном ` `. При этом диалог в промпте может быть любой длины. Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.
YandexGPT-5-Lite-8B-instruct
Instruct-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Также в отдельном репозитории опубликована квантизованная версия модели в формате GGUF. Обучена на базе YandexGPT 5 Lite Pretrain, без использования весов каких-либо сторонних моделей. Алайнмент Lite-версии совпадает с алайнментом YandexGPT 5 Pro и состоит из этапов SFT и RLHF (более подробно о них — в статье на Хабре). Бенчмарки По результатам международных бенчмарков и их адаптаций для русского языка, YandexGPT 5 Lite вплотную приблизилась к аналогам (Llama-3.1-8B-instruct и Qwen-2.5-7B-instruct) и превосходит их в ряде сценариев, в том числе — в знании русской культуры и фактов. Для запуска в llama.cpp и ollama можно воспользоваться нашей квантизованной моделью, которая выложена в репозитории YandexGPT-5-Lite-8B-instruct-GGUF. Особенности токенизации Для полного соответствия токенизации мы рекомендуем пользоваться оригинальным sentencepiece — файл токенизатора лежит в папке `originaltokenizer`. В нашей инфраструктуре каждую реплику диалога мы токенизируем отдельно. Из-за этого, в частности, появляется пробел в начале каждой реплики. Также `\n` токены мы заменяем на `[NL]`, это можно сделать с помощью `text.replace("\n", "[NL]")` перед токенизацией. Особенности шаблона Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательности `Ассистент:[SEP]`, завершая её токеном ` `. При этом диалог в промпте может быть любой длины. Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.
YandexGPT 5 Lite 8B Pretrain
Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа. На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска. На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов. Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5. Бенчмарки В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их: \ по данным репорта разработчиков модели. BBH — 3-shot, HUMANEVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. Все замеры мы производили в HF transformers. Для полного соответствия токенизации мы рекомендуем пользоваться оригинальным sentencepiece: У нашей модели llama-like архитектура, это означает, что она совместима с большинством существующих фреймворков по дообучению LLM. Приведем короткий пример, как можно обучить нашу модель в torchtune: Смотрим список конфигов и копируем подходящий под задачу: Изменяем конфиг, адаптируем его под нашу модель и задачу. Например, такой вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`. Подробности можно найти в официальной документации torchtune.
stable-diffusion-xl-base-1.0-alchemist
Stable Diffusion 3.5 Medium Alchemist
Stable Diffusion 3.5 Medium Alchemist is finetuned version of Stable Diffusion 3.5 Medium on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paer Using with Diffusers Upgrade to the latest version of the 🧨 diffusers library
stable-diffusion-v1-5-alchemist
stable-diffusion-3.5-large-alchemist
Stable Diffusion 3.5 Large Alchemist is finetuned version of Stable Diffusion 3.5 Large on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paer Using with Diffusers Upgrade to the latest version of the 🧨 diffusers library
BAGEL 7B MoT Alchemist
BAGEL-7B-MoT Alchemist is T2I-finetuned version of BAGEL-7B-MoT on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paper. Model usage For installation and usage instructions let's follow the BAGEL's official GitHub repository: 3️⃣ Load BAGEL-Alchemist. Note that it was trained on images with maximum side of 1408 px! 4️⃣ Follow final instructions for inference, e.g. T2I inference