yandex

11 models • 5 total models in database
Sort by:

YandexGPT-5-Lite-8B-instruct-GGUF

YandexGPT-5-Lite-Instruct-GGUF Квантизованная версия YandexGPT 5 Lite 8B Instruct. Информация о модели доступна в основном репозитории: YandexGPT-5-Lite-8B-instruct. UPD: Мы обновили `.gguf` файл в изначальном репозитории на наиболее близкий по качеству к оригинальной модели. llama.cpp Для начала нужно собрать llama.cpp (или обновить, если уже есть): Можно ускорить сборку если позволяют ресурсы: `cmake --build build --config Release -j 10` Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью. Если позволяют ресурсы, можно ускорить инференс, добавив `-t 10`. Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью. Особенности шаблона Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательности `Ассистент:[SEP]`, завершая её токеном ` `. При этом диалог в промпте может быть любой длины. Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.

NaNK
15,942
61

YandexGPT-5-Lite-8B-instruct

Instruct-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Также в отдельном репозитории опубликована квантизованная версия модели в формате GGUF. Обучена на базе YandexGPT 5 Lite Pretrain, без использования весов каких-либо сторонних моделей. Алайнмент Lite-версии совпадает с алайнментом YandexGPT 5 Pro и состоит из этапов SFT и RLHF (более подробно о них — в статье на Хабре). Бенчмарки По результатам международных бенчмарков и их адаптаций для русского языка, YandexGPT 5 Lite вплотную приблизилась к аналогам (Llama-3.1-8B-instruct и Qwen-2.5-7B-instruct) и превосходит их в ряде сценариев, в том числе — в знании русской культуры и фактов. Для запуска в llama.cpp и ollama можно воспользоваться нашей квантизованной моделью, которая выложена в репозитории YandexGPT-5-Lite-8B-instruct-GGUF. Особенности токенизации Для полного соответствия токенизации мы рекомендуем пользоваться оригинальным sentencepiece — файл токенизатора лежит в папке `originaltokenizer`. В нашей инфраструктуре каждую реплику диалога мы токенизируем отдельно. Из-за этого, в частности, появляется пробел в начале каждой реплики. Также `\n` токены мы заменяем на `[NL]`, это можно сделать с помощью `text.replace("\n", "[NL]")` перед токенизацией. Особенности шаблона Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательности `Ассистент:[SEP]`, завершая её токеном ` `. При этом диалог в промпте может быть любой длины. Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.

NaNK
llama
8,697
95

YandexGPT 5 Lite 8B Pretrain

Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа. На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска. На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов. Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5. Бенчмарки В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их: \ по данным репорта разработчиков модели. BBH — 3-shot, HUMANEVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. Все замеры мы производили в HF transformers. Для полного соответствия токенизации мы рекомендуем пользоваться оригинальным sentencepiece: У нашей модели llama-like архитектура, это означает, что она совместима с большинством существующих фреймворков по дообучению LLM. Приведем короткий пример, как можно обучить нашу модель в torchtune: Смотрим список конфигов и копируем подходящий под задачу: Изменяем конфиг, адаптируем его под нашу модель и задачу. Например, такой вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`. Подробности можно найти в официальной документации torchtune.

NaNK
llama
903
212

stable-diffusion-xl-base-1.0-alchemist

NaNK
license:apache-2.0
98
7

Stable Diffusion 3.5 Medium Alchemist

Stable Diffusion 3.5 Medium Alchemist is finetuned version of Stable Diffusion 3.5 Medium on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paer Using with Diffusers Upgrade to the latest version of the 🧨 diffusers library

license:apache-2.0
76
6

stable-diffusion-v1-5-alchemist

NaNK
license:apache-2.0
52
3

stable-diffusion-3.5-large-alchemist

Stable Diffusion 3.5 Large Alchemist is finetuned version of Stable Diffusion 3.5 Large on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paer Using with Diffusers Upgrade to the latest version of the 🧨 diffusers library

license:apache-2.0
45
9

BAGEL 7B MoT Alchemist

BAGEL-7B-MoT Alchemist is T2I-finetuned version of BAGEL-7B-MoT on Alchemist dataset, proposed in the research paper "Alchemist: Turning Public Text-to-Image Data into Generative Gold". Model generates images with improved aesthetics and complexity. Find more details about dataset and training details in the paper. Model usage For installation and usage instructions let's follow the BAGEL's official GitHub repository: 3️⃣ Load BAGEL-Alchemist. Note that it was trained on images with maximum side of 1408 px! 4️⃣ Follow final instructions for inference, e.g. T2I inference

NaNK
license:apache-2.0
40
1

RuLeanALBERT

license:apache-2.0
16
38

stable-diffusion-2-1-alchemist

NaNK
license:apache-2.0
5
3

yalm-100b

NaNK
license:apache-2.0
0
138