ai-sage

24 models • 2 total models in database
Sort by:

Giga-Embeddings-instruct

Giga-Embeddings-instruct - Base Decoder-only LLM: GigaChat-3b - Pooling Type: Latent-Attention - Embedding Dimension: 2048 Для получения более подробной информации о технических деталях, пожалуйста, обратитесь к нашей статье. Ниже приведен пример кодирования запросов и текстов. Использование инструкций для улучшения качества эмбеддингов Для достижения более точных результатов при работе с эмбеддингами, особенно в задачах поиска и извлечения информации (retrieval), рекомендуется добавлять инструкцию на естественном языке перед текстовым запросом (query). Это помогает модели лучше понять контекст и цель запроса, что положительно сказывается на качестве результатов. Важно отметить, что инструкцию нужно добавлять только перед запросом, а не перед документом. Для симметричных задач, таких как классификация (classification) или семантическое сравнение текстов (semantic text similarity), инструкцию необходимо добавлять перед каждым запросом. Это связано с тем, что такие задачи требуют одинакового контекста для всех входных данных, чтобы модель могла корректно сравнивать или классифицировать их. Примеры инструкций для симметричных задач: - `"Retrieve semantically similar text"` - `"Given a text, retrieve semantically similar text"` - `"Дано предложение, необходимо найти его парафраз"` - `"Классифицируй отзыв на товар как положительный, отрицательный или нейтральный"` - `"Классифицируй чувствительную тему по запросу"` Для retrieval-задач (например, поиск ответа в тексте) можно использовать инструкцию: `'Дан вопрос, необходимо найти абзац текста с ответом'`. Такой подход особенно эффективен для задач поиска и извлечения информации, таких как поиск релевантных документов или извлечение ответов из текста. Примеры инструкций для retrieval-задач: - `'Дан вопрос, необходимо найти абзац текста с ответом'` - `'Given the question, find a paragraph with the answer'` Инструкции необходимо оборачивать в шаблон: `f'Instruct: {taskdescription}\nQuery: {query}'`. Использование инструкций позволяет значительно улучшить качество поиска и релевантность результатов, что подтверждается тестами на бенчмарках, таких как RuBQ, MIRACL. Для симметричных задач добавление инструкции перед каждым запросом обеспечивает согласованность и повышает точность модели. Эта модель инициализирована pretrain моделью GigaChat и дополнительно обучена на смеси английских и русских данных. Да, именно так модель обучалась, иначе вы увидите снижение качества. Определение задачи должно быть инструкцией в одном предложении, которая описывает задачу. Это способ настройки текстовых эмбеддингов для разных сценариев с помощью инструкций на естественном языке. С другой стороны, добавлять инструкции на сторону документа не требуется. 2. Почему мои воспроизведённые результаты немного отличаются от указанных в карточке модели? Разные версии библиотек transformers и pytorch могут вызывать незначительные, но ненулевые различия в результатах. Использование этой модели для входных данных, содержащих более 4096 токенов, невозможно.

license:mit
19,955
85

GigaChat3-10B-A1.8B

NaNK
license:mit
8,351
53

GigaChat3-10B-A1.8B-GGUF

NaNK
license:mit
2,279
6

GigaChat3.1-10B-A1.8B-GGUF

NaNK
license:mit
1,881
27

GigaChat3.1-702B-A36B

NaNK
license:mit
1,512
23

GigaChat-20B-A3B-instruct-GGUF

NaNK
license:mit
1,026
18

GigaChat3.1-702B-A36B-GGUF

NaNK
license:mit
846
15

GigaChat3.1-702B-A36B-bf16

NaNK
license:mit
750
6

GigaChat3-10B-A1.8B-bf16

NaNK
license:mit
650
6

GigaChat 20B A3B Instruct

Диалоговая модель из семейства моделей GigaChat, основная на GigaChat-20B-A3B-base. Поддерживает контекст в 131 тысячу токенов. This repository contains the instructed model of GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture. Для данной модели также доступны веса в bf16 и int8 | | T-lite-instruct-0.1 (llama 3.0 8B based) | gemma-2-9b-it | GigaChat-20B-A3B-instruct | |----------------|---------------------|---------------|---------------------------| | MERA | 0.335 | 0.392 | 0.513 | | ru-MMLU 5-shot | 0.555 | 0.625 | 0.598 | | Shlepa | 0.36 | 0.388 | 0.482 | Семейство GigaChat | | GigaChat-20B-A3B-instruct | GigaChat-Pro v26.20 | GigaChat-Max v26.20 | |--------------------------------|---------------------------|---------------------|---------------------| | Математические задачи | | GSM8K 5-shot | 0,763 | 0,782 | 0,929 | | MATH 4-shot | 0,426 | 0,446 | 0,53 | | Написание кода | | | | | HumanEval 0-shot | 0,329 | 0,439 | 0,64 | | MBPP 0-shot | 0,385 | 0,487 | 0,667 | | Общие знания | | MMLU EN 5-shot | 0,648 | 0,687 | 0,804 | | MMLU RU 5-shot Переведенные данные из MMLU EN 5-shot | 0,598 | 0,645 | 0,75 | | MMLU RU 1-shot | — | 0,617 | 0,718 | | MMLU PRO EN 5-shot | 0,348 | 0,431 | 0,589 | | RUBQ 0-shot | 0,675 | 0,724 | 0,73 | | WINOGRANDE 4-shot | 0,75 | 0,796 | 0,832 | | CyberMetric 0-shot | 0,798 | 0,827 | 0,864 | | Следование инструкциям | | IFEval 0-shot | 0,411 | 0,566 | 0,721 | Особенности замеров GSM8k — это тест, который проверяет, как хорошо модели могут решать задачи с числами. В нашем исследовании мы использовали 5 шотов, чтобы оценить модель, и смотрели на последнее число в ответе. В оригинальное тесте ответ ищется по шаблону: ‘### число’. Тест Math тоже имеет разные версии, которые проверяют математические способности моделей. В нашем исследовании мы давали 4 примера и смотрели на последнее выражение в формате '\boxed{expression}'. Затем оценивали результаты на совпадение с помощью библиотеки sympy. В GigaChat-20B-A3B-instruct используется особый способ токенизации текста, поэтому не рекомендуется следующий сценарий

NaNK
license:mit
595
47

GigaChat-20B-A3B-instruct-v1.5-GGUF

NaNK
license:mit
577
11

GigaChat3.1-10B-A1.8B-bf16

NaNK
license:mit
539
9

GigaChat3.1-10B-A1.8B

NaNK
license:mit
512
17

GigaChat-20B-A3B-instruct-v1.5-int8

Диалоговая модель из семейства моделей GigaChat, основная на ai-sage/GigaChat-20B-A3B-instruct-v1.5. Поддерживает контекст в 131 тысячу токенов. Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен: - Arena Hard RU: 20.8 → 29.6 (+8.8) - Arena General: 41.1 → 49.1 (+9) - остальные метрики на тех же значениях Для данной модели также доступны веса в bf16 и fp32 А также: - GGUF версии (bf16, q8, q6, q5, q4) - Ollama (bf16, q8, q6, q5, q4)

NaNK
license:mit
511
1

GigaChat3-702B-A36B-preview

NaNK
license:mit
460
68

GigaChat-20B-A3B-instruct-v1.5-bf16

Диалоговая модель из семейства моделей GigaChat, основная на ai-sage/GigaChat-20B-A3B-instruct-v1.5. Поддерживает контекст в 131 тысячу токенов. Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен: - Arena Hard RU: 20.8 → 29.6 (+8.8) - Arena General: 41.1 → 49.1 (+9) - остальные метрики на тех же значениях Больше подробностей в хабр статье и в карточке оригинальной instruct модели. Для данной модели также доступны веса в fp32 и int8 А также: - GGUF версии (bf16, q8, q6, q5, q4) - Ollama (bf16, q8, q6, q5, q4)

NaNK
license:mit
281
6

GigaChat-20B-A3B-instruct-bf16

This model is part of the GigaChat family of Russian LLMs, based on ai-sage/GigaChat-20B-A3B-instruct. It supports a context length of 131,000 tokens. More details are available in this habr article and the original instruct model card. The model was presented in GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture.

NaNK
license:mit
252
14

GigaChat-20B-A3B-instruct-v1.5

NaNK
license:mit
192
8

GigaChat-20B-A3B-base

NaNK
license:mit
128
14

GigaChat3-10B-A1.8B-base

NaNK
license:mit
105
4

GigaChat-20B-A3B-instruct-int8

NaNK
license:mit
81
5

GigaChat3-702B-A36B-preview-bf16

NaNK
license:mit
55
6

Giga-Retrieval-instruct

license:mit
33
6

GigaAM-v3

license:mit
10
0