GigaChat3-10B-A1.8B

Перейти к инструкции по запуску (llama.cpp)

Представляем GigaChat3-10B-A1.8B — диалоговую модель семейства GigaChat. Модель основана на архитектуре Mixture-of-Experts (MoE) с 10B общих и 1.8B активных параметров. Архитектура включает Multi-head Latent Attention (MLA) и Multi-Token Prediction (MTP), за счет чего модель оптимизирована для высокой пропускной способности (throughput) при инференсе. Модель обучена поверх нашей базовой версии (GigaChat3-10B-A1.8B-base) с помощью высококачественных SFT-данных. Больше подробностей в хабр статье.

Архитектура модели

GigaChat3-10B-A1.8B использует кастомную MoE-архитектуру:

Multi-head Latent Attention (MLA)

Вместо стандартного Multi-head Attention модель использует MLA. MLA обеспечивает эффективный инференс за счет сжатия Key-Value (KV) кэша в латентный вектор, что значительно снижает требования к памяти и ускоряет обработку.

Multi-Token Prediction (MTP)

Модель обучена с использованием задачи Multi-Token Prediction (MTP). Это позволяет модели предсказывать несколько токенов за один проход, что ускоряет генерацию до 40% с помощью техник спекулятивной/параллельной генерации.

Данные для обучения

Модель обучена на 20Т токенов. Мы добавили 10 языков — от китайского и арабского до узбекского и казахского, а также расширили набор источников: книги, академические данные, датасеты по коду и математике. Все данные проходят дедупликацию, языковую фильтрацию и автоматические проверки качества при помощи эвристик и классификаторов. Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.

Инференс

Одно из ключевых преимуществ GigaChat3-10B-A1.8B — скорость инференса. Модель (особенно в режиме MTP) демонстрирует пропускную способность, сопоставимую с пропускной способностью значительно меньших dense‑моделей. Мы измеряли с помощью vLLM v0.11.0, на типе bfloat16 c batch_size=1. Ссылка на код.

Модель	request_throughput	output_throughput	total_token_throughput	mean_ttft_ms
`Qwen3-1.7B`	1.689	357.308	726.093	11.824
`mtp-GigaChat3-10B-A1.8B-base`	1.533	333.620	678.894	26.345
`GigaChat3-10B-A1.8B-base`	1.077	234.363	476.912	31.053
`Qwen3-4B`	0.978	206.849	420.341	14.947
`Qwen3-8B`	0.664	140.432	285.375	16.663
`YandexGPT-5-Lite-8B-pretrain`	0.641	147.305	300.269	16.711

Бенчмарки

Хотя модель имеет 10 миллиардов параметров, её прямые аналоги — модели размером 3–4 миллиарда параметров. Однако благодаря высокой скорости генерации мы также сравниваем её с ещё более компактными моделями.

Метрика	GigaChat 3 Lightning	Qwen3-1.7B-Instruct	Qwen3-4B-Instruct-2507	SmolLM3
MMLU_RU_FIVE_SHOT	0.6833	0.4876	0.5972	0.4998
RUBQ_ZERO_SHOT	0.6516	0.2557	0.3170	0.6363
MMLU_PRO_EN_FIVE_SHOT	0.6061	0.410	0.6849	0.5013
MMLU_EN_FIVE_SHOT	0.7403	0.60	0.7080	0.5992
BBH_THREE_SHOT	0.4525	0.3317	0.7165	0.4161
SuperGPQA	0.2731	0.2092	0.3745	0.2459
MATH_500_FOUR_SHOT	0.7000	0.7520	0.8880	0.8020
GPQA_COT_ZERO_SHOT	0.3502	0.2651	0.5370	0.3704
LiveCodeBench_ZERO_SHOT	0.2031	0.0794	0.3046	0.1656
HUMAN_EVAL_PLUS_ZERO_SHOT	0.6951	0.6280	0.8780	0.7012

Пример использования (Quickstart)

llama-cpp version>=7150 (3d07caa99)

cmake version>=3.31.6

Сборка llama-cpp

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # build for CUDA
cmake --build build --config Release --target llama-server -j 8

Запуск сервера

# Укажите полный путь к вашей модели .gguf ниже
export MODEL_PATH="/path/to/your/model.gguf"

./build/bin/llama-server \
    -m $MODEL_PATH \
    -np 1 \
    -cb \
    -ctk q8_0 \
    -ctv q8_0 \
    -fa on \
    --n-gpu-layers 999 \
    --ctx-size 32768 \
    --port 8080 \
    --host 0.0.0.0 \
    --jinja

Важно! Если не добавлять "tool_choice": "none" к запросу, то llama в промт будет добавлять строку

\n\nsystem<|role_sep|>\nRespond in JSON format, either with `tool_call` (a request to call tools) or with `response` reply to the user's request<|message_sep|>

Это позволит распознавать функции, но может привести к потере качества генерации. В ближайшее время это поведение будет исправлено: мы готовим MR в llama-сpp с поддержкой GigaChat3.

Пример запроса

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ai-sage/GigaChat3-10B-A1.8B",
    "tool_choice": "none",
    "messages": [
      {
        "role": "user",
        "content": "Докажи теорему о неподвижной точке"
      }
    ],
    "max_tokens": 1000,
    "temperature": 0
  }'

Пример запроса c function call

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
  "model": "ai-sage/GigaChat3-10B-A1.8B",
  "temperature": 0,
  "messages": [
    {
      "role": "user",
      "content": "Какая сейчас погода в Москве?"
    }
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "get_weather",
        "description": "Получить информацию о текущей погоде в указанном городе.",
        "parameters": {
          "type": "object",
          "properties": {
            "city": {
              "type": "string",
              "description": "Название города (например, Москва, Казань)."
            }
          },
          "required": ["city"]
        }
      }
    }
  ]
}'