XiaoMi MiMo V2.5 Pro API 接口、模型参数 & 代码示例

xiaomi/mimo-v2.5-pro

MiMo V2.5 Pro 是一个开源的混合专家（MoE）语言模型，总参数量为 1.02T，激活参数量为 42B。模型采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多令牌预测（MTP），支持高达 1M tokens 的上下文长度。MiMo V2.5 Pro 是小米迄今为止能力最强的模型，专为要求最苛刻的智能体、复杂软件工程和长周期任务而设计。它能够在 1M tokens 的上下文窗口中，维持跨越数千次工具调用的复杂执行轨迹，并具备强大的指令遵循能力和连贯性。

模型 ID: xiaomi/mimo-v2.5-pro
模型系列: MiMo
更新日期: 2026-05-01
模型能力: 文本生成、深度思考
上下文长度: 1024 K
模型价格（每 1000 tokens 输入）: ¥ 0.008
模型价格（每 1000 tokens 输出）: ¥ 0.022
模型价格（每 1000 tokens 输入）: ¥ 0.015
模型价格（每 1000 tokens 输出）: ¥ 0.043

XiaoMi MiMo V2.5 Pro 模型介绍：

MiMo V2.5 Pro 是一个开源的混合专家（MoE）语言模型，总参数量为 1.02T，激活参数量为 42B。模型采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多令牌预测（MTP），支持高达 1M tokens 的上下文长度。

MiMo-V2.5-Pro 是小米迄今为止能力最强的模型，专为要求最苛刻的智能体、复杂软件工程和长周期任务而设计。它能够在 1M tokens 的上下文窗口中，维持跨越数千次工具调用的复杂执行轨迹，并具备强大的指令遵循能力和连贯性。主要特性包括：

混合注意力架构：以 6:1 的比例和 128 的滑动窗口交替使用滑动窗口注意力（SWA）和全局注意力（GA）。这将 KV 缓存存储减少了近 7 倍，同时通过可学习的注意力汇聚偏置维持了长上下文性能。
多令牌预测（MTP）：配备三个使用密集 FFN 的轻量级 MTP 模块。这使得推理过程中的输出速度提高了三倍，并且将有利于加速强化学习训练中的 rollout 过程。
高效预训练：使用 FP8 混合精度和原生的 32k 序列长度，在 27T 令牌上进行了训练。上下文窗口支持最多 100 万个令牌。
智能体能力：后训练阶段采用了监督微调（SFT）、大规模智能体强化学习（RL）和多教师在线策略蒸馏（MOPD），在要求最苛刻的智能体、复杂软件工程和长周期任务上实现了卓越的性能。

评估结果：

基础模型评估

类别	基准测试	设置	MiMo-V2.5-Pro Base	MiMo-V2.5 Base	DeepSeek-V4-Pro Base	DeepSeek-V4-Flash Base	Kimi-K2 Base
参数量	#激活参数 / #总参数	-	42B / 1.02T	15B / 310B	49B / 1.6T	13B / 284B	32B / 1.04T
通用能力	BBH	3-shot	88.4	87.2	87.5	86.9	88.7
	MMLU	5-shot	89.4	86.3	90.1	88.7	87.8
	MMLU-Redux	5-shot	92.8	89.8	90.8	89.4	90.2
	MMLU-Pro	5-shot	68.5	65.8	73.5	68.3	69.2
	DROP	3-shot	86.3	83.7	88.7	88.6	83.6
	ARC-Challenge	25-shot	97.2	96.5	-	-	96.2
	HellaSwag	10-shot	89.8	88.6	88.0	85.7	94.6
	WinoGrande	5-shot	85.6	84.7	81.5	79.5	85.3
	TriviaQA	5-shot	81.3	80.7	85.6	82.8	85.1
	GPQA-Diamond	5-shot	66.7	58.1	-	-	48.1
数学	GSM8K	8-shot	99.6	83.3	92.6	90.8	92.1
	MATH	4-shot	86.2	67.7	64.5	57.4	70.2
	AIME 24&25	2-shot	37.3	36.9	-	-	31.6
代码	HumanEval+	1-shot	75.6	71.3	-	-	84.8
	MBPP+	3-shot	74.1	70.9	-	-	73.8
	LiveCodeBench v6	1-shot	39.6	35.5	-	-	26.3
	SWE-Bench (AgentLess)	3-shot	35.7	30.8	-	-	28.2
中文	C-Eval	5-shot	91.5	88.6	93.1	92.1	92.5
	CMMLU	5-shot	90.2	88.2	90.8	90.4	90.9
多语言	GlobalMMLU	5-shot	83.6	77.4	-	-	80.7

长上下文评估

GraphWalks 是 OpenAI 提出的一个长上下文基准测试，它用十六进制哈希节点的有向图填充提示，并要求模型执行广度优先搜索（精确查找深度为 N 的节点）或列出某个节点的父节点。我们在完整的 32k-1M 输入令牌跨度上进行评估，并应用了 Anthropic 描述的相同评估修正。

MiMo V2.5 Pro 在长上下文推理方面实现了重大飞跃。超过 128k 后，V2 Pro 性能急剧下降，并在 1M 时在两个子任务上都崩溃至 0.00，而 V2.5 Pro 在 512k 时仍能得分 BFS 0.56 / Parents 0.92，在 1M 时得分为 0.37 / 0.62。

模型架构与训练过程：

MiMo-V2.5-Pro 通过交替使用局部滑动窗口注意力（SWA）和全局注意力（GA），解决了长上下文的二次复杂度问题。不同于传统的推测解码，我们的 MTP 模块在训练和推理中被原生集成。

模型概要：

组件	MiMo-V2.5-Pro	MiMo-V2.5
总参数量	1.02T	310B
激活参数量	42B	15B
隐藏层尺寸	6144	4096
层数	70 (1 密集层 + 69 MoE 层)	48 (1 密集层 + 47 MoE 层)
全注意力层数	10	9
SWA 层数	60	39
注意力头数	128	64
KV 头数	8 (GQA)	8 (GA) / 4 (SWA)
头维度 (QK / V)	192 / 128	192 / 128
路由专家数	384	256
每令牌激活专家数	8	8
MoE 中间层尺寸	2048	2048
密集层中间层尺寸	16384 (仅第0层)	16384 (仅第0层)
SWA 窗口大小	128	128
最大上下文长度	1M	1M
MTP 层数	3	3

训练过程：

在后训练阶段，MiMo-V2.5-Pro 采用了 MiMo-V2-Flash 中引入的三阶段后训练范式，以实现卓越的性能。该范式从监督微调（SFT）开始，使用精心整理的数据对，构建强大且基础的指令遵循能力。接下来，在领域专精训练阶段，各种教师模型——涵盖从数学、安全到复杂的智能体工具使用等领域——都使用特定领域的强化学习奖励进行单独优化。最后，这一过程在多教师在线策略蒸馏（MOPD）中达到顶点。通过动态的在线策略强化学习，单一的学生模型从自身的输出中迭代学习，持续接收来自专家教师精确的令牌级指导，从而无缝整合广泛的能力。

API 接口地址：

Chat Completions API:

https://wcode.net/api/gpt/v1/chat/completions
Anthropic API:

https://wcode.net/api/anthropic/v1/messages

此 API 接口兼容 OpenAI 的 API 接口规范，可直接使用 OpenAI 的 SDK 来调用各个模型。仅需替换以下配置即可：

base_url 替换为 https://wcode.net/api/gpt/v1

api_key 替换为从 https://platform.wcode.net 获取到的 API Key

具体可参考下方的各编程语言代码示例中的 OpenAI SDK 调用示例。

此模型支持 Anthropic / Claude 的 API 接口规范，可直接使用 Anthropic 的 SDK 来调用此模型。仅需替换以下配置即可：

ANTHROPIC_BASE_URL 替换为 https://wcode.net/api/anthropic

ANTHROPIC_API_KEY（或 ANTHROPIC_AUTH_TOKEN）替换为从 https://platform.wcode.net 获取到的 API Key

ANTHROPIC_MODEL（或model）替换为 xiaomi/mimo-v2.5-pro

请求方法：

POST

各编程语言代码示例：

# TODO: 以下代码中的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net

curl --request POST 'https://wcode.net/api/gpt/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer API_KEY' \
--data '{
    "model": "xiaomi/mimo-v2.5-pro",
    "messages": [
        {
            "role": "user",
            "content": "你好"
        }
    ]
}'

import Foundation

let headers = [
  "Authorization": "Bearer API_KEY",     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  "content-type": "application/json"
]
let parameters = [
  "model": "xiaomi/mimo-v2.5-pro",
  "messages": [
    [
      "role": "user",
      "content": "你好"
    ]
  ]
] as [String : Any]

let postData = JSONSerialization.data(withJSONObject: parameters, options: [])

let request = NSMutableURLRequest(url: NSURL(string: "https://wcode.net/api/gpt/v1/chat/completions")! as URL,
                                        cachePolicy: .useProtocolCachePolicy,
                                    timeoutInterval: 60.0)
request.httpMethod = "POST"
request.allHTTPHeaderFields = headers
request.httpBody = postData as Data

let session = URLSession.shared
let dataTask = session.dataTask(with: request as URLRequest, completionHandler: { (data, response, error) -> Void in
  if (error != nil) {
    print(error as Any)
  } else {
    let httpResponse = response as? HTTPURLResponse
    print(httpResponse)
  }
})

dataTask.resume()

var headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer API_KEY'     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
};
var request = http.Request('POST', Uri.parse('https://wcode.net/api/gpt/v1/chat/completions'));
request.body = json.encode({
  "model": "xiaomi/mimo-v2.5-pro",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
});
request.headers.addAll(headers);

http.StreamedResponse response = await request.send();

if (response.statusCode == 200) {
  print(await response.stream.bytesToString());
}
else {
  print(response.reasonPhrase);
}

require 'uri'
require 'net/http'

url = URI("https://wcode.net/api/gpt/v1/chat/completions")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer API_KEY'     # TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
request["content-type"] = 'application/json'
request.body = "{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}"

response = http.request(request)
puts response.read_body

use serde_json::json;
use reqwest;

#[tokio::main]
pub async fn main() {
  let url = "https://wcode.net/api/gpt/v1/chat/completions";

  let payload = json!({
    "model": "xiaomi/mimo-v2.5-pro",
    "messages": (
      json!({
        "role": "user",
        "content": "你好"
      })
    )
  });

  let mut headers = reqwest::header::HeaderMap::new();
  headers.insert("Authorization", "Bearer API_KEY".parse().unwrap());     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  headers.insert("content-type", "application/json".parse().unwrap());

  let client = reqwest::Client::new();
  let response = client.post(url)
    .headers(headers)
    .json(&payload)
    .send()
    .await;

  let results = response.unwrap()
    .json::<serde_json::Value>()
    .await
    .unwrap();

  dbg!(results);
}

CURL *hnd = curl_easy_init();

curl_easy_setopt(hnd, CURLOPT_CUSTOMREQUEST, "POST");
curl_easy_setopt(hnd, CURLOPT_URL, "https://wcode.net/api/gpt/v1/chat/completions");

struct curl_slist *headers = NULL;
headers = curl_slist_append(headers, "Authorization: Bearer API_KEY");    // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
headers = curl_slist_append(headers, "content-type: application/json");
curl_easy_setopt(hnd, CURLOPT_HTTPHEADER, headers);

curl_easy_setopt(hnd, CURLOPT_POSTFIELDS, "{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}");

CURLcode ret = curl_easy_perform(hnd);

package main

import (
  "fmt"
  "strings"
  "net/http"
  "io"
)

func main() {
  url := "https://wcode.net/api/gpt/v1/chat/completions"

  payload := strings.NewReader("{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}")

  req, _ := http.NewRequest("POST", url, payload)

  req.Header.Add("Authorization", "Bearer API_KEY")     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  req.Header.Add("content-type", "application/json")

  res, _ := http.DefaultClient.Do(req)

  defer res.Body.Close()
  body, _ := io.ReadAll(res.Body)

  fmt.Println(res)
  fmt.Println(string(body))
}

using System.Net.Http.Headers;


var client = new HttpClient();

var request = new HttpRequestMessage(HttpMethod.Post, "https://wcode.net/api/gpt/v1/chat/completions");

request.Headers.Add("Authorization", "Bearer API_KEY");     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net

request.Content = new StringContent("{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}", null, "application/json");

var response = await client.SendAsync(request);

response.EnsureSuccessStatusCode();

Console.WriteLine(await response.Content.ReadAsStringAsync());

var client = new RestClient("https://wcode.net/api/gpt/v1/chat/completions");

var request = new RestRequest("", Method.Post);

request.AddHeader("Authorization", "Bearer API_KEY");     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net

request.AddHeader("content-type", "application/json");

request.AddParameter("application/json", "{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}", ParameterType.RequestBody);

var response = client.Execute(request);

const axios = require('axios');

let data = JSON.stringify({
  "model": "xiaomi/mimo-v2.5-pro",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
});

let config = {
  method: 'post',
  maxBodyLength: Infinity,
  url: 'https://wcode.net/api/gpt/v1/chat/completions',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer API_KEY'     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  },
  data : data
};

axios.request(config).then((response) => {
  console.log(JSON.stringify(response.data));
}).catch((error) => {
  console.log(error);
});

OkHttpClient client = new OkHttpClient();

MediaType mediaType = MediaType.parse("application/json");

RequestBody body = RequestBody.create(mediaType, "{\"model\":\"xiaomi/mimo-v2.5-pro\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}");

Request request = new Request.Builder()
  .url("https://wcode.net/api/gpt/v1/chat/completions")
  .post(body)
  .addHeader("Authorization", "Bearer API_KEY")             // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  .addHeader("content-type", "application/json")
  .build();

Response response = client.newCall(request).execute();

$client = new \GuzzleHttp\Client();

$headers = [
  'Content-Type' => 'application/json',
  'Authorization' => 'Bearer API_KEY',     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
];

$body = '{
  "model": "xiaomi/mimo-v2.5-pro",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
}';

$request = new \GuzzleHttp\Psr7\Request('POST', 'https://wcode.net/api/gpt/v1/chat/completions', $headers, $body);

$response = $client->sendAsync($request)->wait();

echo $response->getBody();

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://wcode.net/api/gpt/v1/chat/completions",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 5,
  CURLOPT_TIMEOUT => 300,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'model' => 'xiaomi/mimo-v2.5-pro',
    'messages' => [
      [
        'role' => 'user',
        'content' => '你好'
      ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer API_KEY",     // TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
    "content-type: application/json",
  ],
]);

$response = curl_exec($curl);
$error = curl_error($curl);

curl_close($curl);

if ($error) {
  echo "cURL Error #:" . $error;
} else {
  echo $response;
}

import requests
import json

url = "https://wcode.net/api/gpt/v1/chat/completions"

payload = {
  "model": "xiaomi/mimo-v2.5-pro",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
}

headers = {
  "Authorization": "Bearer API_KEY",     # TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
  "content-type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4, ensure_ascii=False))

from openai import OpenAI

client = OpenAI(
  base_url="https://wcode.net/api/gpt/v1",
  api_key="API_KEY"                             # TODO: 这里的 API_KEY 需要替换，获取 API Key 入口：https://platform.wcode.net
)

completion = client.chat.completions.create(
  model="xiaomi/mimo-v2.5-pro",
  messages=[
    {
      "role": "user",
      "content": "你好"
    }
  ]
)

print(completion.choices[0].message.content)

各 AI 产品/工具/第三方应用接入示例：

配置 Hermes Agent 使用 XiaoMi MiMo V2.5 Pro 模型：

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取（创建）的 API Key

方式一：交互式配置

在命令行输入 hermes model，然后选择 Custom endpoint 选项，根据交互式命令引导，分别配置以下信息：

API base URL：https://wcode.net/api/gpt/v1
API Key：<API_KEY>
Model：xiaomi/mimo-v2.5-pro

方式二：手动配置

修改 config.yaml（通常位于~/.hermes/config.yaml）

model:
  default: "xiaomi/mimo-v2.5-pro"
  provider: custom
  base_url: "https://wcode.net/api/gpt/v1"
  api_key: "<API_KEY>"
  context_length: 1024000

配置完成后，就可以开始使用 Hermes Agent ~

配置 Roo Code 使用 XiaoMi MiMo V2.5 Pro 模型：

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取（创建）的 API Key

API Provider：OpenAI Compatible
Base URL：https://wcode.net/api/gpt/v1
API Key：<API_KEY>
Model：xiaomi/mimo-v2.5-pro

配置完成后，就可以开始使用 Roo Code ~

配置 Kilo Code 使用 XiaoMi MiMo V2.5 Pro 模型：

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取（创建）的 API Key

选择 Use your own API key，然后配置以下信息：

API Provider：OpenAI Compatible
Base URL：https://wcode.net/api/gpt/v1
API Key：<API_KEY>
Model：xiaomi/mimo-v2.5-pro

配置完成后，就可以开始使用 Kilo Code ~

配置 Cline 使用 XiaoMi MiMo V2.5 Pro 模型：

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取（创建）的 API Key

API Provider：OpenAI Compatible
Base URL：https://wcode.net/api/gpt/v1
API Key：<API_KEY>
Model ID：xiaomi/mimo-v2.5-pro

配置完成后，就可以开始使用 Cline ~

注：以下安装和配置过程以 Ubuntu Server 24.04 (root 用户) + Node 22 安装 OpenClaw 🦞 2026.3.8 为例

安装 🦞 OpenClaw（龙虾），步骤如下：

命令行执行 npm install -g openclaw@latest
命令行执行 openclaw onboard --install-daemon
I understand this is personal-by-default and shared/multi-user use requires lock-down. Continue? 选择 yes
Onboarding mode 选择 QuickStart
Model/auth provider 选择 Skip for now
Default model 选择 Keep current (default: ...)
Select channel (QuickStart) 选择 Skip for now
Web search 选择 Skip for now
Configure skills now? (recommended) 选择 No
Enable hooks? （这是一个多选，按空格键可选中选项）按空格键选中 📝 command-logger 和 💾 session-memory 这两个选项，然后按回车键进入下一步
(如有) How do you want to hatch your bot? 选择 Hatch in TUI (recommended)

配置 🦞 OpenClaw（龙虾）使用 XiaoMi MiMo V2.5 Pro 模型：

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取（创建）的 API Key

推荐方式：修改 openclaw.json（通常位于~/.openclaw/openclaw.json）

找到openclaw.json的第一层级的models和agents属性（如果没有则在第一层级添加models和agents属性），改为如下配置：

{
  ...其他配置,

  "models": {
      "mode": "merge",
      "providers": {
          "wcode": {
              "baseUrl": "https://wcode.net/api/gpt/v1",
              "apiKey": "<API_KEY>",
              "api": "openai-completions",
              "models": [
                  {
                      "id": "xiaomi/mimo-v2.5-pro",
                      "name": "XiaoMi MiMo V2.5 Pro",
                      "reasoning": false,
                      "input": ["text"],
                      "contextWindow": 1024000,
                      "maxTokens": 128000
                  }
              ]
          }
      }
  },
  "agents": {
      "defaults": {
         "model": {
             "primary": "wcode/xiaomi/mimo-v2.5-pro"
         }
      }
  },

  ...其他配置
}

完成以上配置后，

执行以下命令，即可通过命令行的方式开始对话：

openclaw tui

执行以下命令，即可通过 Web 界面的方式开始对话：

openclaw dashboard

配置 OpenCode 使用 XiaoMi MiMo V2.5 Pro 模型：

推荐方式：修改 opencode.json（通常位于~/.config/opencode/opencode.json）

注意事项：以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取的 API Key

配置如下：

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "myprovider": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "wcode",
      "options": {
        "baseURL": "https://wcode.net/api/gpt/v1",
        "apiKey": "<API_KEY>"
      },
      "models": {
        "xiaomi/mimo-v2.5-pro": {
          "name": "XiaoMi MiMo V2.5 Pro"
        }
      }
    }
  }
}

完成以上配置后，执行以下命令，即可启动 OpenCode：

opencode

输入 /models，选择配置的 xiaomi/mimo-v2.5-pro 模型并在 OpenCode 中使用。

API 响应示例（curl）：

{
    "id": "chatcmpl-t1777639028s459r583c786c12be6ccda7a6e4e0",
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "message": {
                "content": "你好！很高兴见到你！我是MiMo V2.5 Pro，一个由小米大模型Core团队打造的AI助手。\n\n我的设计初衷是成为一个温暖、有好奇心且善解人意的对话伙伴。我可以帮助你解答问题、提供信息、协助创作，或者只是进行轻松有趣的交流。我拥有1T的参数量，这意味着我具备较强的理解和生成能力，同时拥有1M tokens的上下文长度，让我能更好地记忆和延续我们之间的对话。\n\n我会尽我所能为你提供有用、准确且贴心的帮助。无论你想聊什么，或者需要我做什么，我都很乐意尝试。那么，有什么我可以为你效劳的吗？",
                "role": "assistant",
                "tool_calls": null,
                "reasoning_content": "Okay, the user is greeting me and asking for an introduction. They used my specific version name, so they likely know a bit about me already but want a friendly overview. I should confirm my identity warmly, mention my core traits from the prompt (warm, curious, thoughtful), and highlight my key specs like parameters and context window to establish credibility. Ending with a forward-looking question keeps the interaction engaging and invites further dialogue. \n\nNo need to overcomplicate—just a clear, enthusiastic self-introduction that aligns with my designated tone. I’ll avoid technical jargon and keep it conversational since the user’s query is casual."
            }
        }
    ],
    "created": 1777639041,
    "model": "mimo-v2.5-pro",
    "object": "chat.completion",
    "usage": {
        "completion_tokens": 270,
        "prompt_tokens": 266,
        "total_tokens": 536,
        "completion_tokens_details": {
            "reasoning_tokens": 128
        },
        "prompt_tokens_details": {
            "cached_tokens": 192
        }
    }
}

可选参数：

温度（Temperature）
Top-P
Top-K
频率惩罚
存在惩罚
重复惩罚
Min-P
Top-A
种子
最大 tokens 数
Logit Bias
对数概率
最高对数概率
响应格式
结构化输出
停止
工具
工具选择
并行工具调用
冗长程度

重要提示：由于模型架构不同，部分参数可能仅适用于特定的模型。

温度（Temperature）

参数：temperature
可选，浮点数，0.0 到 2.0
默认：1.0

此设置影响模型回复的多样性。较低的值会使回复更可预测、更常见；较高的值会鼓励更具多样性且较不常见的回复。当设置为 0 时，模型对相同输入将尽可能的给出相同的回复。

Top-P

参数：top_p
可选，float，0.0 至 1.0
默认值：1.0

top_p 参数控制模型在生成文本时的候选词选择范围。具体来说，模型会生成一组候选 token，然后从累积概率达到或超过 p 的 token 中随机选择一个作为输出。通过这种方式，top_p 能够在保证生成内容的多样性的同时，考虑到概率分布的合理性。

由于 temperature 与 top_p 均可以控制生成文本的多样性，因此建议您只设置其中一个值。

Top-K

参数：top_k
可选，int，>= 0
默认值：0

top_k 会限制模型在每一步对 token 的选择，使其从较小的集合中进行选择。值为 1 表示模型将始终选择最有可能的下一个 token，从而得到可预测的结果。

频率惩罚

参数：frequency_penalty
可选，float，-2.0 至 2.0
默认值：0.0

frequency_penalty 可根据词条在输入中出现的频率来控制其重复使用。它会尝试减少那些在输入中出现频率较高的词条的使用频率，这与它们出现的频率成正比。词条惩罚会随着出现次数的增加而增加。负值将鼓励词条重复使用。

存在惩罚

参数：presence_penalty
可选，float，-2.0 至 2.0
默认值：0.0

presence_penalty 调整模型重复输入中已使用的特定标记的频率。值越高，重复的可能性就越小，负值则相反。标记惩罚不会随着出现次数而变化。负值会鼓励标记重用。

重复惩罚

参数：repetition_penalty
可选，float，0.0 至 2.0
默认值：1.0

repetition_penalty 有助于减少输入中标记的重复。较高的值会降低模型重复标记的可能性，但过高的值会使输出不够连贯（通常会出现缺少小词的连续句子）。标记惩罚会根据原始标记的概率进行调整。

Min-P

参数：min_p
可选，float，0.0 至 1.0
默认值：0.0

min_p 表示某个 token 被考虑的最小概率，该概率是相对于最可能的 token 的概率而言的。如果 min_p 设置为 0.1，则意味着它只允许概率至少为最佳选项十分之一的 token 被考虑。

Top-A

参数：top_a
可选，float，0.0 到 1.0
默认值：0.0

top_a 仅考虑概率“足够高”的 top tokens，该概率基于最可能的 token 概率。可以将其视为一个动态的 Top-P。较低的 Top-A 值会根据概率最高的 token 集中选择，但范围会更窄。较高的 Top-A 值不一定会影响输出的创造性，但会根据最大概率优化过滤过程。

种子

参数：seed
可选，int

如果指定了 seed 参数，推理将确定性地进行采样，即使用相同种子和参数的重复请求应该返回相同的结果。某些模型无法保证确定性。

最大 tokens 数

参数：max_tokens
可选，int，>= 1

max_tokens 可设定模型在响应中可以生成的 token 数量的上限。模型不会生成超过此限制的 token。其最大值等于上下文长度减去 prompt 长度。

Logit Bias

参数：logit_bias
可选，object

logit_bias 是一个可选参数，用于修改指定 token 在模型生成输出中出现的可能性。

对数概率

参数：logprobs
可选，boolean

logprobs 设置是否返回输出 token 的对数概率。如果为 true，则返回每个输出 token 的对数概率。

最高对数概率

参数：top_logprobs
可选，int

top_logprobs 是一个介于 0 和 20 之间的整数，指定在每个 token 位置要返回的最可能 token 的数量，每个 token 都会带有相应的对数概率。如果使用此参数，则必须将 logprobs 设置为 true。

响应格式

参数：response_format
可选，object

response_format 强制模型产出特定的输出格式。将其设置为 { "type": "json_object" } 可启用 JSON 模式，保证模型生成的消息为有效的 JSON。

注意：使用 JSON 模式时，应同时通过 system 或 user 提示词指示模型生成 JSON。

结构化输出

参数：structured_outputs
可选，boolean

指示模型是否能够使用 response_format 中的 json_schema 返回结构化输出。

停止

参数：stop
可选，array

如果模型遇到 stop 数组中指定的任意 token，则立即停止生成。

工具

参数：tools
可选，array

工具调用参数，遵循 OpenAI 的工具调用请求格式。对于非 OpenAI 提供者，会相应地进行转换。

工具选择

参数：tool_choice
可选，array

控制模型调用哪个工具。'none' 表示模型不会调用任何工具，而是生成一条消息。'auto' 表示模型可以在生成消息或调用一个或多个工具之间进行选择。'required' 表示模型必须调用一个或多个工具。通过 {"type": "function", "function": {"name": "my_function"}} 指定特定工具会强制模型调用该工具。

并行工具调用

参数：parallel_tool_calls
可选，boolean
默认：true

是否在使用工具时启用并行函数调用。如果为 true，模型可以同时调用多个函数。如果为 false，函数将按顺序依次调用。

冗长程度

参数：verbosity
可选，enum，low medium high
默认：medium

控制模型响应的冗长程度和长度。较低的值会生成更简洁的回答，而较高的值会生成更详细、更全面的回答。

以上文档为标准版 API 接口文档，可直接用于项目开发和系统调用。如果标准版 API 接口无法满足您的需求，需要定制开发 API 接口，请联系我们的 IT 技术支持工程师：

（沟通需求✅ → 确认技术方案✅ → 沟通费用与工期✅ → 开发&测试✅ → 验收交付✅ → 维护升级✅）

最受关注模型

2026-04-24

Embedding Models

2026-04-20

XiaoMi MiMo V2.5 Pro API 接口、模型参数 & 代码示例

XiaoMi MiMo V2.5 Pro 模型介绍：

API 接口地址：

Chat Completions API:

Anthropic API:

请求方法：

各编程语言代码示例：

各 AI 产品/工具/第三方应用接入示例：

API 响应示例（curl）：

可选参数：

🔗温度（Temperature）

🔗Top-P

🔗Top-K

🔗频率惩罚

🔗存在惩罚

🔗重复惩罚

🔗Min-P

🔗Top-A

🔗种子

🔗最大 tokens 数

🔗Logit Bias

🔗对数概率

🔗最高对数概率

🔗响应格式

🔗结构化输出

🔗停止

🔗工具

🔗工具选择

🔗并行工具调用

🔗冗长程度

最受关注模型

DeepSeek V4 Pro

DeepSeek V4 Flash

MiniMax M2.7

Qwen 3.6 Plus

Doubao Seed 2.0 Code

Doubao Seed 2.0 Pro

GLM 5

DeepSeek OCR 2

MiMo V2 Pro

Kimi K2.6

最新发布模型

XiaoMi MiMo V2.5