Qwen3.5 35B A3B API 接口、模型参数 & 代码示例

qwen3.5-35b-a3b

Qwen3.5 系列 35B-A3B 原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现接近于 Qwen3.5-27B。

模型 ID
qwen3.5-35b-a3b
模型系列
Qwen
更新日期
模型能力
深度思考、视觉理解、文本生成
上下文长度
256 K

阶梯计费: 输入 <= 128 k

模型价格(每 1000 tokens 输入)
¥ 0.00045
模型价格(每 1000 tokens 输出)
¥ 0.00325

阶梯计费: 输入 > 128 k

模型价格(每 1000 tokens 输入)
¥ 0.00165
模型价格(每 1000 tokens 输出)
¥ 0.013

Qwen3.5 35B A3B 模型介绍:

  • 类型:Causal Language Model with Vision Encoder
  • 训练阶段:Pre-training & Post-training
  • 语言模型
    • 参数量:35B in total and 3B activated
    • 隐藏层维度:2048
    • 词元嵌入维度:248320 (Padded)
    • 层数:40
    • 隐藏层布局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
    • 门控 DeltaNet:
      • 线性注意力头数:32 for V and 16 for QK
      • 注意力头维度:128
    • 门控注意力:
      • 注意力头数:16 for Q and 2 for KV
      • 注意力头维度:256
      • 旋转位置嵌入维度:64
    • 混合专家模块
      • 专家数量:256
      • 激活专家数:8 Routed + 1 Shared
      • 专家中间维度:512
    • 语言模型输出维度:248320 (Padded)
    • MTP:trained with multi-steps
  • 上下文长度:262,144 natively and extensible up to 1,010,000 tokens.

全新升级的 Qwen3.5 在多模态学习、架构效率、强化学习规模化以及全球可访问性等领域实现突破性整合,为开发者和企业用户带来前所未有的能力与效率提升,标志着我们在AI技术演进中迈出了关键一步。

Qwen3.5 核心亮点

Qwen3.5 系列模型具备以下技术突破:

  • 统一视觉语言基础模型:通过对多模态token进行早期融合训练,在推理能力、代码生成、智能体任务及视觉理解等基准测试中,实现与Qwen3模型跨代际的性能持平,并全面超越Qwen3-VL系列。

  • 高效混合架构:创新采用门控Delta网络与稀疏混合专家模型相结合的设计,在保持低延迟和低成本的前提下,实现高吞吐量推理。

  • 可扩展的强化学习泛化能力:在百万级智能体环境中开展规模化强化学习训练,通过逐步复杂化的任务分布设计,显著增强模型在真实场景中的适应能力。

  • 全球语言覆盖:支持语种扩展至201种语言及方言,深度融合区域文化与语言细微差异,助力实现包容性的全球化部署。

  • 新一代训练基础设施:实现接近100%的多模态训练效率(相比纯文本训练),并搭载异步强化学习框架,支持超大规模智能体架构与环境协同调度。

基准测试结果

API 接口地址:

https://wcode.net/api/gpt/v1/chat/completions

此 API 接口兼容 OpenAI 的 API 接口规范,也就是可以直接使用 OpenAI 的 SDK 来调用各个模型。仅需替换以下两项配置即可:

  1. base_url 替换为 https://wcode.net/api/gpt/v1
  2. api_key 替换为从 https://platform.wcode.net 获取到的 API Key

具体可参考下方的各编程语言代码示例中的 OpenAI SDK 调用示例。

请求方法:

POST

各编程语言代码示例:

# TODO: 以下代码中的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
curl --request POST 'https://wcode.net/api/gpt/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer API_KEY' \
--data '{
    "model": "qwen3.5-35b-a3b",
    "messages": [
        {
            "role": "user",
            "content": "你好"
        }
    ]
}'
import Foundation

let headers = [
  "Authorization": "Bearer API_KEY",     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  "content-type": "application/json"
]
let parameters = [
  "model": "qwen3.5-35b-a3b",
  "messages": [
    [
      "role": "user",
      "content": "你好"
    ]
  ]
] as [String : Any]

let postData = JSONSerialization.data(withJSONObject: parameters, options: [])

let request = NSMutableURLRequest(url: NSURL(string: "https://wcode.net/api/gpt/v1/chat/completions")! as URL,
                                        cachePolicy: .useProtocolCachePolicy,
                                    timeoutInterval: 60.0)
request.httpMethod = "POST"
request.allHTTPHeaderFields = headers
request.httpBody = postData as Data

let session = URLSession.shared
let dataTask = session.dataTask(with: request as URLRequest, completionHandler: { (data, response, error) -> Void in
  if (error != nil) {
    print(error as Any)
  } else {
    let httpResponse = response as? HTTPURLResponse
    print(httpResponse)
  }
})

dataTask.resume()
var headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer API_KEY'     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
};
var request = http.Request('POST', Uri.parse('https://wcode.net/api/gpt/v1/chat/completions'));
request.body = json.encode({
  "model": "qwen3.5-35b-a3b",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
});
request.headers.addAll(headers);

http.StreamedResponse response = await request.send();

if (response.statusCode == 200) {
  print(await response.stream.bytesToString());
}
else {
  print(response.reasonPhrase);
}
require 'uri'
require 'net/http'

url = URI("https://wcode.net/api/gpt/v1/chat/completions")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer API_KEY'     # TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
request["content-type"] = 'application/json'
request.body = "{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}"

response = http.request(request)
puts response.read_body
use serde_json::json;
use reqwest;

#[tokio::main]
pub async fn main() {
  let url = "https://wcode.net/api/gpt/v1/chat/completions";

  let payload = json!({
    "model": "qwen3.5-35b-a3b",
    "messages": (
      json!({
        "role": "user",
        "content": "你好"
      })
    )
  });

  let mut headers = reqwest::header::HeaderMap::new();
  headers.insert("Authorization", "Bearer API_KEY".parse().unwrap());     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  headers.insert("content-type", "application/json".parse().unwrap());

  let client = reqwest::Client::new();
  let response = client.post(url)
    .headers(headers)
    .json(&payload)
    .send()
    .await;

  let results = response.unwrap()
    .json::<serde_json::Value>()
    .await
    .unwrap();

  dbg!(results);
}
CURL *hnd = curl_easy_init();

curl_easy_setopt(hnd, CURLOPT_CUSTOMREQUEST, "POST");
curl_easy_setopt(hnd, CURLOPT_URL, "https://wcode.net/api/gpt/v1/chat/completions");

struct curl_slist *headers = NULL;
headers = curl_slist_append(headers, "Authorization: Bearer API_KEY");    // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
headers = curl_slist_append(headers, "content-type: application/json");
curl_easy_setopt(hnd, CURLOPT_HTTPHEADER, headers);

curl_easy_setopt(hnd, CURLOPT_POSTFIELDS, "{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}");

CURLcode ret = curl_easy_perform(hnd);
package main

import (
  "fmt"
  "strings"
  "net/http"
  "io"
)

func main() {
  url := "https://wcode.net/api/gpt/v1/chat/completions"

  payload := strings.NewReader("{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}")

  req, _ := http.NewRequest("POST", url, payload)

  req.Header.Add("Authorization", "Bearer API_KEY")     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  req.Header.Add("content-type", "application/json")

  res, _ := http.DefaultClient.Do(req)

  defer res.Body.Close()
  body, _ := io.ReadAll(res.Body)

  fmt.Println(res)
  fmt.Println(string(body))
}
using System.Net.Http.Headers;


var client = new HttpClient();

var request = new HttpRequestMessage(HttpMethod.Post, "https://wcode.net/api/gpt/v1/chat/completions");

request.Headers.Add("Authorization", "Bearer API_KEY");     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net

request.Content = new StringContent("{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}", null, "application/json");

var response = await client.SendAsync(request);

response.EnsureSuccessStatusCode();

Console.WriteLine(await response.Content.ReadAsStringAsync());
var client = new RestClient("https://wcode.net/api/gpt/v1/chat/completions");

var request = new RestRequest("", Method.Post);

request.AddHeader("Authorization", "Bearer API_KEY");     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net

request.AddHeader("content-type", "application/json");

request.AddParameter("application/json", "{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}", ParameterType.RequestBody);

var response = client.Execute(request);
const axios = require('axios');

let data = JSON.stringify({
  "model": "qwen3.5-35b-a3b",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
});

let config = {
  method: 'post',
  maxBodyLength: Infinity,
  url: 'https://wcode.net/api/gpt/v1/chat/completions',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer API_KEY'     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  },
  data : data
};

axios.request(config).then((response) => {
  console.log(JSON.stringify(response.data));
}).catch((error) => {
  console.log(error);
});
OkHttpClient client = new OkHttpClient();

MediaType mediaType = MediaType.parse("application/json");

RequestBody body = RequestBody.create(mediaType, "{\"model\":\"qwen3.5-35b-a3b\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}");

Request request = new Request.Builder()
  .url("https://wcode.net/api/gpt/v1/chat/completions")
  .post(body)
  .addHeader("Authorization", "Bearer API_KEY")             // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  .addHeader("content-type", "application/json")
  .build();

Response response = client.newCall(request).execute();
$client = new \GuzzleHttp\Client();

$headers = [
  'Content-Type' => 'application/json',
  'Authorization' => 'Bearer API_KEY',     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
];

$body = '{
  "model": "qwen3.5-35b-a3b",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
}';

$request = new \GuzzleHttp\Psr7\Request('POST', 'https://wcode.net/api/gpt/v1/chat/completions', $headers, $body);

$response = $client->sendAsync($request)->wait();

echo $response->getBody();
$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://wcode.net/api/gpt/v1/chat/completions",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 5,
  CURLOPT_TIMEOUT => 300,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'model' => 'qwen3.5-35b-a3b',
    'messages' => [
      [
        'role' => 'user',
        'content' => '你好'
      ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer API_KEY",     // TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
    "content-type: application/json",
  ],
]);

$response = curl_exec($curl);
$error = curl_error($curl);

curl_close($curl);

if ($error) {
  echo "cURL Error #:" . $error;
} else {
  echo $response;
}
import requests
import json

url = "https://wcode.net/api/gpt/v1/chat/completions"

payload = {
  "model": "qwen3.5-35b-a3b",
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ]
}

headers = {
  "Authorization": "Bearer API_KEY",     # TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
  "content-type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4, ensure_ascii=False))
from openai import OpenAI

client = OpenAI(
  base_url="https://wcode.net/api/gpt/v1",
  api_key="API_KEY"                             # TODO: 这里的 API_KEY 需要替换,获取 API Key 入口:https://platform.wcode.net
)

completion = client.chat.completions.create(
  model="qwen3.5-35b-a3b",
  messages=[
    {
      "role": "user",
      "content": "你好"
    }
  ]
)

print(completion.choices[0].message.content)

各 AI 产品/工具/第三方应用接入示例:

配置 Roo Code

注意事项:以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取(创建)的 API Key

  • API Provider:OpenAI Compatible
  • Base URL:https://wcode.net/api/gpt/v1
  • API Key:<API_KEY>
  • Model:qwen3.5-35b-a3b

配置完成后,就可以开始使用 Roo Code ~

配置 Kilo Code

注意事项:以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取(创建)的 API Key

选择 Use your own API key,然后配置以下信息:

  • API Provider:OpenAI Compatible
  • Base URL:https://wcode.net/api/gpt/v1
  • API Key:<API_KEY>
  • Model:qwen3.5-35b-a3b

配置完成后,就可以开始使用 Kilo Code ~

配置 Cline

注意事项:以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取(创建)的 API Key

  • API Provider:OpenAI Compatible
  • Base URL:https://wcode.net/api/gpt/v1
  • API Key:<API_KEY>
  • Model ID:qwen3.5-35b-a3b

配置完成后,就可以开始使用 Cline ~

注:以下安装和配置过程以 Ubuntu Server 24.04 (root 用户) + Node 22 安装 OpenClaw 🦞 2026.3.8 为例

安装 🦞 OpenClaw(龙虾),步骤如下:

  1. 命令行执行 npm install -g openclaw@latest
  2. 命令行执行 openclaw onboard --install-daemon
  3. I understand this is personal-by-default and shared/multi-user use requires lock-down. Continue? 选择 yes
  4. Onboarding mode 选择 QuickStart
  5. Model/auth provider 选择 Skip for now
  6. Default model 选择 Keep current (default: ...)
  7. Select channel (QuickStart) 选择 Skip for now
  8. Web search 选择 Skip for now
  9. Configure skills now? (recommended) 选择 No
  10. Enable hooks? (这是一个多选,按空格键可选中选项)按空格键选中 📝 command-logger💾 session-memory 这两个选项,然后按回车键进入下一步
  11. (如有) How do you want to hatch your bot? 选择 Hatch in TUI (recommended)

配置 🦞 OpenClaw(龙虾):

注意事项:以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取(创建)的 API Key

推荐方式:修改 openclaw.json(通常位于~/.openclaw/openclaw.json

找到openclaw.json的第一层级的modelsagents属性(如果没有则在第一层级添加modelsagents属性),改为如下配置:

{
  ...其他配置,

  "models": {
      "mode": "merge",
      "providers": {
          "wcode": {
              "baseUrl": "https://wcode.net/api/gpt/v1",
              "apiKey": "<API_KEY>",
              "api": "openai-completions",
              "models": [
                  {
                      "id": "qwen3.5-35b-a3b",
                      "name": "Qwen3.5 35B A3B",
                      "reasoning": false,
                      "input": ["text"],
                      "contextWindow": 256000,
                      "maxTokens": 64000
                  }
              ]
          }
      }
  },
  "agents": {
      "defaults": {
         "model": {
             "primary": "wcode/qwen3.5-35b-a3b"
         }
      }
  },

  ...其他配置
}

完成以上配置后,

  1. 执行以下命令,即可通过命令行的方式开始对话:
openclaw tui
  1. 执行以下命令,即可通过 Web 界面的方式开始对话:
openclaw dashboard

配置 OpenCode

推荐方式:修改 opencode.json(通常位于~/.config/opencode/opencode.json

注意事项:以下配置中的 <API_KEY> 需要替换为从 https://platform.wcode.net 获取的 API Key

配置如下:

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "myprovider": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "wcode",
      "options": {
        "baseURL": "https://wcode.net/api/gpt/v1",
        "apiKey": "<API_KEY>"
      },
      "models": {
        "qwen3.5-35b-a3b": {
          "name": "Qwen3.5 35B A3B"
        }
      }
    }
  }
}

完成以上配置后,执行以下命令,即可启动 OpenCode:

opencode

输入 /models,选择配置的 qwen3.5-35b-a3b 模型并在 OpenCode 中使用。

API 响应示例(curl):

{
    "choices": [
        {
            "message": {
                "content": "你好!我是 **Qwen3.5**,是通义千问(Qwen)系列中最新推出的大语言模型之一。作为阿里巴巴集团旗下的 AI 助手,我致力于为用户提供高效、精准且安全的智能服务。以下是我的核心特点:\n\n---\n\n### 🌟 **主要能力**\n1. **全栈代码支持**  \n   - 支持生成、调试和优化多编程语言(Python/Java/C++ 等),可直接编写前端页面、数据处理脚本或自动化工作流。\n2. **超大规模上下文**  \n   - 原生支持超长文本输入(如数十万字的文档),能精准定位关键信息,适用于法律合同分析、学术文献整理等场景。\n3. **复杂推理与逻辑优化**  \n   - 在数学计算、科学公式推导及多步骤任务规划中表现突出,能有效拆解问题并验证结果一致性。\n4. **多模态深度解析**  \n   - 不仅识别图表/公式中的内容,还能分析数据趋势、因果关联,生成专业解读报告(需结合视觉输入)。\n5. **智能体自主规划**  \n   - 可自主调用工具完成跨平台任务(如搜索信息→生成报告→发送邮件),减少人工干预。\n6. **垂直领域专业化**  \n   - 针对医疗、法律、金融等行业经过强化训练,提供合规性检查、风险预警等深度建议。\n7. **多语言无缝切换**  \n   - 支持全球百种语言,包括小语种翻译,并保留文化语境差异的处理能力。\n\n---\n\n### 🔒 **安全与可靠性**\n- 严格遵循内容安全规范,避免生成有害、偏见或虚假信息。\n- 对敏感话题主动提示风险(如医疗建议需标注“仅供参考”)。\n- 通过官方审核流程更新知识库,确保信息时效性与准确性。\n\n---\n\n### 💡 **典型应用场景**\n- **企业效率**:自动生成会议纪要、合同条款比对、客户沟通话术优化。\n- **教育科研**:撰写论文框架、实验数据可视化、知识点多角度讲解。\n- **个人创作**:小说情节设计、短视频脚本生成、社交媒体文案定制。\n- **技术辅助**:快速搭建网页原型、SQL 查询优化、API 接口文档编写。\n\n---\n\n如果你有具体问题或需要帮助的地方,欢迎随时告诉我!我会用最合适的方式为你解答 😊  \n(例如:“帮我写一份 Python 爬虫脚本,抓取天气数据并生成报告”或“解释量子纠缠的基本原理,适合中学生理解”)",
                "reasoning_content": "好的,用户让我介绍一下自己,我是 Qwen3.5 35B A3B。首先,我需要确认用户的具体需求是什么。他们可能想了解我的能力、特点或者适用场景。\n\n用户提到\"Qwen3.5 35B A3B”,这可能指的是模型的参数量或架构细节。作为 Qwen3.5,我需要准确说明版本信息,但要注意不要泄露技术参数或内部细节,保持回答简洁且符合规范。\n\n接下来,我应该概述自己的核心能力,比如多语言支持、长上下文处理、代码能力等。需要突出升级后的优势,比如性能提升和效率优化。同时要避免技术术语过多,用通俗的语言让用户容易理解。\n\n用户可能对实际应用感兴趣,可以列举几个典型使用场景,比如写作、编程、数据分析等。此外,要强调安全性,确保信息准确可靠。\n\n需要检查是否有遗漏的重要点,比如是否支持多轮对话、图像分析等。根据之前的设定,Qwen3.5 应该具备这些功能。还要注意不要提及具体的技术参数,如 Token 长度或模型大小,而是用“更强大的推理能力”这样的描述。\n\n最后,保持友好和帮助的态度,邀请用户提问或提出具体任务,促进进一步互动。确保回答结构清晰,分点说明,但不要使用markdown格式,用自然的中文分段。",
                "role": "assistant"
            },
            "finish_reason": "stop",
            "index": 0,
            "logprobs": null
        }
    ],
    "object": "chat.completion",
    "usage": {
        "prompt_tokens": 28,
        "completion_tokens": 812,
        "total_tokens": 840,
        "completion_tokens_details": {
            "reasoning_tokens": 274,
            "text_tokens": 812
        },
        "prompt_tokens_details": {
            "text_tokens": 28
        }
    },
    "created": 1772031252,
    "system_fingerprint": null,
    "model": "qwen3.5-35b-a3b",
    "id": "chatcmpl-t1772031246s788r18534436af6d7c764b9e208d"
}

可选参数:

重要提示:由于模型架构不同,部分参数可能仅适用于特定的模型。

温度(Temperature)

  • 参数:temperature

  • 可选,浮点数,0.0 到 2.0

  • 默认:1.0

此设置影响模型回复的多样性。较低的值会使回复更可预测、更常见;较高的值会鼓励更具多样性且较不常见的回复。当设置为 0 时,模型对相同输入将尽可能的给出相同的回复。

Top-P

  • 参数:top_p

  • 可选,float,0.0 至 1.0

  • 默认值:1.0

top_p 参数控制模型在生成文本时的候选词选择范围。具体来说,模型会生成一组候选 token,然后从累积概率达到或超过 p 的 token 中随机选择一个作为输出。通过这种方式,top_p 能够在保证生成内容的多样性的同时,考虑到概率分布的合理性。

由于 temperature 与 top_p 均可以控制生成文本的多样性,因此建议您只设置其中一个值。

Top-K

  • 参数:top_k

  • 可选,int,>= 0

  • 默认值:0

top_k 会限制模型在每一步对 token 的选择,使其从较小的集合中进行选择。值为 1 表示模型将始终选择最有可能的下一个 token,从而得到可预测的结果。

频率惩罚

  • 参数:frequency_penalty

  • 可选,float,-2.0 至 2.0

  • 默认值:0.0

frequency_penalty 可根据词条在输入中出现的频率来控制其重复使用。它会尝试减少那些在输入中出现频率较高的词条的使用频率,这与它们出现的频率成正比。词条惩罚会随着出现次数的增加而增加。负值将鼓励词条重复使用。

存在惩罚

  • 参数:presence_penalty

  • 可选,float,-2.0 至 2.0

  • 默认值:0.0

presence_penalty 调整模型重复输入中已使用的特定标记的频率。值越高,重复的可能性就越小,负值则相反。标记惩罚不会随着出现次数而变化。负值会鼓励标记重用。

重复惩罚

  • 参数:repetition_penalty

  • 可选,float,0.0 至 2.0

  • 默认值:1.0

repetition_penalty 有助于减少输入中标记的重复。较高的值会降低模型重复标记的可能性,但过高的值会使输出不够连贯(通常会出现缺少小词的连续句子)。标记惩罚会根据原始标记的概率进行调整。

Min-P

  • 参数:min_p

  • 可选,float,0.0 至 1.0

  • 默认值:0.0

min_p 表示某个 token 被考虑的最小概率,该概率是相对于最可能的 token 的概率而言的。如果 min_p 设置为 0.1,则意味着它只允许概率至少为最佳选项十分之一的 token 被考虑。

Top-A

  • 参数:top_a

  • 可选,float,0.0 到 1.0

  • 默认值:0.0

top_a 仅考虑概率“足够高”的 top tokens,该概率基于最可能的 token 概率。可以将其视为一个动态的 Top-P。较低的 Top-A 值会根据概率最高的 token 集中选择,但范围会更窄。较高的 Top-A 值不一定会影响输出的创造性,但会根据最大概率优化过滤过程。

种子

  • 参数:seed

  • 可选,int

如果指定了 seed 参数,推理将确定性地进行采样,即使用相同种子和参数的重复请求应该返回相同的结果。某些模型无法保证确定性。

最大 tokens 数

  • 参数:max_tokens

  • 可选,int,>= 1

max_tokens 可设定模型在响应中可以生成的 token 数量的上限。模型不会生成超过此限制的 token。其最大值等于上下文长度减去 prompt 长度。

Logit Bias

  • 参数:logit_bias

  • 可选,object

logit_bias 是一个可选参数,用于修改指定 token 在模型生成输出中出现的可能性。

对数概率

  • 参数:logprobs

  • 可选,boolean

logprobs 设置是否返回输出 token 的对数概率。如果为 true,则返回每个输出 token 的对数概率。

最高对数概率

  • 参数:top_logprobs

  • 可选,int

top_logprobs 是一个介于 0 和 20 之间的整数,指定在每个 token 位置要返回的最可能 token 的数量,每个 token 都会带有相应的对数概率。如果使用此参数,则必须将 logprobs 设置为 true

响应格式

  • 参数:response_format

  • 可选,object

response_format 强制模型产出特定的输出格式。将其设置为 { "type": "json_object" } 可启用 JSON 模式,保证模型生成的消息为有效的 JSON。

注意:使用 JSON 模式时,应同时通过 system 或 user 提示词指示模型生成 JSON。

结构化输出

  • 参数:structured_outputs

  • 可选,boolean

指示模型是否能够使用 response_format 中的 json_schema 返回结构化输出。

停止

  • 参数:stop

  • 可选,array

如果模型遇到 stop 数组中指定的任意 token,则立即停止生成。

工具

  • 参数:tools

  • 可选,array

工具调用参数,遵循 OpenAI 的工具调用请求格式。对于非 OpenAI 提供者,会相应地进行转换。

工具选择

  • 参数:tool_choice

  • 可选,array

控制模型调用哪个工具。'none' 表示模型不会调用任何工具,而是生成一条消息。'auto' 表示模型可以在生成消息或调用一个或多个工具之间进行选择。'required' 表示模型必须调用一个或多个工具。通过 {"type": "function", "function": {"name": "my_function"}} 指定特定工具会强制模型调用该工具。

并行工具调用

  • 参数:parallel_tool_calls

  • 可选,boolean

  • 默认:true

是否在使用工具时启用并行函数调用。如果为 true,模型可以同时调用多个函数。如果为 false,函数将按顺序依次调用。

冗长程度

  • 参数:verbosity

  • 可选,enumlow medium high

  • 默认:medium

控制模型响应的冗长程度和长度。较低的值会生成更简洁的回答,而较高的值会生成更详细、更全面的回答。


以上文档为标准版 API 接口文档,可直接用于项目开发和系统调用。如果标准版 API 接口无法满足您的需求,需要定制开发 API 接口,请联系我们的 IT 技术支持工程师:

(沟通需求✅ → 确认技术方案✅ → 沟通费用与工期✅ → 开发&测试✅ → 验收交付✅ → 维护升级✅)

最受关注模型

GLM 4.7

文本生成、深度思考

MiniMax M2.1

文本生成、深度思考

Doubao Seed 2.0 Code

代码补全、深度思考

GLM 5

文本生成、深度思考、代码补全

Step 3.5 Flash

文本生成、代码补全、深度思考

Qwen3 Coder Next

文本生成、深度思考、代码补全

Qwen3.5 27B

深度思考、视觉理解、文本生成

Qwen3.5 35B A3B

深度思考、视觉理解、文本生成

Doubao Seed 1.8

多模态、深度思考

Qwen 3.5 Plus

文本生成、深度思考、多模态

最新发布模型

GLM 5 Turbo

文本生成、深度思考、OpenClaw优化

Qwen3.5 9B

文本生成、多模态

Qwen3.5 35B A3B

深度思考、视觉理解、文本生成

Qwen3.5 122B A10B

深度思考、视觉理解、文本生成

Qwen3.5 27B

深度思考、视觉理解、文本生成

Qwen3.5 Flash

深度思考

Qwen3.5 397B A17B

文本生成、深度思考、多模态

Doubao Seed 2.0 Code

代码补全、深度思考

Doubao Seed 2.0 Pro

文本生成、深度思考、多模态

Doubao Seed 2.0 Lite

文本生成、深度思考、多模态

Embedding Models

Qwen3 Embedding 8B

文本嵌入、文本向量化

Doubao Embedding Large Text 250515

文本向量化

Qwen Text Embedding V4

文本向量化

Qwen Text Embedding V1

文本向量化

Qwen Text Embedding V2

文本向量化

Doubao Embedding Large

文本向量化

Doubao Embedding

文本向量化

Qwen Text Embedding V3

文本向量化

Hunyuan Embedding

文本向量化