模型列表 - 万码云开发平台

GLM 4.7

z-ai/glm-4.7

GLM-4.7是智谱推出的最新旗舰级模型，主要在两大方面实现升级：增强的编程能力与更稳定的多步骤推理与执行。该模型在执行复杂智能体任务时展现出显著提升，同时能够提供更为自然的对话体验和出色的前端美学。

2025-12-23

输入：¥ 0.00675 / 千 tokens

输出：¥ 0.025 / 千 tokens

文本生成、深度思考

MiniMax-M2.1 是一款轻量级、尖端的大型语言模型，专门针对编码、智能体工作流和现代应用开发进行了优化。尽管仅拥有100亿激活参数，它在实际应用中实现了能力的大幅跃升，同时保持了卓越的低延迟、高扩展性和出色的成本效益。相比前代模型，M2.1 能够生成更清晰、更简洁的输出结果，并具备更快的感知响应速度。它在主流系统和应用语言中展现出领先的多语言编码性能——在 Multi-SWE-Bench 基准测试中达到 49.4%，在 SWE-Bench Multilingual 中取得 72.5% 的优异成绩。该模型可作为集成开发环境、编程工具及通用助手中的多功能智能“大脑”。为确保模型性能不受影响，MiniMax 强烈建议在各轮对话间保持推理过程的连贯性。

2025-12-23

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.015 / 千 tokens

文本生成、深度思考

GLM 4.6V

z-ai/glm-4.6v

GLM-4.6V是一款大型多模态模型，专注于实现高保真视觉理解及针对图像、文档与混合媒体的长上下文推理能力。该模型支持高达128K token的上下文长度，能直接处理复杂页面布局与图表等视觉输入，并集成原生多模态函数调用功能，将感知系统与下游工具执行无缝衔接。此外，模型支持图文交错生成与界面重构工作流，包括截图转HTML合成及迭代式视觉编辑等应用场景。

2025-12-09

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.0115 / 千 tokens

图片识别、深度思考

DeepSeek V3.2

deepseek/deepseek-v3.2

DeepSeek-V3.2 是一款大型语言模型，致力于实现高计算效率与强大的推理及智能体工具使用性能的平衡。它引入了**深度求索稀疏注意力（DSA）**机制，这是一种细粒度的稀疏注意力架构，可在保证长上下文处理质量的同时显著降低训练与推理成本。通过可扩展的强化学习训练后优化框架，模型推理能力得到进一步增强，其报告性能已达到GPT-5级别，并在2025年国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中斩获金牌。DeepSeek V3.2 同样采用大规模智能体任务合成训练流程，能够更有效地将推理能力与工具使用场景相结合，从而提升在交互环境中的指令遵循与泛化能力。

2025-12-02

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0055 / 千 tokens

文本生成

DeepSeek V3.2 Speciale

deepseek/deepseek-v3.2-speciale

DeepSeek-V3.2-Speciale 是 DeepSeek-V3.2 的高性能计算变体，专为最大化推理与智能体性能而优化。该模型基于 DeepSeek 稀疏注意力（DSA）架构，实现了高效的长上下文处理，并通过大规模训练后强化学习进一步突破基础模型的能力边界。根据公布的评估结果，Speciale 在复杂推理任务上表现超越 GPT-5，其综合能力可与 Gemini-3.0-Pro 相媲美，同时在代码生成与工具调用方面保持卓越的可靠性。与 DeepSeek V3.2 相同，Speciale 模型受益于大规模智能体任务合成训练流程，显著提升了在交互环境中的指令遵循与泛化能力。

2025-12-01

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0055 / 千 tokens

文本生成、深度思考

Kimi K2 Thinking

moonshotai/kimi-k2-thinking

Kimi K2 Thinking 是月之暗面迄今最先进的开放推理模型，将 K2 系列能力边界拓展至具身智能与长程推理领域。该模型基于 Kimi K2 提出的万亿参数混合专家架构，每次前向传播激活 320 亿参数，支持 256K token 上下文窗口。 Kimi K2 Thinking 专门针对持续链式思考、动态工具调用与横跨数百轮次的复杂推理工作流进行优化，通过交替执行渐进式推理与工具操作，可实现持续数百个步骤的自主研究、编程与写作任务且不偏离目标。 Kimi K2 Thinking 模型在 HLE、BrowseComp、SWE-Multilingual 和 LiveCodeBench 等基准测试中创下开源模型新纪录，并在 200-300 次工具调用中保持稳定的多智能体行为。基于经过 MuonClip 优化的大规模 MoE 架构，该模型在保持强大推理深度的同时实现了高推理效率，足以胜任高要求的智能体任务与分析型工作。

2025-11-07

输入：¥ 0.0075 / 千 tokens

输出：¥ 0.03 / 千 tokens

文本生成、深度思考

MiniMax M2

minimax/minimax-m2

MiniMax-M2 是一款紧凑高效的大型语言模型，专为端到端编程与智能体工作流优化而设计。模型拥有 100 亿激活参数（总参数量 2300 亿），在通用推理、工具使用及多步骤任务执行方面展现出接近前沿水平的智能，同时保持低延迟与高部署效率。根据 Artificial Analysis 的基准测试显示，MiniMax-M2在数学、科学及指令遵循等综合智能维度位列顶级开源模型。其小型激活参数量确保了快速推理、高并发支持与更优的单位经济效益，特别适合大规模智能体、开发者助手及需要高响应度与成本效益的推理驱动型应用。为保证模型性能，MiniMax 强烈建议在对话轮次间保持推理连续性。

2025-10-29

输入：¥ 0.003 / 千 tokens

输出：¥ 0.012 / 千 tokens

文本生成、深度思考

Qwen3 VL 8B Instruct

qwen/qwen3-vl-8b-instruct

Qwen3-VL-8B-Instruct 是来自 Qwen3-VL 系列的多模态视觉-语言模型，旨在对文本、图像与视频实现高保真理解与推理。它采用了改进的多模态融合机制——Interleaved-MRoPE，用于长时跨度的时间推理；引入 DeepStack 实现细粒度的视觉—文本对齐；并支持文本—时间戳对齐以实现精确的事件定位。Qwen3-VL-8B-Instruct 模型原生支持 256K tokens 的上下文窗口，可扩展至 1M tokens，能够处理静态与动态媒体输入，适用于文档解析、视觉问答、空间推理与图形界面（GUI）控制等任务。它在文本理解方面达到了与领先大型语言模型相当的水平，同时将 OCR 覆盖扩展到 32 种语言，并在多种视觉条件下增强了稳健性。

2025-10-15

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.00875 / 千 tokens

图片识别

Baidu ERNIE 4.5 21B A3B Thinking

baidu/ernie-4.5-21b-a3b-thinking

ERNIE-4.5-21B-A3B-Thinking是百度升级的轻量级MoE（专家混合）模型，经过优化精炼，显著提升推理深度与质量，旨在逻辑解谜、数学计算、科学推理、代码编写、文本生成及专业级学术基准测试中实现顶尖性能。

2025-10-10

输入：¥ 0.001 / 千 tokens

输出：¥ 0.0035 / 千 tokens

文本生成、深度思考

Qwen3 VL 30B A3B Instruct

qwen/qwen3-vl-30b-a3b-instruct

Qwen3-VL-30B-A3B-Instruct 是一款多模态模型，深度融合强大的文本生成能力与图像、视频的视觉理解功能。其指令优化版本针对通用多模态任务的指令遵循能力进行了专项优化。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越，在多模态基准测试中取得领先成绩。针对智能体应用场景，它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务，以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平，适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。

2025-10-07

输入：¥ 0.004 / 千 tokens

输出：¥ 0.0125 / 千 tokens

图片识别

Qwen3 VL 30B A3B Thinking

qwen/qwen3-vl-30b-a3b-thinking

Qwen3-VL-30B-A3B-Thinking 是一款多模态模型，深度融合强大的文本生成能力与图像、视频的视觉理解功能。其思维增强版本显著提升了在STEM领域、数学及复杂任务中的推理能力。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越，在多模态基准测试中取得领先成绩。针对智能体应用场景，它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务，以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平，适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。

2025-10-07

输入：¥ 0.004 / 千 tokens

输出：¥ 0.0125 / 千 tokens

图片识别、深度思考

GLM 4.6

z-ai/glm-4.6

与 GLM-4.5 相比，GLM-4.6 模型实现了多项关键改进：更长的上下文窗口：上下文窗口从 128K 字符扩展至 200K 字符，使模型能够处理更复杂的智能体任务。卓越的编程性能：在代码基准测试中获得更高分数，并在 Claude Code、Cline、Roo Code 及 Kilo Code 等实际应用中表现更佳，包括生成视觉效果更佳的前端页面方面有所提升。进阶推理能力：GLM-4.6 在推理性能上显著提升，并支持推理过程中的工具调用，从而形成更强大的综合能力。更强大的智能体：GLM-4.6 在工具调用和基于搜索的智能体方面表现更出色，并能更高效地集成至智能体框架中。精细化写作：更符合人类对文风与可读性的偏好，在角色扮演场景中的表现也更为自然。

2025-10-01

输入：¥ 0.0075 / 千 tokens

输出：¥ 0.021 / 千 tokens

文本生成、深度思考

DeepSeek V3.2 Exp

deepseek/deepseek-v3.2-exp

DeepSeek-V3.2-Exp 是由 DeepSeek 发布的实验性（Experimental）大语言模型，作为V3.1与未来架构之间的中间版本。该模型引入了 DeepSeek 稀疏注意力（DSA）机制——一种细粒度稀疏注意力架构，旨在保持输出质量的同时提升长上下文场景下的训练与推理效率。用户可通过 "reasoning": {"enabled": true} 布尔参数控制推理行为。模型的训练条件与 DeepSeek-V3.1-Terminus 保持一致，以实现直接性能对比。基准测试显示，该模型在推理、代码生成和智能体工具使用任务上的表现与 V3.1 大致持平，不同领域存在微幅的性能取舍与提升。本次发布侧重于验证针对长上下文优化的架构设计，而非追求原始任务精度的突破，因此本质上属于研究导向型模型，主要用于探索高效的 Transformer 架构设计。

2025-09-30

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0055 / 千 tokens

文本生成

Qwen3 VL 235B A22B Instruct

qwen/qwen3-vl-235b-a22b-instruct

Qwen3-VL-235B-A22B Instruct 是一款开放参数的多模态模型，融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该指令调优模型专注于通用视觉语言任务（视觉问答、文档解析、图表/表格提取、多语言OCR）。该系列模型重点强化了鲁棒感知（识别多样化的真实世界及合成类别）、空间理解（2D/3D定位）以及长篇幅视觉内容解析能力，在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外，Qwen3-VL 还支持智能体交互与工具调用：可遵循跨多图像、多轮对话的复杂指令；将文本与视频时间轴对齐以实现精准的时间定位查询；操作图形界面元素完成自动化任务。该模型还能驱动可视化编程工作流——将草图或原型转化为代码并辅助UI调试，同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。

2025-09-24

输入：¥ 0.004 / 千 tokens

输出：¥ 0.022 / 千 tokens

图片识别

Qwen3 VL 235B A22B Thinking

qwen/qwen3-vl-235b-a22b-thinking

Qwen3-VL-235B-A22B Thinking 是一款多模态模型，融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该模型专门针对 STEM 领域和数学的多模态推理进行优化，重点强化了鲁棒感知（识别多样化的真实世界及合成类别）、空间理解（2D/3D定位）以及长篇幅视觉内容解析能力，在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外，Qwen3-VL 还支持智能体交互与工具调用：可遵循跨多图像、多轮对话的复杂指令；将文本与视频时间轴对齐以实现精准的时间定位查询；操作图形界面元素完成自动化任务。该系列模型还能驱动可视化编程工作流，将草图或原型转化为代码并辅助UI调试，同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。

2025-09-24

输入：¥ 0.004 / 千 tokens

输出：¥ 0.036 / 千 tokens

图片识别

DeepSeek V3.1 Terminus

deepseek/deepseek-v3.1-terminus

DeepSeek-V3.1 Terminus 是 DeepSeek V3.1 的升级版本，在保留模型原有能力的基础上，针对用户反馈的语言一致性和智能体能力等问题进行了优化，进一步提升了模型在编程和搜索智能体场景下的表现。该模型是大型混合推理模型（参数总量6710亿，激活参数370亿），支持思考与非思考两种模式。它通过两阶段长上下文训练流程扩展了 DeepSeek-V3 的基础能力，上下文长度最高可达128K词元，并采用FP8微缩放技术实现高效推理。用户可通过 {"reasoning": {"enabled": true}} 布尔参数控制推理行为。该模型优化了工具调用、代码生成和推理效率，在困难基准测试中达到与 DeepSeek-R1 相当的性能，同时响应速度更快。它支持结构化工具调用、代码智能体与搜索智能体，适用于研究、编程和智能体工作流等场景。

2025-09-23

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.0125 / 千 tokens

文本生成

DeepSeek-V3.1 Terminus 通用模型

deepseek-v3.1-terminus

DeepSeek-V3.1 Terminus 是深度求索全新推出的混合推理模型，相比上一版解决了一系列问题，主要包含：语言一致性：缓解了中英文混杂、偶发异常字符等情况；Agent 能力：进一步优化了 Code Agent 与 Search Agent 的表现。

2025-09-23

输入：¥ 0.0045 / 千 tokens

输出：¥ 0.0135 / 千 tokens

文本生成

Tongyi DeepResearch 30B A3B

alibaba/tongyi-deepresearch-30b-a3b

通义深度研究（Tongyi DeepResearch）是由通义实验室开发的智能体大型语言模型，总参数量达300亿但每词元仅激活30亿参数。该模型专为长周期深度信息检索任务优化，在Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、GAIA、xbench-DeepSearch及FRAMES等基准测试中均达到顶尖水平。相较于先前模型，它在复杂智能搜索、推理和多步骤问题解决方面表现更为卓越。模型采用全自动合成数据管道，支持可扩展的预训练、微调与强化学习。通过对多样化智能体数据进行大规模持续预训练，持续增强推理能力并保持知识新鲜度。其特色包括端到端同策略强化学习框架，配备定制化的组相对策略优化机制——包含词元级梯度计算与负样本过滤技术以确保训练稳定性。模型支持ReAct框架进行核心能力验证，并提供基于迭代研究（IterResearch）的"重型"模式，通过测试时扩展实现极致性能。特别适用于高级研究智能体、工具调用及复杂推理工作流场景。

2025-09-19

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.0055 / 千 tokens

文本生成、深度研究

Qwen3 Next 80B A3B Instruct

qwen/qwen3-next-80b-a3b-instruct

Qwen3-Next-80B-A3B-Instruct 是 Qwen3-Next 系列中经过指令微调的对话模型，专为快速稳定的响应而优化，不输出"思维"轨迹。该模型面向推理、代码生成、知识问答和多语言应用等复杂任务，同时在对齐能力和格式规范性方面保持稳健表现。相较此前 Qwen3 指令微调版本，其重点提升了超长输入和多轮对话下的吞吐量与稳定性，特别适合需要最终答案一致性而非显式思维链的 RAG、工具调用及智能体工作流程。该模型采用扩展高效训练与解码技术，显著提升参数效率与推理速度，并在广泛公开基准测试中验证了其性能——在多个类别达到或接近更大规模 Qwen3 系统的水平，同时超越早先的中等规模基线模型。作为通用助手、编程协作者和长上下文任务处理工具，它最适用于生产环境中需要确定性指令跟随输出的场景。

2025-09-12

输入：¥ 0.00175 / 千 tokens

输出：¥ 0.0175 / 千 tokens

文本生成

Qwen3 Next 80B A3B Thinking

qwen/qwen3-next-80b-a3b-thinking

Qwen3-Next-80B-A3B-Thining 是 Qwen3-Next 系列中优先推理的对话模型，默认输出结构化的"思维"轨迹。该模型专为复杂多步骤问题设计，涵盖数学证明、代码合成/调试、逻辑推理和智能体规划等领域，在知识理解、推理能力、编程实践、对齐性能及多语言评估中均表现卓越。相比此前Qwen3系列版本，该模型显著提升了长链思维下的稳定性与推理时的高效扩展性，经过调优后能够遵循复杂指令，同时减少重复性或偏离任务的行为。该模型适用于智能体框架与工具调用（函数调用）、高频率检索的工作流程，以及需要分步解决方案的标准化基准测试。它支持生成长篇详细的内容完成结果，并采用面向吞吐量的技术（如多令牌预测）以加速生成过程。需注意该模型仅运行在纯思维模式下。

2025-09-12

输入：¥ 0.00175 / 千 tokens

输出：¥ 0.0175 / 千 tokens

文本生成、深度思考

通义千问 Qwen-VL-Plus

qwen-vl-plus

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

2025-09-08

输入：¥ 0.001 / 千 tokens

输出：¥ 0.00225 / 千 tokens

图片理解

Kimi K2 0905

moonshotai/kimi-k2-0905

Kimi K2 0905 是Kimi K2 0711的九月更新版。该模型由月之暗面（Moonshot AI）研发，是采用专家混合架构（MoE）的超大规模语言模型，总参数量达万亿规模，前向推理激活参数量为 320 亿。其上下文窗口长度从之前的 128K 扩展至 256K tokens，支持长上下文推理。本次更新显著提升了智能体编码能力，在各类编程框架中展现出更高准确性和更强泛化能力；同时增强了前端编程表现，能为网页、3D等任务生成兼具美学价值与功能性的代码。Kimi K2 专门针对智能体能力进行优化，涵盖高级工具使用、复杂推理和代码合成三大核心领域，在编程（LiveCodeBench、SWE-bench）、推理（ZebraLogic、GPQA）和工具使用（Tau2、AceBench）等基准测试中均表现卓越。该模型采用创新训练框架，集成MuonClip优化器，确保超大规模MoE模型的稳定训练。

2025-09-05

输入：¥ 0.00625 / 千 tokens

输出：¥ 0.025 / 千 tokens

文本生成

Qwen3 30B A3B Thinking 2507

qwen/qwen3-30b-a3b-thinking-2507

Qwen3-30B-A3B-Thinking-2507 是一款拥有300亿参数的专家混合推理模型，专门针对需要多步骤深度思考的复杂任务进行优化。该模型专为"思维模式"设计，其核心特性是将内部推理过程与最终答案分离。相较于早期发布的 Qwen3-30B 版本，本模型在逻辑推理、数理科学、编程开发及多语言基准测试方面均实现性能提升，同时展现出更强的指令遵循能力、工具使用能力以及与人类价值观的对齐能力。凭借更高的推理效率和扩展的输出容量，该模型特别适用于前沿学术研究、竞技级问题求解，以及需要结构化长上下文推理的智能体应用场景。

2025-08-29

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.00375 / 千 tokens

文本生成

DeepSeek V3.1

deepseek/deepseek-chat-v3.1

DeepSeek V3.1 是一个大型混合推理模型（6710 亿参数，其中 370 亿为活跃参数），通过提示模板支持带“thinking”（思考）和非思考两种模式。DeepSeek V3.1 在 V3 的基础上进行了扩展，采用双阶段长上下文训练流程，最大支持 128 K tokens，并使用 FP8 微缩放以提高推理效率。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。 DeepSeek V3.1 改进了工具使用、代码生成和推理效率，在一些基准测试上可达到与 DeepSeek R1 相当的性能，同时响应更快。DeepSeek V3.1 支持结构化工具调用、代码代理与搜索代理，适用于科研、编写代码和智能体工作流。

2025-08-24

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0125 / 千 tokens

文本生成

DeepSeek-V3.1 通用模型

deepseek-v3.1

DeepSeek-V3.1 是深度求索全新推出的混合推理模型，支持思考与非思考2种推理模式，较 DeepSeek-R1-0528 思考效率更高。经 Post-Training 优化，Agent 工具使用与智能体任务表现大幅提升。支持 128k 上下文窗口，输出长度支持最大 64k tokens。

2025-08-23

输入：¥ 0.0045 / 千 tokens

输出：¥ 0.0135 / 千 tokens

文本生成

Qwen3 Coder 30B A3B Instruct

qwen/qwen3-coder-30b-a3b-instruct

Qwen3-Coder-30B-A3B-Instruct是一款拥有305亿参数的混合专家（MoE）模型，采用128个专家组件（每次前向传播激活8个），专为高级代码生成、仓库级代码理解与智能体工具调用而设计。该模型基于Qwen3架构构建，原生支持256K token的上下文长度（可通过Yarn扩展至100万token），在函数调用、浏览器操作和结构化代码补全等任务中表现卓越。

2025-08-03

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.00375 / 千 tokens

代码生成

Qwen3 30B A3B Instruct 2507

qwen/qwen3-30b-a3b-instruct-2507

Qwen3-30B-A3B-Instruct-2507是千问团队开发的305亿参数专家混合语言模型，每次推理仅激活33亿参数。该模型采用非思考模式运行，专注于高质量指令遵循、多语言理解和代理工具使用能力。经过指令数据后训练后，在推理（AIME、斑马逻辑）、编程（MultiPL-E、LiveCodeBench）和对齐（IFEval、写作评测）等基准测试中展现出卓越性能。该模型在主观开放任务上显著优于非指令微调版本，同时保持了强劲的事实问答和代码生成能力。

2025-08-01

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.00375 / 千 tokens

文本生成

GLM 4.5

z-ai/glm-4.5

GLM-4.5 是智谱团队最新推出的旗舰级基础模型，专为智能体应用打造。GLM-4.5 模型采用专家混合架构（MoE），支持高达 128K tokens 的上下文长度，在推理能力、代码生成和智能体对齐方面实现显著提升。GLM-4.5 提供双模式混合推理：专为复杂推理和工具使用设计的"思考模式"，以及针对即时响应优化的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。

2025-07-28

输入：¥ 0.0055 / 千 tokens

输出：¥ 0.02 / 千 tokens

文本生成

Qwen3 235B A22B Thinking 2507

qwen/qwen3-235b-a22b-thinking-2507

Qwen3-235B-A22B-Thinking-2507 是一款高性能开放权重专家混合模型（MoE），专为复杂推理任务优化。该模型在前向推理过程中激活2350亿总参数中的220亿参数，原生支持高达262,144个token的上下文长度。此"纯思考"变体增强了结构化逻辑推理、数理科学及长文本生成能力，在AIME、SuperGPQA、LiveCodeBench和MMLU-Redux等基准测试中表现卓越。该模型经过指令微调，在逐步推理、工具使用、智能体工作流和多语言任务方面表现突出。此次发布的版本是Qwen3-235B系列中能力最强的开源变体，在结构化推理用例中超越诸多闭源模型。

2025-07-28

输入：¥ 0.00275 / 千 tokens

输出：¥ 0.0095 / 千 tokens

文本生成

GLM 4.5 Air

z-ai/glm-4.5-air

GLM-4.5-Air 是智谱团队推出的旗舰模型系列的轻量化版本，同样专为以智能体为核心的应用场景打造。与 GLM-4.5 相同，该模型采用专家混合架构（MoE），但参数规模更为紧凑。GLM-4.5-Air 同样支持混合推理模式，提供适用于复杂推理与工具使用的"思考模式"，以及满足实时交互需求的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。

2025-07-28

输入：¥ 0.0019 / 千 tokens

输出：¥ 0.0129 / 千 tokens

文本生成

Qwen3 Coder

qwen/qwen3-coder

基于Qwen3的代码生成模型，具有强大的Coding Agent能力，擅长工具调用和环境交互，能够实现自主编程、代码能力卓越的同时兼具通用能力。

2025-07-25

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.015 / 千 tokens

代码生成

Qwen3 235B A22B Instruct 2507

qwen/qwen3-235b-a22b-2507

Qwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言、指令微调的混合专家（Mixture-of-Experts，MoE）语言模型，每次前向传递激活 22B 个参数（约 220 亿）。它针对通用文本生成进行了优化，包括指令跟随、逻辑推理、数学、代码和工具使用。该模型原生支持 256K 的上下文长度，且不实现“思考模式”。与基础版本相比，2507 版本在知识覆盖、长上下文推理、代码基准测试以及面向开放式任务的对齐方面带来显著提升。在多语言理解、数学推理（例如 AIME、HMMT）以及对齐评估（如 Arena-Hard 和 WritingBench）上表现尤其强劲。

2025-07-24

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.0075 / 千 tokens

文本生成

通义千问3-235B-A22B-Instruct-2507

qwen3-235b-a22b-instruct-2507

基于Qwen3的非思考模式开源模型，相较上一版本（通义千问3-235B-A22B）主观创作能力与模型安全性均有小幅度提升。

2025-07-21

输入：¥ 0.00225 / 千 tokens

输出：¥ 0.0085 / 千 tokens

文本生成

Kimi K2

moonshotai/kimi-k2

Kimi K2 Instruct 是由 Moonshot AI 开发的大规模专家混合（Mixture-of-Experts，MoE）语言模型，总参数量达 1 万亿，每次前向计算活跃参数为 320 亿。该模型针对智能体（agentic）能力进行了优化，包括高级工具使用、推理与代码合成。Kimi K2 在广泛的基准测试中表现优异，尤其在编码（LiveCodeBench、SWE-bench）、推理（ZebraLogic、GPQA）和工具使用（Tau2、AceBench）任务上表现突出。Kimi K2 支持最长 128 K tokens 的长上下文推理，并采用了一套新颖的训练栈，其中包含用于稳定大规模 MoE 训练的 MuonClip 优化器。

2025-07-14

输入：¥ 0.0065 / 千 tokens

输出：¥ 0.025 / 千 tokens

文本生成

Hunyuan A13B Instruct

tencent/hunyuan-a13b-instruct

混元-A13B是由腾讯开发的130亿激活参数的专家混合模型，总参数量达800亿，支持通过思维链进行推理。该模型在数学、科学、编程及多轮推理任务中展现出具有竞争力的基准性能，同时通过分组查询注意力技术及量化支持（FP8、GPTQ等）保持高效推理效率。

2025-07-09

输入：¥ 0.0019 / 千 tokens

输出：¥ 0.0075 / 千 tokens

文本生成

Baidu ERNIE 4.5 300B A47B

baidu/ernie-4.5-300b-a47b

ERNIE-4.5-300B-A47B是百度ERNIE 4.5系列推出的3000亿参数专家混合语言模型，每token激活470亿参数，支持中英文文本生成。该模型采用异构MoE架构与先进路由策略，结合FP8及2比特等量化技术，针对高吞吐量推理与高效扩展进行优化。本版本专精纯语言任务，支持逻辑推理、工具参数调用，并具备13.1万token的超长上下文处理能力，适用于需要高水平推理能力与高吞吐性能的通用大语言模型应用场景。

2025-07-01

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.01375 / 千 tokens

文本生成

ERNIE 4.5 VL 424B A47B

baidu/ernie-4.5-vl-424b-a47b

ERNIE-4.5-VL-424B-A47B是百度ERNIE 4.5系列的多模态专家混合模型，总参数量达4240亿，每token激活470亿参数。该模型采用异构MoE架构与模态隔离路由机制，通过文本与图像的联合训练，实现了高保真跨模态推理、图像理解及长上下文生成（最高支持13.1万token）。结合SFT、DPO、UPO和RLVR等技术进行微调，支持思维与非思维推理模式。专为中英文视觉语言任务设计，具备高效扩展特性，可在4比特/8比特量化环境下运行。

2025-07-01

输入：¥ 0.006 / 千 tokens

输出：¥ 0.0175 / 千 tokens

图片识别

Hunyuan Turbos Vision 20250619

hunyuan-turbos-vision-20250619

Hunyuan Turbos Vision 采用混元 MOE 结构，是混元最新多模态模型，支持多语种作答，中英文能力均衡。

2025-06-19

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.01015 / 千 tokens

图片识别

Hunyuan-T1-Vision 视觉深度思考大模型

hunyuan-t1-vision

混元多模态理解深度思考模型，支持多模态原生长思维链，擅长处理各种图片推理场景，在理科难题上相比快思考模型全面提升。

2025-06-19

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.01015 / 千 tokens

图片理解、深度思考

Deepseek R1 0528 Qwen3 8B

deepseek/deepseek-r1-0528-qwen3-8b

DeepSeek-R1-0528是DeepSeek R1的小幅升级版，通过投入更多算力与更精妙的训练后技巧，将其推理能力推升至媲美O3、Gemini 2.5 Pro等旗舰模型的水平。该版本目前称霸数学、编程与逻辑推理排行榜，展现出思维深度的阶跃式提升。其蒸馏变体DeepSeek-R1-0528-Qwen3-8B将这种思维链能力压缩至80亿参数规模，在AIME 2024测试中较标准Qwen3 8B提升10个百分点，甚至与2350亿参数的"思考"巨量模型表现持平。

2025-06-01

输入：¥ 0.00075 / 千 tokens

输出：¥ 0.00125 / 千 tokens

文本生成

DeepSeek R1 0528

deepseek/deepseek-r1-0528

DeepSeek-R1 是由深度求索推出的推理大模型。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

2025-05-29

输入：¥ 0.00625 / 千 tokens

输出：¥ 0.025 / 千 tokens

文本生成、深度思考

DeepSeek-R1 深度思考模型

deepseek-r1

DeepSeek-R1 是由深度求索推出的推理大模型。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

2025-05-28

输入：¥ 0.005 / 千 tokens

输出：¥ 0.0175 / 千 tokens

文本生成、深度思考

豆包文本向量模型-Large 250515

doubao-embedding-large-text-250515

Doubao-embedding-large相比Doubao-embedding拥有更大的模型参数量，中英文Retrieval效果领先。主要面向向量检索的使用场景，支持中、英双语。

2025-05-15

输入：¥ 0.0009 / 千 tokens

输出：¥ 0.0009 / 千 tokens

Embedding 向量化、文本嵌入

DeepSeek Prover V2

deepseek/deepseek-prover-v2

DeepSeek Prover V2 是一个拥有 6710 亿参数的模型，专为 Lean 4 形式化定理证明设计。模型通过由 DeepSeek-V3 驱动的递归定理证明流程收集初始化数据，其冷启动训练流程首先通过引导 DeepSeek-V3 将复杂问题分解为系列子目标，将已解决的子目标证明与 DeepSeek-V3 的逐步推理过程结合，合成为思维链数据，为强化学习建立初始冷启动基础。

2025-05-03

输入：¥ 0.0065 / 千 tokens

输出：¥ 0.0275 / 千 tokens

文本生成、逻辑与数学

Qwen3 14B

qwen/qwen3-14b

Qwen3-14B 是 Qwen3 系列中的一个密集型自回归语言模型，拥有 14.8B 参数（约 148 亿），旨在同时支持复杂推理与高效对话。它能够在用于数学、编程和逻辑推理等任务的“思考”模式与用于通用会话的“非思考”模式之间无缝切换。该模型经过微调以适应指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务。它原生支持 32K token 的上下文，并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入：¥ 0.0008 / 千 tokens

输出：¥ 0.003 / 千 tokens

文本生成

Qwen3 235B A22B

qwen/qwen3-235b-a22b

Qwen3-235B-A22B 是 Qwen 开发的一个专家混合（Mixture-of-Experts，MoE）模型，拥有 2350 亿参数，每次前向计算激活 220 亿参数。它支持在用于复杂推理、数学与代码任务的“思考”模式与用于提高通用会话效率的“非思考”模式之间无缝切换。该模型展现出强大的推理能力、多语种支持（覆盖 100+ 种语言与方言）、高级指令跟随能力以及代理工具调用能力。它原生支持 32K token 的上下文窗口，并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.00675 / 千 tokens

文本生成

Qwen3 30B A3B

qwen/qwen3-30b-a3b

Qwen3 是 Qwen 大规模语言模型系列的最新一代，结合了密集（dense）与专家混合（Mixture-of-Experts，MoE）架构，擅长推理、多语言支持与高级代理化任务。它能够在用于复杂推理的“思考”模式与用于高效对话的“非思考”模式之间无缝切换，确保多场景下的灵活且高质量表现。Qwen3 在数学、编码、常识推理、创意写作和交互式对话能力上显著超越了 QwQ 与 Qwen2.5 等此前模型。Qwen3-30B-A3B 变体包含 305 亿参数（每次前向计算激活 33 亿）、48 层、128 个专家（每个任务激活 8 个），并通过 YaRN 支持高达 131K token 的上下文，在开源模型中树立了新的标杆。

2025-05-01

输入：¥ 0.0012 / 千 tokens

输出：¥ 0.00375 / 千 tokens

文本生成

Qwen3 32B

qwen/qwen3-32b

Qwen3-32B 是 Qwen3 系列中的一个密集型自回归语言模型，拥有 32.8B 参数（约 328 亿），针对复杂推理与高效对话进行了优化。它能够在用于数学、编码和逻辑推理等任务的“思考”模式与用于更快速的通用会话的“非思考”模式之间无缝切换。该模型在指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务上表现强劲。它原生支持 32K token 的上下文，并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入：¥ 0.00125 / 千 tokens

输出：¥ 0.00375 / 千 tokens

文本生成

Qwen3 8B

qwen/qwen3-8b

Qwen3-8B是Qwen3系列中的密集型82亿参数因果语言模型，专为高强度推理任务与高效对话场景打造。该模型支持在数学运算、编程及逻辑推理所需的"思维"模式与通用对话的"非思维"模式间无缝切换，经过精细调优可胜任指令跟随、智能体集成、创意写作以及覆盖100多种语言和方言的多语言应用。该模型原生支持32K token的上下文窗口，通过YaRN扩展技术可进一步提升至131K token容量。

2025-05-01

输入：¥ 0.0005 / 千 tokens

输出：¥ 0.00175 / 千 tokens

文本生成

豆包 1.5 Pro 深度思考视觉模型

doubao-1.5-thinking-vision-pro

Doubao-1.5-thinking-vision-pro 全新视觉深度思考模型，具备更强的通用多模态理解和推理能力，在 59 个公开评测基准中的 37 个上取得 SOTA 表现。

2025-04-28

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0095 / 千 tokens

图片理解、深度思考

豆包 1.5 UI TARS

doubao-1.5-ui-tars

UI-TARS 是一款原生面向图形界面交互（GUI）的Agent模型。通过感知、推理和行动等类人的能力，与 GUI 进行无缝交互。

2025-04-28

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.0125 / 千 tokens

GUI Agent 模型、图形界面交互、图片理解

ERNIE 4.5 Turbo VL 32K

ernie-4.5-turbo-vl-32k

图片理解、创作、翻译、代码等能力显著提升，首次支持32K上下文长度，首Token时延显著降低。

2025-04-24

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.01 / 千 tokens

图片理解

豆包 1.5 Thinking Pro

doubao-1.5-thinking-pro

Doubao-1.5全新深度思考模型，在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，在AIME 2024、Codeforces、GPQA等多项权威基准上达到或接近业界第一梯队水平。支持128k上下文窗口，16k输出。

2025-04-17

输入：¥ 0.005 / 千 tokens

输出：¥ 0.016 / 千 tokens

深度思考、文本生成

Hunyuan-Turbos-Vision 视觉大模型

hunyuan-turbos-vision

此模型适用于图文理解场景，是基于混元最新 turbos 的新一代视觉语言旗舰大模型，聚焦图文理解相关任务，包括基于图片的实体识别、知识问答、文案创作、拍照解题等方面，相比前一代模型全面提升。

2025-04-07

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.01015 / 千 tokens

图片理解

豆包 1.5 Vision Pro

doubao-1.5-vision-pro

全新升级的多模态大模型，视觉理解、分类、信息抽取等能力显著提升，并重点增强了解题、视频理解等场景的任务效果。支持 128k 上下文窗口，输出长度支持最大 16k tokens。

2025-03-28

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0095 / 千 tokens

图片理解

Qwen2.5 VL 32B Instruct

qwen/qwen2.5-vl-32b-instruct

Qwen2.5-VL-32B 是一款通过强化学习微调的多模态视觉语言模型，其数学推理能力、结构化输出和视觉问题解决能力显著增强。该模型在视觉分析任务中表现卓越，包括图像中的物体识别、文本解析以及长视频中的精确事件定位。在 MMMU、MathVista 和 VideoMME 等多模态基准测试中展现出顶尖性能，同时在 MMLU 文本理解、数学问题求解和代码生成等基于文本的任务中保持强大的推理能力与输出清晰度。

2025-03-27

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.0075 / 千 tokens

图片理解

DeepSeek-V3 通用模型

deepseek-v3

DeepSeek-V3 是一款由深度求索公司自研的MoE模型。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

2025-03-24

输入：¥ 0.00225 / 千 tokens

输出：¥ 0.009 / 千 tokens

文本生成

通义千问-Plus-Character

qwen-plus-character

通义千问系列角色扮演模型，本模型是动态更新版本，模型更新会提前通知，适合拟人化的角色扮演，同时优化了限定人设指令遵循、话题推进、倾听共情等能力，支持个性化角色的深度还原。

2025-03-20

输入：¥ 0.001 / 千 tokens

输出：¥ 0.00225 / 千 tokens

文本生成、角色扮演

Qwen-Long

qwen-long

Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型，支持中文、英文等不同语言输入，支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。

2025-03-19

输入：¥ 0.00055 / 千 tokens

输出：¥ 0.00225 / 千 tokens

文本生成

QwQ 32B

qwen/qwq-32b

QwQ 是 Qwen 系列的推理模型。相较于传统的指令微调模型，具备思维与推理能力的 QwQ 能在下游任务（尤其是难题处理）中实现显著增强的性能表现。QwQ-32B 作为中等参数规模的推理模型，能够与 DeepSeek-R1、o1-mini 等顶尖推理模型实现竞争性的性能表现。

2025-03-08

输入：¥ 0.00195 / 千 tokens

输出：¥ 0.00555 / 千 tokens

文本生成

Qwen2.5 VL 72B Instruct

qwen/qwen2.5-vl-72b-instruct

指令跟随、数学、解题、代码整体提升，万物识别能力提升，支持多样格式直接精准定位视觉元素，支持对长视频文件（最长10分钟）进行理解和秒级别的事件时刻定位，能理解时间先后和快慢，基于解析和定位能力支持操控OS或Mobile的Agent，关键信息抽取能力和Json格式输出能力强，此版本为72B版本，本系列能力最强的版本。

2025-02-17

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.00975 / 千 tokens

图片识别

腾讯 Hunyuan-large

hunyuan-large

Hunyuan-large 模型总参数量约 389B，激活参数量约 52B，是当前业界参数规模最大、效果最好的 Transformer 架构的开源 MoE 模型。

2025-02-10

输入：¥ 0.0045 / 千 tokens

输出：¥ 0.0135 / 千 tokens

文本生成

DeepSeek R1 Distill Qwen 32B

deepseek/deepseek-r1-distill-qwen-32b

DeepSeek R1 Distill Qwen 32B 是基于 Qwen 2.5 32B 蒸馏得到的大语言模型，其训练使用了 DeepSeek R1 的输出数据。模型在多项基准测试中超越 OpenAI 的 o1-mini，创造了密集模型的最新性能纪录。模型通过深度融合 DeepSeek R1 的输出进行精调，实现了与更大规模前沿模型相媲美的竞争性能。

2025-02-01

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.00375 / 千 tokens

文本生成

通义千问2.5-VL-7B

qwen2.5-vl-7b-instruct

指令跟随、数学、解题、代码整体提升，万物识别能力提升，支持多样格式直接精准定位视觉元素，支持对长视频文件（最长10分钟）进行理解和秒级别的事件时刻定位，能理解时间先后和快慢，基于解析和定位能力支持操控OS或Mobile的Agent，关键信息抽取能力和Json格式输出能力强，此版本为7B版本，计算量与性能相对平衡。

2025-01-27

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.0055 / 千 tokens

图片理解

豆包 1.5 Lite 32k

doubao-1.5-lite-32k

Doubao-1.5-lite，全新一代轻量版模型，极致响应速度，效果与时延均达到全球一流水平。支持32k上下文窗口，输出长度支持最大 12k tokens。

2025-01-22

输入：¥ 0.00035 / 千 tokens

输出：¥ 0.0007 / 千 tokens

文本生成

豆包 1.5 Pro 32k

doubao-1.5-pro-32k

Doubao-1.5-pro-32k，全新一代主力模型，性能全面升级，在知识、代码、推理、等方面表现卓越。支持32k上下文窗口，输出长度支持最大 12k tokens。

2025-01-22

输入：¥ 0.001 / 千 tokens

输出：¥ 0.0025 / 千 tokens

文本生成

Hunyuan-Vision 视觉大模型

hunyuan-vision

混元最新多模态模型，支持图片+文本输入生成文本内容。

2025-01-03

输入：¥ 0.018 / 千 tokens

输出：¥ 0.018 / 千 tokens

图片理解

Qwen2.5 7B Instruct

qwen/qwen-2.5-7b-instruct

Qwen2.5 7B 是 Qwen 大语言模型系列的最新版本。相较于 Qwen2，Qwen2.5 实现了以下重大升级：1. 通过融合编程与数学领域的专用专家模型，显著扩充知识库并大幅提升代码生成与数学推理能力；2. 在指令遵循、长文本生成（超过8K词元）、结构化数据（如表格）理解与结构化输出（特别是JSON格式）方面实现突破性进展；3. 对系统提示词的多样性具备更强适应性，显著增强聊天机器人的角色扮演与条件设定能力；4. 支持长达128K词元的上下文处理，并可生成最多8K词元的文本；5. 扩展至29种语言的多语言支持，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

2024-10-19

输入：¥ 0.0006 / 千 tokens

输出：¥ 0.0015 / 千 tokens

文本生成

通义千问-Max

qwen-max

通义千问2.5系列千亿级别超大规模语言模型，支持中文、英文等不同语言输入。随着模型的升级，qwen-max将滚动更新升级。如果希望使用固定版本，请使用历史快照版本。

2024-10-15

输入：¥ 0.003 / 千 tokens

输出：¥ 0.01 / 千 tokens

文本生成

Qwen2.5 72B Instruct

qwen/qwen-2.5-72b-instruct

Qwen2.5系列72B模型，相较于 Qwen2，Qwen2.5 获得了显著更多的知识，并在编程能力和数学能力方面有了大幅提升。此外，新模型在指令执行、生成长文本、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。

2024-09-19

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.008 / 千 tokens

文本生成

通义千问2.5-14B

qwen2.5-14b-instruct

Qwen2.5系列14B模型，相较于 Qwen2，Qwen2.5 获得了显著更多的知识，并在编程能力和数学能力方面有了大幅提升。此外，新模型在指令执行、生成长文本、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。

2024-09-19

输入：¥ 0.00115 / 千 tokens

输出：¥ 0.0035 / 千 tokens

文本生成

通义千问2-72B

qwen2-72b-instruct

通义千问2对外开源的72B规模的模型。

2024-08-19

输入：¥ 0.0045 / 千 tokens

输出：¥ 0.0135 / 千 tokens

文本生成

最受关注模型

DeepSeek V3.2

Kimi K2 Thinking

MiniMax M2

GLM 4.7

MiniMax M2.1

Qwen3 VL 8B Instruct

GLM 4.6V

DeepSeek V3.2 Speciale