模型列表

共 151 个模型

Qwen VL OCR

通义千问 VL-OCR（qwen-vl-ocr），即基于 Qwen-VL 训练的 OCR 识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务，提供强大的图文识别能力。

图片识别、OCR

2025-11-20

输入：¥ 0.00032 / 千 tokens

输出：¥ 0.00055 / 千 tokens

Doubao Seed Code

Doubao Seed Code 面向 Agentic 编程任务进行了深度优化，在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威基准测试中表现优异。

文本生成、代码补全、深度思考

2025-11-10

Kimi K2 Thinking 是月之暗面迄今最先进的开放推理模型，将 K2 系列能力边界拓展至具身智能与长程推理领域。该模型基于 Kimi K2 提出的万亿参数混合专家架构，每次前向传播激活 320 亿参数，支持 256K token 上下文窗口。 Kimi K2 Thinking 专门针对持续链式思考、动态工具调用与横跨数百轮次的复杂推理工作流进行优化，通过交替执行渐进式推理与工具操作，可实现持续数百个步骤的自主研究、编程与写作任务且不偏离目标。 Kimi K2 Thinking 模型在 HLE、BrowseComp、SWE-Multilingual 和 LiveCodeBench 等基准测试中创下开源模型新纪录，并在 200-300 次工具调用中保持稳定的多智能体行为。基于经过 MuonClip 优化的大规模 MoE 架构，该模型在保持强大推理深度的同时实现了高推理效率，足以胜任高要求的智能体任务与分析型工作。

文本生成、深度思考

2025-11-07

输入：¥ 0.006 / 千 tokens

输出：¥ 0.025 / 千 tokens

Qwen MT Flash

Qwen MT Flash 是基于 Qwen3 全面升级的轻量级文本翻译大模型，支持 92 个语种互译，模型性能和翻译效果全面升级，并提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。

文本生成、文本翻译

2025-11-06

输入：¥ 0.00075 / 千 tokens

输出：¥ 0.002 / 千 tokens

MiniMax M2

MiniMax-M2 是一款紧凑高效的大型语言模型，专为端到端编程与智能体工作流优化而设计。模型拥有 100 亿激活参数（总参数量 2300 亿），在通用推理、工具使用及多步骤任务执行方面展现出接近前沿水平的智能，同时保持低延迟与高部署效率。根据 Artificial Analysis 的基准测试显示，MiniMax-M2在数学、科学及指令遵循等综合智能维度位列顶级开源模型。其小型激活参数量确保了快速推理、高并发支持与更优的单位经济效益，特别适合大规模智能体、开发者助手及需要高响应度与成本效益的推理驱动型应用。为保证模型性能，MiniMax 强烈建议在对话轮次间保持推理连续性。

文本生成、深度思考

2025-10-29

输入：¥ 0.003 / 千 tokens

输出：¥ 0.012 / 千 tokens

Qwen3 Embedding 8B

Qwen3 Embedding 模型系列是 Qwen 最新推出的向量化模型，专为文本嵌入与排序任务设计。该系列继承了基础模型卓越的多语言理解能力、长文本处理能力和推理性能，在文本检索、代码检索、文本分类、文本聚类及双语文本挖掘等多项文本嵌入与排序任务中均实现显著突破。

文本嵌入、文本向量化

2025-10-28

输入：¥ 0.0007 / 千 tokens

输出：¥ 0 / 千 tokens

通义千问3-235B-A22B-Instruct-2507

基于Qwen3的非思考模式开源模型，相较上一版本（通义千问3-235B-A22B）主观创作能力与模型安全性均有小幅度提升。

文本生成

2025-10-27

输入：¥ 0.00225 / 千 tokens

输出：¥ 0.0085 / 千 tokens

DeepSeek OCR

DeepSeek-OCR 是 DeepSeek 发布的开源 OCR / 视觉语言模型，其核心思想是上下文光学压缩（Contexts Optical Compression）。该模型并非传统 OCR，而是将长文本或整页文档先转为图像，再通过视觉编码器压缩为少量 vision tokens，最后由 MoE 解码器还原文本与结构，从而大幅降低 token 消耗。DeepSeek-OCR 的意义不仅在 OCR，而在于为 LLM 长上下文处理提供了一种新的“视觉压缩”路径。

图片识别、OCR

2025-10-20

输入：¥ 0.0005 / 千 tokens

输出：¥ 0.001 / 千 tokens

Qwen3 Coder 480b A35B Instruct

Qwen3 Coder 480b A35B Instruct 是基于 Qwen3 的代码生成模型，具有强大的 Coding Agent 能力，代码能力达到开源模型 SOTA。

文本生成、代码补全

2025-10-17

Qwen3 VL 8B Instruct

Qwen3-VL-8B-Instruct 是来自 Qwen3-VL 系列的多模态视觉-语言模型，旨在对文本、图像与视频实现高保真理解与推理。它采用了改进的多模态融合机制——Interleaved-MRoPE，用于长时跨度的时间推理；引入 DeepStack 实现细粒度的视觉—文本对齐；并支持文本—时间戳对齐以实现精确的事件定位。Qwen3-VL-8B-Instruct 模型原生支持 256K tokens 的上下文窗口，可扩展至 1M tokens，能够处理静态与动态媒体输入，适用于文档解析、视觉问答、空间推理与图形界面（GUI）控制等任务。它在文本理解方面达到了与领先大型语言模型相当的水平，同时将 OCR 覆盖扩展到 32 种语言，并在多种视觉条件下增强了稳健性。

图片识别

2025-10-15

输入：¥ 0.0025 / 千 tokens

输出：¥ 0.00875 / 千 tokens

Qwen3 VL 8B Thinking

Qwen3-VL-8B-Thinking 是 Qwen3-VL-8B 多模态模型的推理优化版本，专为处理复杂场景、文档及时间序列的高级视觉与文本推理而设计。该模型集成了增强的多模态对齐能力和长上下文处理技术（原生支持 256K tokens，可扩展至 100 万 tokens），适用于科学视觉分析、因果推理以及基于图像或视频输入的数学推理等任务。

图片识别、深度思考

2025-10-15

输入：¥ 0.0023 / 千 tokens

输出：¥ 0.025 / 千 tokens

Baidu ERNIE 4.5 21B A3B Thinking

ERNIE-4.5-21B-A3B-Thinking是百度升级的轻量级MoE（专家混合）模型，经过优化精炼，显著提升推理深度与质量，旨在逻辑解谜、数学计算、科学推理、代码编写、文本生成及专业级学术基准测试中实现顶尖性能。

文本生成、深度思考

2025-10-10

输入：¥ 0.001 / 千 tokens

输出：¥ 0.0035 / 千 tokens

Qwen3 VL 30B A3B Instruct

Qwen3-VL-30B-A3B-Instruct 是一款多模态模型，深度融合强大的文本生成能力与图像、视频的视觉理解功能。其指令优化版本针对通用多模态任务的指令遵循能力进行了专项优化。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越，在多模态基准测试中取得领先成绩。针对智能体应用场景，它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务，以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平，适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。

图片识别

2025-10-07

输入：¥ 0.004 / 千 tokens

输出：¥ 0.0125 / 千 tokens

Qwen3 VL 30B A3B Thinking

Qwen3-VL-30B-A3B-Thinking 是一款多模态模型，深度融合强大的文本生成能力与图像、视频的视觉理解功能。其思维增强版本显著提升了在STEM领域、数学及复杂任务中的推理能力。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越，在多模态基准测试中取得领先成绩。针对智能体应用场景，它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务，以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平，适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。

图片识别、深度思考

2025-10-07

输入：¥ 0.004 / 千 tokens

输出：¥ 0.0125 / 千 tokens

GLM 4.6

与 GLM-4.5 相比，GLM-4.6 模型实现了多项关键改进：更长的上下文窗口：上下文窗口从 128K 字符扩展至 200K 字符，使模型能够处理更复杂的智能体任务。卓越的编程性能：在代码基准测试中获得更高分数，并在 Claude Code、Cline、Roo Code 及 Kilo Code 等实际应用中表现更佳，包括生成视觉效果更佳的前端页面方面有所提升。进阶推理能力：GLM-4.6 在推理性能上显著提升，并支持推理过程中的工具调用，从而形成更强大的综合能力。更强大的智能体：GLM-4.6 在工具调用和基于搜索的智能体方面表现更出色，并能更高效地集成至智能体框架中。精细化写作：更符合人类对文风与可读性的偏好，在角色扮演场景中的表现也更为自然。

文本生成、深度思考

2025-10-01

输入：¥ 0.0075 / 千 tokens

输出：¥ 0.021 / 千 tokens

DeepSeek V3.2 Exp

DeepSeek-V3.2-Exp 是由 DeepSeek 发布的实验性（Experimental）大语言模型，作为V3.1与未来架构之间的中间版本。该模型引入了 DeepSeek 稀疏注意力（DSA）机制——一种细粒度稀疏注意力架构，旨在保持输出质量的同时提升长上下文场景下的训练与推理效率。用户可通过 "reasoning": {"enabled": true} 布尔参数控制推理行为。模型的训练条件与 DeepSeek-V3.1-Terminus 保持一致，以实现直接性能对比。基准测试显示，该模型在推理、代码生成和智能体工具使用任务上的表现与 V3.1 大致持平，不同领域存在微幅的性能取舍与提升。本次发布侧重于验证针对长上下文优化的架构设计，而非追求原始任务精度的突破，因此本质上属于研究导向型模型，主要用于探索高效的 Transformer 架构设计。

文本生成

2025-09-30

输入：¥ 0.0035 / 千 tokens

输出：¥ 0.0055 / 千 tokens

Baidu ERNIE X1.1

Baidu ERNIE X1.1 模型在问答、工具调用、智能体、指令遵循、逻辑推理、数学、代码任务的效果显著提升，事实性显著提升；X1.1 模型上下文长度扩展到 64K tokens，支持更长的输入与对话历史，在保持响应速度的同时，提高了长链路推理的连贯性。

文本生成

2025-09-26

输入：¥ 0.0012 / 千 tokens

输出：¥ 0.0045 / 千 tokens

Qwen3 VL 235B A22B Instruct

Qwen3-VL-235B-A22B Instruct 是一款开放参数的多模态模型，融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该指令调优模型专注于通用视觉语言任务（视觉问答、文档解析、图表/表格提取、多语言OCR）。该系列模型重点强化了鲁棒感知（识别多样化的真实世界及合成类别）、空间理解（2D/3D定位）以及长篇幅视觉内容解析能力，在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外，Qwen3-VL 还支持智能体交互与工具调用：可遵循跨多图像、多轮对话的复杂指令；将文本与视频时间轴对齐以实现精准的时间定位查询；操作图形界面元素完成自动化任务。该模型还能驱动可视化编程工作流——将草图或原型转化为代码并辅助UI调试，同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。

图片识别

2025-09-24

输入：¥ 0.004 / 千 tokens

输出：¥ 0.022 / 千 tokens

Qwen3 VL 235B A22B Thinking

Qwen3-VL-235B-A22B Thinking 是一款多模态模型，融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该模型专门针对 STEM 领域和数学的多模态推理进行优化，重点强化了鲁棒感知（识别多样化的真实世界及合成类别）、空间理解（2D/3D定位）以及长篇幅视觉内容解析能力，在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外，Qwen3-VL 还支持智能体交互与工具调用：可遵循跨多图像、多轮对话的复杂指令；将文本与视频时间轴对齐以实现精准的时间定位查询；操作图形界面元素完成自动化任务。该系列模型还能驱动可视化编程工作流，将草图或原型转化为代码并辅助UI调试，同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。

图片识别

2025-09-24

输入：¥ 0.004 / 千 tokens

输出：¥ 0.036 / 千 tokens

DeepSeek V3.1 Terminus

DeepSeek-V3.1 Terminus 是 DeepSeek V3.1 的升级版本，在保留模型原有能力的基础上，针对用户反馈的语言一致性和智能体能力等问题进行了优化，进一步提升了模型在编程和搜索智能体场景下的表现。该模型是大型混合推理模型（参数总量6710亿，激活参数370亿），支持思考与非思考两种模式。它通过两阶段长上下文训练流程扩展了 DeepSeek-V3 的基础能力，上下文长度最高可达128K词元，并采用FP8微缩放技术实现高效推理。用户可通过 {"reasoning": {"enabled": true}} 布尔参数控制推理行为。该模型优化了工具调用、代码生成和推理效率，在困难基准测试中达到与 DeepSeek-R1 相当的性能，同时响应速度更快。它支持结构化工具调用、代码智能体与搜索智能体，适用于研究、编程和智能体工作流等场景。

文本生成

2025-09-23

输入：¥ 0.00375 / 千 tokens

输出：¥ 0.0125 / 千 tokens

最受关注模型

2026-04-24

Embedding Models

2026-04-20

筛选

模型列表

最受关注模型

DeepSeek V4 Pro

DeepSeek V4 Flash

Qwen 3.6 Plus

XiaoMi MiMo V2.5 Pro

Tencent Hunyuan Hy3 Preview

Kimi K2.6

Qwen3.7 Max

XiaoMi MiMo V2.5

DeepSeek OCR 2

Doubao Seed 2.0 Lite

Embedding Models

GLM Embedding 3

Qwen3 Embedding 8B

Doubao Embedding Large Text 250515

Qwen Text Embedding V4

Qwen Text Embedding V1

Qwen Text Embedding V2

Doubao Embedding Large

Doubao Embedding

Qwen Text Embedding V3

Hunyuan Embedding