模型列表
Qwen3.5 9B
Qwen3.5-9B 是 Qwen3.5 系列中的多模态基础模型,采用高效的 90 亿参数架构,具备强大的推理、编程和视觉理解能力。该模型采用统一视觉语言设计,通过多模态 token 的早期融合技术,能够在同一上下文内处理和推理文本与图像信息。
文本生成、多模态
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.00175 / 千 tokens
Qwen3.5 35B A3B
Qwen3.5 系列 35B-A3B 原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现接近于 Qwen3.5-27B。
深度思考、视觉理解、文本生成
Qwen3.5 122B A10B
Qwen3.5 系列 122B-A10B 原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现仅次于 Qwen3.5-397B-A17B,文本能力显著优于 Qwen3-235B-2507,视觉能力优于 Qwen3-VL-235B。
深度思考、视觉理解、文本生成
Qwen3.5 27B
Qwen3.5 系列 27B 原生视觉语言 Dense 模型,融合了线性注意力机制;响应速度快,兼具推理速度和性能。该模型的综合能力接近于 Qwen3.5-122B-A10B。
深度思考、视觉理解、文本生成
Qwen3.5 Flash
Qwen3.5 原生视觉语言系列 Flash 模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。模型效果在纯文本与多模态方面相较 Qwen3 系列均实现飞跃式进步;响应速度快,兼具推理速度和性能。
深度思考
Qwen3.5 397B A17B
Qwen 3.5 系列 397B-A17B 原生视觉语言模型采用了混合架构,该架构将线性注意力机制与稀疏混合专家模型相结合,实现了更高的推理效率。该模型在语言理解、逻辑推理、代码生成、智能体相关任务、图像理解、视频理解以及图形用户界面交互等多个任务中展现出顶尖性能,达到业界领先水平。凭借强大的代码生成和智能体能力,该模型在各类智能体应用中表现出卓越的泛化性能。
文本生成、深度思考、多模态
Doubao Seed 2.0 Code
Doubao Seed 2.0 Code 面向真实编程环境优化的 Coding 模型,能稳定调用 Claude Code 等常见 IDE 中的工具。模型特别优化了前端能力,在使用常见的前端框架时能有良好表现。模型支持使用 Skills,可以配合多种自定义技能使用。Doubao Seed 2.0 Code 是Seed 2.0 的编程加强版,更适合 Agentic Coding。
代码补全、深度思考
Doubao Seed 2.0 Lite
Doubao Seed 2.0 是面向高频企业场景兼顾性能与成本的均衡型模型,综合能力超越上一代 Doubao-Seed-1.8。胜任非结构化信息处理、内容创作、搜索推荐、数据分析等生产型工作,支持长上下文、多源信息融合、多步指令执行与高保真结构化输出。在保障稳定效果的同时显著优化成本。Doubao Seed 2.0 Lite 兼顾生成质量与响应速度,适合作为通用生产级模型。
文本生成、深度思考、多模态
Doubao Seed 2.0 Mini
Doubao Seed 2.0 是面向高频企业场景兼顾性能与成本的均衡型模型,综合能力超越上一代 Doubao Seed 1.8。胜任非结构化信息处理、内容创作、搜索推荐、数据分析等生产型工作,支持长上下文、多源信息融合、多步指令执行与高保真结构化输出。在保障稳定效果的同时显著优化成本。Doubao Seed 2.0 Mini 面向低时延、高并发与成本敏感场景,强调快速响应与灵活推理部署,支持四档位思考与多模态理解能力。
文本生成、深度思考、多模态
Doubao Seed 2.0 Pro
Doubao Seed 2.0 是面向高频企业场景兼顾性能与成本的均衡型模型,综合能力超越上一代 Doubao Seed 1.8。胜任非结构化信息处理、内容创作、搜索推荐、数据分析等生产型工作,支持长上下文、多源信息融合、多步指令执行与高保真结构化输出。在保障稳定效果的同时显著优化成本。Doubao Seed 2.0 Pro 侧重长链路推理能力与复杂任务稳定性,适配真实业务中的复杂场景。
文本生成、深度思考、多模态
Qwen 3.5 Plus
Qwen 3.5 原生视觉语言系列 Plus 模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。在多项任务评测中,3.5 系列均展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果在纯文本与多模态方面相较 3 系列均实现飞跃式进步。
文本生成、深度思考、多模态
MiniMax M2.5
MiniMax-M2.5 是一款最先进的大语言模型,专为提升实际生产力而设计。通过在多样化的复杂真实数字工作环境中训练,M2.5 在 M2.1 编码专长的基础上扩展至通用办公领域,能够熟练生成和操作 Word、Excel、PowerPoint 文件,在不同软件环境间进行上下文切换,并与各类智能体及人类团队协同工作。M2.5 在 SWE-Bench Verified、Multi-SWE-Bench 和 BrowseComp 上分别取得 80.2%、51.3% 和 76.3% 的得分,同时相比前代模型具有更高的词元效率——这得益于其通过规划优化自身行动与输出的训练机制。
内容生成、 深度思考、代码补全
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.015 / 千 tokens
GLM 5
GLM-5 是智谱的旗舰开源基础模型,专为复杂系统设计与长期智能体工作流打造。它面向专业开发者,在大规模编程任务中展现出生产级性能,与领先的闭源模型并驾齐驱。凭借高级智能体规划、深度后端推理与迭代自我修正能力,GLM-5 已超越代码生成,迈向全系统构建与自主执行。
文本生成、深度思考、代码补全
输入:¥ 0.011 / 千 tokens
输出:¥ 0.035 / 千 tokens
Qwen3 Max Thinking
Qwen3-Max-Thinking 是 Qwen3 系列中的旗舰推理模型,专为需要深度、多步推理的高难度认知任务而设计。通过大幅扩展模型容量与强化学习计算规模,该模型在事实准确性、复杂推理、指令遵循、人类偏好对齐及智能体行为方面均取得了显著提升。
文本生成、深度思考
Qwen3 Coder Next
Qwen3-Coder-Next 是一款开放权重的自回归(因果)语言模型,针对编程智能体与本地开发工作流进行了优化。它采用稀疏专家模型(Mixture-of-Experts,MoE)设计,总参数量为 80B(约 800 亿),但每个 token 仅激活 3B(约 30 亿)参数,能够提供与那些每次激活计算量高 10 到 20 倍的模型相当的性能,因此非常适合对成本敏感且需要常驻运行的智能体部署。 模型在训练中强调代理能力(agentic focus),在长时程的编码任务、复杂工具调用以及从执行失败中恢复方面具有可靠表现。模型原生支持 256k 的上下文窗口,能够无缝集成到真实世界的命令行(CLI)和集成开发环境(IDE)中,并能很好地适配现代编码工具常用的代理框架。该模型仅在非“思考”模式(non-thinking mode)下运行,不会输出 `<think>` 块,从而简化了在生产级编码智能体中的集成。
文本生成、深度思考、代码补全
输入:¥ 0.0015 / 千 tokens
输出:¥ 0.009 / 千 tokens
Step 3.5 Flash
Step 3.5 Flash 是阶跃星辰目前最强大的开源基座模型。它专为极致效率而生,具备前沿的推理能力和卓越的智能体(Agent)性能。该模型基于稀疏混合专家(MoE)架构,拥有 1960 亿参数,但处理每个 Token 时仅需选择性激活 110 亿参数。这种极高的“智能密度”使其推理深度足以媲美顶级闭源模型,同时兼顾了实时交互所需的敏捷响应速度。
文本生成、代码补全、深度思考
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.0035 / 千 tokens
Kimi K2.5
Kimi K2.5 是月之暗面(Moonshot AI)自主研发的多模态模型,具备顶尖的视觉编码能力与自主智能体集群范式。该模型基于 Kimi K2 架构,通过对约 15 万亿视觉与文本混合 Token 进行持续预训练,在通用推理、视觉编码及智能体工具调用方面表现卓越。
文本生成、图片识别、深度思考、多模态
输入:¥ 0.0075 / 千 tokens
输出:¥ 0.035 / 千 tokens
MiniMax M2-her
MiniMax M2-her是一款以对话为核心的大型语言模型,专为沉浸式角色扮演、人物驱动型聊天以及富有表现力的多轮对话而打造。该模型设计上注重保持语调与个性的言行一致性,支持丰富的消息角色类型(如用户系统、群组、示例用户消息、示例AI消息),并能通过示例对话学习,从而更好地匹配用户场景的风格与节奏。对于追求自然流畅的对话节奏和生动交互体验的故事叙述、虚拟伙伴及对话式应用场景而言,它是理想的选择。
文本生成、角色扮演
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.015 / 千 tokens
Baidu ERNIE 5.0 Thinking Preview
文心新一代模型文心5.0是原生全模态大模型,采用原生的全模态统一建模技术,将文本、图像、音频、视频联合建模,具备综合的全模态能力。文心5.0基础能力全面升级,基准测试集表现出色,多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等表现尤其出色。
深度思考、多模态
GLM 4.7 Flash
作为具备300亿参数规模的先进模型,GLM-4.7-Flash在性能与效率之间实现了新的平衡。该模型进一步针对智能编程场景进行优化,增强了代码生成、长程任务规划及工具协作能力,在多项主流公开基准测试中均取得同规模开源模型的领先表现,为追求高效能计算的应用提供了卓越选择。
文本生成、深度思考
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Qwen Flash Character
Qwen Flash Character 是通义千问系列多语言角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
文本生成、角色扮演
输入:¥ 0.00027 / 千 tokens
输出:¥ 0.00175 / 千 tokens
Doubao Seed 1.8
Doubao-Seed-1.8 面向多模态 Agent 场景定向优化。Agent 能力上,Tool Use、复杂指令遵循等能力均大幅增强。多模态理解方面,视觉基础能力显著提升,可低帧率理解超长视频,视频运动理解、复杂空间理解及文档结构化解析能力也有所优化,还原生支持智能上下文管理,用户可配置上下文策略。
多模态、深度思考
MiniMax M2.1
MiniMax-M2.1 是一款轻量级、尖端的大型语言模型,专门针对编码、智能体工作流和现代应用开发进行了优化。尽管仅拥有100亿激活参数,它在实际应用中实现了能力的大幅跃升,同时保持了卓越的低延迟、高扩展性和出色的成本效益。 相比前代模型,M2.1 能够生成更清晰、更简洁的输出结果,并具备更快的感知响应速度。它在主流系统和应用语言中展现出领先的多语言编码性能——在 Multi-SWE-Bench 基准测试中达到 49.4%,在 SWE-Bench Multilingual 中取得 72.5% 的优异成绩。该模型可作为集成开发环境、编程工具及通用助手中的多功能智能“大脑”。 为确保模型性能不受影响,MiniMax 强烈建议在各轮对话间保持推理过程的连贯性。
文本生成、深度思考
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.015 / 千 tokens
GLM 4.7
GLM-4.7是智谱推出的最新旗舰级模型,主要在两大方面实现升级:增强的编程能力与更稳定的多步骤推理与执行。该模型在执行复杂智能体任务时展现出显著提升,同时能够提供更为自然的对话体验和出色的前端美学。
文本生成、深度思考
输入:¥ 0.00675 / 千 tokens
输出:¥ 0.025 / 千 tokens
Qwen3 VL Plus
Qwen3 系列视觉理解模型,实现思考模式和非思考模式的有效融合,视觉智能体能力在 OS World 等公开测试集上达到世界顶尖水平。此版本在视觉 Coding、空间感知、多模态思考等方向全面升级;视觉感知与识别能力大幅提升,支持超长视频理解。
图片识别、视觉理解、深度思考
Tencent Hunyuan Vision 1.5 Instruct
Tencent HY Vision 1.5 Instruct 是基于混元最新 turbos 的新一代视觉语言旗舰大模型,在图文理解相关的任务上,包括基于图片的实体识别、知识问答、文案创作、拍照解题等上面相比前一代模型全面提升。
视觉识别
输入:¥ 0.0031 / 千 tokens
输出:¥ 0.0091 / 千 tokens
通义千问 QwQ Plus
通义千问 QwQ 推理模型增强版,基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到 DeepSeek-R1 水平。
文本生成、深度思考
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.0045 / 千 tokens
GLM 4.6V
GLM-4.6V是一款大型多模态模型,专注于实现高保真视觉理解及针对图像、文档与混合媒体的长上下文推理能力。该模型支持高达128K token的上下文长度,能直接处理复杂页面布局与图表等视觉输入,并集成原生多模态函数调用功能,将感知系统与下游工具执行无缝衔接。此外,模型支持图文交错生成与界面重构工作流,包括截图转HTML合成及迭代式视觉编辑等应用场景。
图片识别、深度思考
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.0115 / 千 tokens
DeepSeek V3.2
DeepSeek-V3.2 是一款大型语言模型,致力于实现高计算效率与强大的推理及智能体工具使用性能的平衡。它引入了**深度求索稀疏注意力(DSA)**机制,这是一种细粒度的稀疏注意力架构,可在保证长上下文处理质量的同时显著降低训练与推理成本。通过可扩展的强化学习训练后优化框架,模型推理能力得到进一步增强,其报告性能已达到GPT-5级别,并在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中斩获金牌。DeepSeek V3.2 同样采用大规模智能体任务合成训练流程,能够更有效地将推理能力与工具使用场景相结合,从而提升在交互环境中的指令遵循与泛化能力。
文本生成
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0055 / 千 tokens
DeepSeek V3.2 Speciale
DeepSeek-V3.2-Speciale 是 DeepSeek-V3.2 的高性能计算变体,专为最大化推理与智能体性能而优化。该模型基于 DeepSeek 稀疏注意力(DSA)架构,实现了高效的长上下文处理,并通过大规模训练后强化学习进一步突破基础模型的能力边界。根据公布的评估结果,Speciale 在复杂推理任务上表现超越 GPT-5,其综合能力可与 Gemini-3.0-Pro 相媲美,同时在代码生成与工具调用方面保持卓越的可靠性。与 DeepSeek V3.2 相同,Speciale 模型受益于大规模智能体任务合成训练流程,显著提升了在交互环境中的指令遵循与泛化能力。
文本生成、深度思考
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Hunyuan 2.0 instruct 20251111
HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口,推理能力与效率居国内顶尖行列,且在文本创作与复杂指令遵循等实用场景上表现突出。相比上一版本(Hunyuan-T1-20250822)模型, HY 2.0 Think 显著改进了预训练数据和强化学习策略,在数学、科学、代码、指令遵循等复杂推理场景的综合表现稳居国内第一梯队,泛化性大幅提升。
文本生成
输入:¥ 0.0009 / 千 tokens
输出:¥ 0.0021 / 千 tokens
Hunyuan 2.0 thinking 20251109
HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,推理能力与效率居国内顶尖行列,且在文本创作与复杂指令遵循等实用场景上表现突出。相比上一版本(Hunyuan-T1-20250822)模型, HY 2.0 Think 显著改进了预训练数据和强化学习策略,在数学、科学、代码、指令遵循等复杂推理场景的综合表现稳居国内第一梯队,泛化性大幅提升。Hunyuan 2.0 Think 是 Hunyuan 2.0 Instruct 的深度思考版本。
文本生成、深度思考
输入:¥ 0.0011 / 千 tokens
输出:¥ 0.0041 / 千 tokens
Qwen MT Lite
Qwen MT Lite 是基于 Qwen3 全面升级的基础级文本翻译大模型,支持 32 个语种互译,模型性能和翻译效果全面升级,并提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
文本生成、文本翻译
输入:¥ 0.00065 / 千 tokens
输出:¥ 0.00175 / 千 tokens
Qwen VL OCR
通义千问 VL-OCR(qwen-vl-ocr),即基于 Qwen-VL 训练的 OCR 识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。
图片识别、OCR
输入:¥ 0.00032 / 千 tokens
输出:¥ 0.00055 / 千 tokens
Doubao Seed Code
Doubao Seed Code 面向 Agentic 编程任务进行了深度优化,在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威基准测试中表现优异。
文本生成、代码补全、深度思考
Kimi K2 Thinking
Kimi K2 Thinking 是月之暗面迄今最先进的开放推理模型,将 K2 系列能力边界拓展至具身智能与长程推理领域。该模型基于 Kimi K2 提出的万亿参数混合专家架构,每次前向传播激活 320 亿参数,支持 256K token 上下文窗口。 Kimi K2 Thinking 专门针对持续链式思考、动态工具调用与横跨数百轮次的复杂推理工作流进行优化,通过交替执行渐进式推理与工具操作,可实现持续数百个步骤的自主研究、编程与写作任务且不偏离目标。 Kimi K2 Thinking 模型在 HLE、BrowseComp、SWE-Multilingual 和 LiveCodeBench 等基准测试中创下开源模型新纪录,并在 200-300 次工具调用中保持稳定的多智能体行为。基于经过 MuonClip 优化的大规模 MoE 架构,该模型在保持强大推理深度的同时实现了高推理效率,足以胜任高要求的智能体任务与分析型工作。
文本生成、深度思考
输入:¥ 0.0075 / 千 tokens
输出:¥ 0.03 / 千 tokens
Qwen MT Flash
Qwen MT Flash 是基于 Qwen3 全面升级的轻量级文本翻译大模型,支持 92 个语种互译,模型性能和翻译效果全面升级,并提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
文本生成、文本翻译
输入:¥ 0.00075 / 千 tokens
输出:¥ 0.002 / 千 tokens
MiniMax M2
MiniMax-M2 是一款紧凑高效的大型语言模型,专为端到端编程与智能体工作流优化而设计。模型拥有 100 亿激活参数(总参数量 2300 亿),在通用推理、工具使用及多步骤任务执行方面展现出接近前沿水平的智能,同时保持低延迟与高部署效率。 根据 Artificial Analysis 的基准测试显示,MiniMax-M2在数学、科学及指令遵循等综合智能维度位列顶级开源模型。其小型激活参数量确保了快速推理、高并发支持与更优的单位经济效益,特别适合大规模智能体、开发者助手及需要高响应度与成本效益的推理驱动型应用。 为保证模型性能,MiniMax 强烈建议在对话轮次间保持推理连续性。
文本生成、深度思考
输入:¥ 0.003 / 千 tokens
输出:¥ 0.012 / 千 tokens
Qwen3 Embedding 8B
Qwen3 Embedding 模型系列是 Qwen 最新推出的向量化模型,专为文本嵌入与排序任务设计。该系列继承了基础模型卓越的多语言理解能力、长文本处理能力和推理性能,在文本检索、代码检索、文本分类、文本聚类及双语文本挖掘等多项文本嵌入与排序任务中均实现显著突破。
文本嵌入、文本向量化
输入:¥ 0.0007 / 千 tokens
输出:¥ 0 / 千 tokens
通义千问3-235B-A22B-Instruct-2507
基于Qwen3的非思考模式开源模型,相较上一版本(通义千问3-235B-A22B)主观创作能力与模型安全性均有小幅度提升。
文本生成
输入:¥ 0.00225 / 千 tokens
输出:¥ 0.0085 / 千 tokens
Qwen3 Coder 480b A35B Instruct
Qwen3 Coder 480b A35B Instruct 是基于 Qwen3 的代码生成模型,具有强大的 Coding Agent 能力,代码能力达到开源模型 SOTA。
文本生成、代码补全
Qwen3 VL 8B Instruct
Qwen3-VL-8B-Instruct 是来自 Qwen3-VL 系列的多模态视觉-语言模型,旨在对文本、图像与视频实现高保真理解与推理。它采用了改进的多模态融合机制——Interleaved-MRoPE,用于长时跨度的时间推理;引入 DeepStack 实现细粒度的视觉—文本对齐;并支持文本—时间戳对齐以实现精确的事件定位。Qwen3-VL-8B-Instruct 模型原生支持 256K tokens 的上下文窗口,可扩展至 1M tokens,能够处理静态与动态媒体输入,适用于文档解析、视觉问答、空间推理与图形界面(GUI)控制等任务。它在文本理解方面达到了与领先大型语言模型相当的水平,同时将 OCR 覆盖扩展到 32 种语言,并在多种视觉条件下增强了稳健性。
图片识别
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.00875 / 千 tokens
Qwen3 VL 8B Thinking
Qwen3-VL-8B-Thinking 是 Qwen3-VL-8B 多模态模型的推理优化版本,专为处理复杂场景、文档及时间序列的高级视觉与文本推理而设计。该模型集成了增强的多模态对齐能力和长上下文处理技术(原生支持 256K tokens,可扩展至 100 万 tokens),适用于科学视觉分析、因果推理以及基于图像或视频输入的数学推理等任务。
图片识别、深度思考
输入:¥ 0.0023 / 千 tokens
输出:¥ 0.025 / 千 tokens
Baidu ERNIE 4.5 21B A3B Thinking
ERNIE-4.5-21B-A3B-Thinking是百度升级的轻量级MoE(专家混合)模型,经过优化精炼,显著提升推理深度与质量,旨在逻辑解谜、数学计算、科学推理、代码编写、文本生成及专业级学术基准测试中实现顶尖性能。
文本生成、深度思考
输入:¥ 0.001 / 千 tokens
输出:¥ 0.0035 / 千 tokens
Qwen3 VL 30B A3B Instruct
Qwen3-VL-30B-A3B-Instruct 是一款多模态模型,深度融合强大的文本生成能力与图像、视频的视觉理解功能。其指令优化版本针对通用多模态任务的指令遵循能力进行了专项优化。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越,在多模态基准测试中取得领先成绩。针对智能体应用场景,它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务,以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平,适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。
图片识别
输入:¥ 0.004 / 千 tokens
输出:¥ 0.0125 / 千 tokens
Qwen3 VL 30B A3B Thinking
Qwen3-VL-30B-A3B-Thinking 是一款多模态模型,深度融合强大的文本生成能力与图像、视频的视觉理解功能。其思维增强版本显著提升了在STEM领域、数学及复杂任务中的推理能力。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越,在多模态基准测试中取得领先成绩。针对智能体应用场景,它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务,以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平,适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。
图片识别、深度思考
输入:¥ 0.004 / 千 tokens
输出:¥ 0.0125 / 千 tokens
GLM 4.6
与 GLM-4.5 相比,GLM-4.6 模型实现了多项关键改进:更长的上下文窗口:上下文窗口从 128K 字符扩展至 200K 字符,使模型能够处理更复杂的智能体任务。卓越的编程性能:在代码基准测试中获得更高分数,并在 Claude Code、Cline、Roo Code 及 Kilo Code 等实际应用中表现更佳,包括生成视觉效果更佳的前端页面方面有所提升。进阶推理能力:GLM-4.6 在推理性能上显著提升,并支持推理过程中的工具调用,从而形成更强大的综合能力。更强大的智能体:GLM-4.6 在工具调用和基于搜索的智能体方面表现更出色,并能更高效地集成至智能体框架中。精细化写作:更符合人类对文风与可读性的偏好,在角色扮演场景中的表现也更为自然。
文本生成、深度思考
输入:¥ 0.0075 / 千 tokens
输出:¥ 0.021 / 千 tokens
DeepSeek V3.2 Exp
DeepSeek-V3.2-Exp 是由 DeepSeek 发布的实验性(Experimental)大语言模型,作为V3.1与未来架构之间的中间版本。该模型引入了 DeepSeek 稀疏注意力(DSA)机制——一种细粒度稀疏注意力架构,旨在保持输出质量的同时提升长上下文场景下的训练与推理效率。用户可通过 "reasoning": {"enabled": true} 布尔参数控制推理行为。模型的训练条件与 DeepSeek-V3.1-Terminus 保持一致,以实现直接性能对比。基准测试显示,该模型在推理、代码生成和智能体工具使用任务上的表现与 V3.1 大致持平,不同领域存在微幅的性能取舍与提升。本次发布侧重于验证针对长上下文优化的架构设计,而非追求原始任务精度的突破,因此本质上属于研究导向型模型,主要用于探索高效的 Transformer 架构设计。
文本生成
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Qwen3 VL 235B A22B Instruct
Qwen3-VL-235B-A22B Instruct 是一款开放参数的多模态模型,融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该指令调优模型专注于通用视觉语言任务(视觉问答、文档解析、图表/表格提取、多语言OCR)。该系列模型重点强化了鲁棒感知(识别多样化的真实世界及合成类别)、空间理解(2D/3D定位)以及长篇幅视觉内容解析能力,在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外,Qwen3-VL 还支持智能体交互与工具调用:可遵循跨多图像、多轮对话的复杂指令;将文本与视频时间轴对齐以实现精准的时间定位查询;操作图形界面元素完成自动化任务。该模型还能驱动可视化编程工作流——将草图或原型转化为代码并辅助UI调试,同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。
图片识别
输入:¥ 0.004 / 千 tokens
输出:¥ 0.022 / 千 tokens
Qwen3 VL 235B A22B Thinking
Qwen3-VL-235B-A22B Thinking 是一款多模态模型,融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该模型专门针对 STEM 领域和数学的多模态推理进行优化,重点强化了鲁棒感知(识别多样化的真实世界及合成类别)、空间理解(2D/3D定位)以及长篇幅视觉内容解析能力,在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外,Qwen3-VL 还支持智能体交互与工具调用:可遵循跨多图像、多轮对话的复杂指令;将文本与视频时间轴对齐以实现精准的时间定位查询;操作图形界面元素完成自动化任务。该系列模型还能驱动可视化编程工作流,将草图或原型转化为代码并辅助UI调试,同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。
图片识别
输入:¥ 0.004 / 千 tokens
输出:¥ 0.036 / 千 tokens
DeepSeek-V3.1 Terminus 通用模型
DeepSeek-V3.1 Terminus 是深度求索全新推出的混合推理模型,相比上一版解决了一系列问题,主要包含:语言一致性: 缓解了中英文混杂、偶发异常字符等情况;Agent 能力: 进一步优化了 Code Agent 与 Search Agent 的表现。
文本生成
输入:¥ 0.0045 / 千 tokens
输出:¥ 0.0135 / 千 tokens
DeepSeek V3.1 Terminus
DeepSeek-V3.1 Terminus 是 DeepSeek V3.1 的升级版本,在保留模型原有能力的基础上,针对用户反馈的语言一致性和智能体能力等问题进行了优化,进一步提升了模型在编程和搜索智能体场景下的表现。该模型是大型混合推理模型(参数总量6710亿,激活参数370亿),支持思考与非思考两种模式。它通过两阶段长上下文训练流程扩展了 DeepSeek-V3 的基础能力,上下文长度最高可达128K词元,并采用FP8微缩放技术实现高效推理。用户可通过 {"reasoning": {"enabled": true}} 布尔参数控制推理行为。该模型优化了工具调用、代码生成和推理效率,在困难基准测试中达到与 DeepSeek-R1 相当的性能,同时响应速度更快。它支持结构化工具调用、代码智能体与搜索智能体,适用于研究、编程和智能体工作流等场景。
文本生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.0125 / 千 tokens
Qwen3 Coder Plus
Qwen3 Coder Plus 是基于 Qwen3 的代码生成模型,具有强大的 Coding Agent 能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。
文本生成、代码补全
通义千问 Qwen3 Max
Qwen3 Max 是通义千问 3 系列 Max 模型,相较 preview 版本在智能体编程与工具调用方向进行了专项升级。本次发布的正式版模型达到领域 SOTA 水平,适配场景更加复杂的智能体需求。
文本生成、深度思考
Tongyi DeepResearch 30B A3B
通义深度研究(Tongyi DeepResearch)是由通义实验室开发的智能体大型语言模型,总参数量达300亿但每词元仅激活30亿参数。该模型专为长周期深度信息检索任务优化,在Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、GAIA、xbench-DeepSearch及FRAMES等基准测试中均达到顶尖水平。相较于先前模型,它在复杂智能搜索、推理和多步骤问题解决方面表现更为卓越。模型采用全自动合成数据管道,支持可扩展的预训练、微调与强化学习。通过对多样化智能体数据进行大规模持续预训练,持续增强推理能力并保持知识新鲜度。其特色包括端到端同策略强化学习框架,配备定制化的组相对策略优化机制——包含词元级梯度计算与负样本过滤技术以确保训练稳定性。模型支持ReAct框架进行核心能力验证,并提供基于迭代研究(IterResearch)的"重型"模式,通过测试时扩展实现极致性能。特别适用于高级研究智能体、工具调用及复杂推理工作流场景。
文本生成、深度研究
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Qwen3 Next 80B A3B Instruct
Qwen3-Next-80B-A3B-Instruct 是 Qwen3-Next 系列中经过指令微调的对话模型,专为快速稳定的响应而优化,不输出"思维"轨迹。该模型面向推理、代码生成、知识问答和多语言应用等复杂任务,同时在对齐能力和格式规范性方面保持稳健表现。相较此前 Qwen3 指令微调版本,其重点提升了超长输入和多轮对话下的吞吐量与稳定性,特别适合需要最终答案一致性而非显式思维链的 RAG、工具调用及智能体工作流程。该模型采用扩展高效训练与解码技术,显著提升参数效率与推理速度,并在广泛公开基准测试中验证了其性能——在多个类别达到或接近更大规模 Qwen3 系统的水平,同时超越早先的中等规模基线模型。作为通用助手、编程协作者和长上下文任务处理工具,它最适用于生产环境中需要确定性指令跟随输出的场景。
文本生成
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Qwen3 Next 80B A3B Thinking
Qwen3-Next-80B-A3B-Thining 是 Qwen3-Next 系列中优先推理的对话模型,默认输出结构化的"思维"轨迹。该模型专为复杂多步骤问题设计,涵盖数学证明、代码合成/调试、逻辑推理和智能体规划等领域,在知识理解、推理能力、编程实践、对齐性能及多语言评估中均表现卓越。相比此前Qwen3系列版本,该模型显著提升了长链思维下的稳定性与推理时的高效扩展性,经过调优后能够遵循复杂指令,同时减少重复性或偏离任务的行为。该模型适用于智能体框架与工具调用(函数调用)、高频率检索的工作流程,以及需要分步解决方案的标准化基准测试。它支持生成长篇详细的内容完成结果,并采用面向吞吐量的技术(如多令牌预测)以加速生成过程。需注意该模型仅运行在纯思维模式下。
文本生成、深度思考
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.0175 / 千 tokens
通义千问 Qwen VL Plus
通义千问VL-Plus(qwen-vl-plus),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。
图片理解
输入:¥ 0.001 / 千 tokens
输出:¥ 0.00225 / 千 tokens
Kimi K2 0905
Kimi K2 0905 是Kimi K2 0711的九月更新版。该模型由月之暗面(Moonshot AI)研发,是采用专家混合架构(MoE)的超大规模语言模型,总参数量达万亿规模,前向推理激活参数量为 320 亿。其上下文窗口长度从之前的 128K 扩展至 256K tokens,支持长上下文推理。本次更新显著提升了智能体编码能力,在各类编程框架中展现出更高准确性和更强泛化能力;同时增强了前端编程表现,能为网页、3D等任务生成兼具美学价值与功能性的代码。Kimi K2 专门针对智能体能力进行优化,涵盖高级工具使用、复杂推理和代码合成三大核心领域,在编程(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench)等基准测试中均表现卓越。该模型采用创新训练框架,集成MuonClip优化器,确保超大规模MoE模型的稳定训练。
文本生成
输入:¥ 0.00625 / 千 tokens
输出:¥ 0.025 / 千 tokens
Baidu ERNIE 4.5 Turbo 128K
文心 4.5 Turbo 在去幻觉、逻辑推理和代码能力等方面也有着明显增强。模型能力均衡,支持 128K 上下文长度,可以很好满足多轮长历史对话处理、长文档理解问答任务。
文本生成
输入:¥ 0.001 / 千 tokens
输出:¥ 0.0035 / 千 tokens
Qwen3 30B A3B Thinking 2507
Qwen3-30B-A3B-Thinking-2507 是一款拥有300亿参数的专家混合推理模型,专门针对需要多步骤深度思考的复杂任务进行优化。该模型专为"思维模式"设计,其核心特性是将内部推理过程与最终答案分离。相较于早期发布的 Qwen3-30B 版本,本模型在逻辑推理、数理科学、编程开发及多语言基准测试方面均实现性能提升,同时展现出更强的指令遵循能力、工具使用能力以及与人类价值观的对齐能力。凭借更高的推理效率和扩展的输出容量,该模型特别适用于前沿学术研究、竞技级问题求解,以及需要结构化长上下文推理的智能体应用场景。
文本生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
DeepSeek V3.1
DeepSeek V3.1 是一个大型混合推理模型(6710 亿参数,其中 370 亿为活跃参数),通过提示模板支持带“thinking”(思考)和非思考两种模式。DeepSeek V3.1 在 V3 的基础上进行了扩展,采用双阶段长上下文训练流程,最大支持 128 K tokens,并使用 FP8 微缩放以提高推理效率。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。 DeepSeek V3.1 改进了工具使用、代码生成和推理效率,在一些基准测试上可达到与 DeepSeek R1 相当的性能,同时响应更快。DeepSeek V3.1 支持结构化工具调用、代码代理与搜索代理,适用于科研、编写代码和智能体工作流。
文本生成
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0125 / 千 tokens
DeepSeek-V3.1 通用模型
DeepSeek-V3.1 是深度求索全新推出的混合推理模型,支持思考与非思考2种推理模式,较 DeepSeek-R1-0528 思考效率更高。经 Post-Training 优化,Agent 工具使用与智能体任务表现大幅提升。支持 128k 上下文窗口,输出长度支持最大 64k tokens。
文本生成
输入:¥ 0.0045 / 千 tokens
输出:¥ 0.0135 / 千 tokens
Qwen VL Max
通义千问 VL Max(qwen-vl-max),即通义千问超大规模视觉语言模型。相比增强版,Qwen VL Max 再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平,在更多复杂任务上提供最佳的性能。
图片理解、视频理解
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.00425 / 千 tokens
Doubao Seed 1.6 Vision
Doubao-Seed-1.6-vision,适用于视频理解、Grounding、GUI Agent 等高复杂度的场景。与 Doubao-1.5-thinking-vision-pro 相比,在教育、图像审核、巡检与安防和 AI 搜索问答等场景下展现出更强的通用多模态理解和推理能力。
视觉识别、深度思考
Qwen Flash
Qwen Flash 是 Qwen3 系列 Flash 模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。复杂推理类任务性能优秀,指令遵循、文本理解等能力显著提高。支持 1M 上下文长度,按照上下文长度进行阶梯计费。
文本生成、深度思考
Qwen3 Coder Flash
Qwen3 Coder Flash 是基于 Qwen3 的代码生成模型,继承 Qwen3 Coder Plus 的 coding agent 能力,支持多轮工具交互,重点优化仓库级别理解能力并增加工具调用稳定性。
文本生成、代码补全
Qwen3 Coder 30B A3B Instruct
Qwen3-Coder-30B-A3B-Instruct是一款拥有305亿参数的混合专家(MoE)模型,采用128个专家组件(每次前向传播激活8个),专为高级代码生成、仓库级代码理解与智能体工具调用而设计。该模型基于Qwen3架构构建,原生支持256K token的上下文长度(可通过Yarn扩展至100万token),在函数调用、浏览器操作和结构化代码补全等任务中表现卓越。
代码生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 30B A3B Instruct 2507
Qwen3-30B-A3B-Instruct-2507是千问团队开发的305亿参数专家混合语言模型,每次推理仅激活33亿参数。该模型采用非思考模式运行,专注于高质量指令遵循、多语言理解和代理工具使用能力。经过指令数据后训练后,在推理(AIME、斑马逻辑)、编程(MultiPL-E、LiveCodeBench)和对齐(IFEval、写作评测)等基准测试中展现出卓越性能。该模型在主观开放任务上显著优于非指令微调版本,同时保持了强劲的事实问答和代码生成能力。
文本生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 235B A22B Thinking 2507
Qwen3-235B-A22B-Thinking-2507 是一款高性能开放权重专家混合模型(MoE),专为复杂推理任务优化。该模型在前向推理过程中激活2350亿总参数中的220亿参数,原生支持高达262,144个token的上下文长度。此"纯思考"变体增强了结构化逻辑推理、数理科学及长文本生成能力,在AIME、SuperGPQA、LiveCodeBench和MMLU-Redux等基准测试中表现卓越。该模型经过指令微调,在逐步推理、工具使用、智能体工作流和多语言任务方面表现突出。此次发布的版本是Qwen3-235B系列中能力最强的开源变体,在结构化推理用例中超越诸多闭源模型。
文本生成
输入:¥ 0.00275 / 千 tokens
输出:¥ 0.0095 / 千 tokens
GLM 4.5
GLM-4.5 是智谱团队最新推出的旗舰级基础模型,专为智能体应用打造。GLM-4.5 模型采用专家混合架构(MoE),支持高达 128K tokens 的上下文长度,在推理能力、代码生成和智能体对齐方面实现显著提升。GLM-4.5 提供双模式混合推理:专为复杂推理和工具使用设计的"思考模式",以及针对即时响应优化的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。
文本生成
输入:¥ 0.0055 / 千 tokens
输出:¥ 0.02 / 千 tokens
GLM 4.5 Air
GLM-4.5-Air 是智谱团队推出的旗舰模型系列的轻量化版本,同样专为以智能体为核心的应用场景打造。与 GLM-4.5 相同,该模型采用专家混合架构(MoE),但参数规模更为紧凑。GLM-4.5-Air 同样支持混合推理模式,提供适用于复杂推理与工具使用的"思考模式",以及满足实时交互需求的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。
文本生成
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0129 / 千 tokens
Qwen3 Coder
基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。
代码生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.015 / 千 tokens
Qwen3 235B A22B Instruct 2507
Qwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言、指令微调的混合专家(Mixture-of-Experts,MoE)语言模型,每次前向传递激活 22B 个参数(约 220 亿)。它针对通用文本生成进行了优化,包括指令跟随、逻辑推理、数学、代码和工具使用。该模型原生支持 256K 的上下文长度,且不实现“思考模式”。与基础版本相比,2507 版本在知识覆盖、长上下文推理、代码基准测试以及面向开放式任务的对齐方面带来显著提升。在多语言理解、数学推理(例如 AIME、HMMT)以及对齐评估(如 Arena-Hard 和 WritingBench)上表现尤其强劲。
文本生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0075 / 千 tokens
通义千问 Qwen-Turbo
Qwen3系列Turbo模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-Turbo,达到同规模业界SOTA水平。
文本生成
输入:¥ 0.0003 / 千 tokens
输出:¥ 0.002 / 千 tokens
Kimi K2
Kimi K2 Instruct 是由 Moonshot AI 开发的大规模专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达 1 万亿,每次前向计算活跃参数为 320 亿。该模型针对智能体(agentic)能力进行了优化,包括高级工具使用、推理与代码合成。Kimi K2 在广泛的基准测试中表现优异,尤其在编码(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench) 任务上表现突出。Kimi K2 支持最长 128 K tokens 的长上下文推理,并采用了一套新颖的训练栈,其中包含用于稳定大规模 MoE 训练的 MuonClip 优化器。
文本生成
输入:¥ 0.0065 / 千 tokens
输出:¥ 0.025 / 千 tokens
Hunyuan A13B Instruct
混元-A13B是由腾讯开发的130亿激活参数的专家混合模型,总参数量达800亿,支持通过思维链进行推理。该模型在数学、科学、编程及多轮推理任务中展现出具有竞争力的基准性能,同时通过分组查询注意力技术及量化支持(FP8、GPTQ等)保持高效推理效率。
文本生成
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0075 / 千 tokens
Baidu ERNIE 4.5 300B A47B
ERNIE-4.5-300B-A47B是百度ERNIE 4.5系列推出的3000亿参数专家混合语言模型,每token激活470亿参数,支持中英文文本生成。该模型采用异构MoE架构与先进路由策略,结合FP8及2比特等量化技术,针对高吞吐量推理与高效扩展进行优化。本版本专精纯语言任务,支持逻辑推理、工具参数调用,并具备13.1万token的超长上下文处理能力,适用于需要高水平推理能力与高吞吐性能的通用大语言模型应用场景。
文本生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.01375 / 千 tokens
ERNIE 4.5 VL 424B A47B
ERNIE-4.5-VL-424B-A47B是百度ERNIE 4.5系列的多模态专家混合模型,总参数量达4240亿,每token激活470亿参数。该模型采用异构MoE架构与模态隔离路由机制,通过文本与图像的联合训练,实现了高保真跨模态推理、图像理解及长上下文生成(最高支持13.1万token)。结合SFT、DPO、UPO和RLVR等技术进行微调,支持思维与非思维推理模式。专为中英文视觉语言任务设计,具备高效扩展特性,可在4比特/8比特量化环境下运行。
图片识别
输入:¥ 0.006 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Hunyuan a13b
腾讯混元A13B是一款基于细粒度混合专家(MoE)架构的创新开源大语言模型。该模型专为高效与可扩展性而设计,能够以较低的计算开销实现前沿性能,使其成为高级推理与通用应用的理想选择,尤其在资源受限的环境中表现出色。
文本生成
输入:¥ 0.0006 / 千 tokens
输出:¥ 0.0025 / 千 tokens
Hunyuan-T1-Vision 视觉深度思考大模型
混元多模态理解深度思考模型,支持多模态原生长思维链,擅长处理各种图片推理场景,在理科难题上相比快思考模型全面提升。
图片理解、深度思考
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01015 / 千 tokens
Hunyuan Turbos Vision 20250619
Hunyuan Turbos Vision 采用混元 MOE 结构,是混元最新多模态模型,支持多语种作答,中英文能力均衡。
图片识别
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01015 / 千 tokens
Doubao Seed 1.6 多模态模型
Doubao-Seed-1.6 全新多模态模型,同时支持auto/thinking/non-thinking三种思考模式。 non-thinking模式下,模型效果对比Doubao-1.5-pro/250115大幅提升。支持 256k 上下文窗口,输出长度支持最大 64k tokens。
多模态、深度思考、图片理解
Doubao Seed 1.6 Flash 多模态模型
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 64k tokens。
多模态、深度思考、图片理解
DeepSeek R1 0528
DeepSeek-R1 是由深度求索推出的推理大模型。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
文本生成、深度思考
输入:¥ 0.00625 / 千 tokens
输出:¥ 0.025 / 千 tokens
DeepSeek-R1 深度思考模型
DeepSeek-R1 是由深度求索推出的推理大模型。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
文本生成、深度思考
输入:¥ 0.005 / 千 tokens
输出:¥ 0.0175 / 千 tokens
豆包文本向量模型-Large 250515
Doubao-embedding-large相比Doubao-embedding拥有更大的模型参数量,中英文Retrieval效果领先。主要面向向量检索的使用场景,支持中、英双语。
Embedding 向量化、文本嵌入
输入:¥ 0.0009 / 千 tokens
输出:¥ 0.0009 / 千 tokens
Qwen3 14B
Qwen3-14B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 14.8B 参数(约 148 亿),旨在同时支持复杂推理与高效对话。它能够在用于数学、编程和逻辑推理等任务的“思考”模式与用于通用会话的“非思考”模式之间无缝切换。该模型经过微调以适应指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.0008 / 千 tokens
输出:¥ 0.003 / 千 tokens
Qwen3 235B A22B
Qwen3-235B-A22B 是 Qwen 开发的一个专家混合(Mixture-of-Experts,MoE)模型,拥有 2350 亿参数,每次前向计算激活 220 亿参数。它支持在用于复杂推理、数学与代码任务的“思考”模式与用于提高通用会话效率的“非思考”模式之间无缝切换。该模型展现出强大的推理能力、多语种支持(覆盖 100+ 种语言与方言)、高级指令跟随能力以及代理工具调用能力。它原生支持 32K token 的上下文窗口,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.00675 / 千 tokens
Qwen3 30B A3B
Qwen3 是 Qwen 大规模语言模型系列的最新一代,结合了密集(dense)与专家混合(Mixture-of-Experts,MoE)架构,擅长推理、多语言支持与高级代理化任务。它能够在用于复杂推理的“思考”模式与用于高效对话的“非思考”模式之间无缝切换,确保多场景下的灵活且高质量表现。Qwen3 在数学、编码、常识推理、创意写作和交互式对话能力上显著超越了 QwQ 与 Qwen2.5 等此前模型。Qwen3-30B-A3B 变体包含 305 亿参数(每次前向计算激活 33 亿)、48 层、128 个专家(每个任务激活 8 个),并通过 YaRN 支持高达 131K token 的上下文,在开源模型中树立了新的标杆。
文本生成
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 32B
Qwen3-32B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 32.8B 参数(约 328 亿),针对复杂推理与高效对话进行了优化。它能够在用于数学、编码和逻辑推理等任务的“思考”模式与用于更快速的通用会话的“非思考”模式之间无缝切换。该模型在指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务上表现强劲。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 8B
Qwen3-8B是Qwen3系列中的密集型82亿参数因果语言模型,专为高强度推理任务与高效对话场景打造。该模型支持在数学运算、编程及逻辑推理所需的"思维"模式与通用对话的"非思维"模式间无缝切换,经过精细调优可胜任指令跟随、智能体集成、创意写作以及覆盖100多种语言和方言的多语言应用。该模型原生支持32K token的上下文窗口,通过YaRN扩展技术可进一步提升至131K token容量。
文本生成
输入:¥ 0.0006 / 千 tokens
输出:¥ 0.0045 / 千 tokens
豆包 1.5 Pro 深度思考视觉模型
Doubao-1.5-thinking-vision-pro 全新视觉深度思考模型,具备更强的通用多模态理解和推理能力,在 59 个公开评测基准中的 37 个上取得 SOTA 表现。
图片理解、深度思考
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0095 / 千 tokens
豆包 1.5 UI TARS
UI-TARS 是一款原生面向图形界面交互(GUI)的Agent模型。通过感知、推理和行动等类人的能力,与 GUI 进行无缝交互。
GUI Agent 模型、图形界面交互、图片理解
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.0125 / 千 tokens
ERNIE 4.5 Turbo VL 32K
图片理解、创作、翻译、代码等能力显著提升,首次支持32K上下文长度,首Token时延显著降低。
图片理解
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01 / 千 tokens
Hunyuan-Turbos-Vision 视觉大模型
此模型适用于图文理解场景,是基于混元最新 turbos 的新一代视觉语言旗舰大模型,聚焦图文理解相关任务,包括基于图片的实体识别、知识问答、文案创作、拍照解题等方面,相比前一代模型全面提升。
图片理解
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01015 / 千 tokens
豆包 1.5 Vision Pro
全新升级的多模态大模型,视觉理解、分类、信息抽取等能力显著提升,并重点增强了解题、视频理解等场景的任务效果。支持 128k 上下文窗口,输出长度支持最大 16k tokens。
图片理解
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0095 / 千 tokens
Qwen2.5 VL 32B Instruct
Qwen2.5-VL-32B 是一款通过强化学习微调的多模态视觉语言模型,其数学推理能力、结构化输出和视觉问题解决能力显著增强。该模型在视觉分析任务中表现卓越,包括图像中的物体识别、文本解析以及长视频中的精确事件定位。在 MMMU、MathVista 和 VideoMME 等多模态基准测试中展现出顶尖性能,同时在 MMLU 文本理解、数学问题求解和代码生成等基于文本的任务中保持强大的推理能力与输出清晰度。
图片理解
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.0075 / 千 tokens
DeepSeek-V3 通用模型
DeepSeek-V3 是一款由深度求索公司自研的MoE模型。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
文本生成
输入:¥ 0.00225 / 千 tokens
输出:¥ 0.009 / 千 tokens
通义千问-Plus-Character
通义千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
文本生成、角色扮演
输入:¥ 0.001 / 千 tokens
输出:¥ 0.00225 / 千 tokens
Qwen-Long
Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型,支持中文、英文等不同语言输入,支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。
文本生成
输入:¥ 0.00055 / 千 tokens
输出:¥ 0.00225 / 千 tokens
QwQ 32B
QwQ 是 Qwen 系列的推理模型。相较于传统的指令微调模型,具备思维与推理能力的 QwQ 能在下游任务(尤其是难题处理)中实现显著增强的性能表现。QwQ-32B 作为中等参数规模的推理模型,能够与 DeepSeek-R1、o1-mini 等顶尖推理模型实现竞争性的性能表现。
文本生成
输入:¥ 0.00195 / 千 tokens
输出:¥ 0.00555 / 千 tokens
Qwen2.5 VL 72B Instruct
指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。
图片识别
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.00975 / 千 tokens
腾讯 Hunyuan-large
Hunyuan-large 模型总参数量约 389B,激活参数量约 52B,是当前业界参数规模最大、效果最好的 Transformer 架构的开源 MoE 模型。
文本生成
输入:¥ 0.0045 / 千 tokens
输出:¥ 0.0135 / 千 tokens
DeepSeek R1 Distill Qwen 32B
DeepSeek R1 Distill Qwen 32B 是基于 Qwen 2.5 32B 蒸馏得到的大语言模型,其训练使用了 DeepSeek R1 的输出数据。模型在多项基准测试中超越 OpenAI 的 o1-mini,创造了密集模型的最新性能纪录。模型通过深度融合 DeepSeek R1 的输出进行精调,实现了与更大规模前沿模型相媲美的竞争性能。
文本生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.00375 / 千 tokens
通义千问2.5-VL-7B
指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为7B版本,计算量与性能相对平衡。
图片理解
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.0055 / 千 tokens
豆包 1.5 Lite 32k
Doubao-1.5-lite,全新一代轻量版模型,极致响应速度,效果与时延均达到全球一流水平。支持32k上下文窗口,输出长度支持最大 12k tokens。
文本生成
输入:¥ 0.00035 / 千 tokens
输出:¥ 0.0007 / 千 tokens
Doubao 1.5 Pro 32k
Doubao-1.5-pro-32k,全新一代主力模型,性能全面升级,在知识、代码、推理、等方面表现卓越。支持32k上下文窗口,输出长度支持最大 12k tokens。
文本生成
输入:¥ 0.001 / 千 tokens
输出:¥ 0.0025 / 千 tokens
Doubao 1.5 Vision Pro 32k
Doubao 1.5 Vision Pro 是全新升级的多模态大模型,支持任意分辨率和极端长宽比图像识别,增强视觉推理、文档识别、细节信息理解和指令遵循能力。Doubao-1.5-vision-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,并让模型的回复模式变得更加精简、友好。
图片识别
输入:¥ 0.0032 / 千 tokens
输出:¥ 0.0093 / 千 tokens
Qwen3 VL Flash
Qwen3 VL Flash 是 Qwen3 系列小尺寸视觉理解模型,实现思考模式和非思考模式的有效融合,效果优于开源版 Qwen3-VL-30B-A3B,响应速度快。全面升级图像/视频理解,支持长视频长文档等超长上下文、空间感知与万物识别;具备视觉 2D/3D 定位能力,胜任复杂现实任务。
视觉识别、深度思考
Qwen Coder Plus
Qwen Coder Plus 是通义千问系列代码及编程模型是专门用于编程和代码生成的语言模型,性能出色,效果突出。
文本生成
输入:¥ 0.0036 / 千 tokens
输出:¥ 0.0072 / 千 tokens
Qwen2.5 7B Instruct
Qwen2.5 7B 是 Qwen 大语言模型系列的最新版本。相较于 Qwen2,Qwen2.5 实现了以下重大升级:1. 通过融合编程与数学领域的专用专家模型,显著扩充知识库并大幅提升代码生成与数学推理能力;2. 在指令遵循、长文本生成(超过8K词元)、结构化数据(如表格)理解与结构化输出(特别是JSON格式)方面实现突破性进展;3. 对系统提示词的多样性具备更强适应性,显著增强聊天机器人的角色扮演与条件设定能力;4. 支持长达128K词元的上下文处理,并可生成最多8K词元的文本;5. 扩展至29种语言的多语言支持,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
文本生成
输入:¥ 0.0006 / 千 tokens
输出:¥ 0.0015 / 千 tokens
通义千问-Max
通义千问2.5系列千亿级别超大规模语言模型,支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级。如果希望使用固定版本,请使用历史快照版本。
文本生成
输入:¥ 0.003 / 千 tokens
输出:¥ 0.01 / 千 tokens
Qwen2.5 72B Instruct
Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
文本生成
输入:¥ 0.0045 / 千 tokens
输出:¥ 0.005 / 千 tokens
通义千问2.5-14B
Qwen2.5系列14B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
文本生成
输入:¥ 0.00115 / 千 tokens
输出:¥ 0.0035 / 千 tokens