Qwen3 VL 8B Instruct
qwen/qwen3-vl-8b-instruct
Qwen3-VL-8B-Instruct 是来自 Qwen3-VL 系列的多模态视觉-语言模型,旨在对文本、图像与视频实现高保真理解与推理。它采用了改进的多模态融合机制——Interleaved-MRoPE,用于长时跨度的时间推理;引入 DeepStack 实现细粒度的视觉—文本对齐;并支持文本—时间戳对齐以实现精确的事件定位。Qwen3-VL-8B-Instruct 模型原生支持 256K tokens 的上下文窗口,可扩展至 1M tokens,能够处理静态与动态媒体输入,适用于文档解析、视觉问答、空间推理与图形界面(GUI)控制等任务。它在文本理解方面达到了与领先大型语言模型相当的水平,同时将 OCR 覆盖扩展到 32 种语言,并在多种视觉条件下增强了稳健性。
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.00875 / 千 tokens
Baidu ERNIE 4.5 21B A3B Thinking
baidu/ernie-4.5-21b-a3b-thinking
ERNIE-4.5-21B-A3B-Thinking是百度升级的轻量级MoE(专家混合)模型,经过优化精炼,显著提升推理深度与质量,旨在逻辑解谜、数学计算、科学推理、代码编写、文本生成及专业级学术基准测试中实现顶尖性能。
输入:¥ 0.001 / 千 tokens
输出:¥ 0.0035 / 千 tokens
Qwen3 VL 30B A3B Thinking
qwen/qwen3-vl-30b-a3b-thinking
Qwen3-VL-30B-A3B-Thinking 是一款多模态模型,深度融合强大的文本生成能力与图像、视频的视觉理解功能。其思维增强版本显著提升了在STEM领域、数学及复杂任务中的推理能力。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越,在多模态基准测试中取得领先成绩。针对智能体应用场景,它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务,以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平,适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。
输入:¥ 0.004 / 千 tokens
输出:¥ 0.0125 / 千 tokens
Qwen3 VL 30B A3B Instruct
qwen/qwen3-vl-30b-a3b-instruct
Qwen3-VL-30B-A3B-Instruct 是一款多模态模型,深度融合强大的文本生成能力与图像、视频的视觉理解功能。其指令优化版本针对通用多模态任务的指令遵循能力进行了专项优化。该模型在现实世界与合成场景的视觉感知、二维/三维空间定位、长篇幅视觉内容理解方面表现卓越,在多模态基准测试中取得领先成绩。针对智能体应用场景,它能处理多图像多轮指令交互、视频时间轴对齐、图形界面自动化任务,以及从草图到调试完成的视觉编程全流程。文本性能与旗舰版Qwen3系列持平,适用于文档智能处理、光学字符识别、界面操作辅助、空间任务及智能体研究等领域。
输入:¥ 0.004 / 千 tokens
输出:¥ 0.0125 / 千 tokens
GLM 4.6
z-ai/glm-4.6
与 GLM-4.5 相比,GLM-4.6 模型实现了多项关键改进:更长的上下文窗口:上下文窗口从 128K 字符扩展至 200K 字符,使模型能够处理更复杂的智能体任务。卓越的编程性能:在代码基准测试中获得更高分数,并在 Claude Code、Cline、Roo Code 及 Kilo Code 等实际应用中表现更佳,包括生成视觉效果更佳的前端页面方面有所提升。进阶推理能力:GLM-4.6 在推理性能上显著提升,并支持推理过程中的工具调用,从而形成更强大的综合能力。更强大的智能体:GLM-4.6 在工具调用和基于搜索的智能体方面表现更出色,并能更高效地集成至智能体框架中。精细化写作:更符合人类对文风与可读性的偏好,在角色扮演场景中的表现也更为自然。
输入:¥ 0.0075 / 千 tokens
输出:¥ 0.021 / 千 tokens
DeepSeek V3.2 Exp
deepseek/deepseek-v3.2-exp
DeepSeek-V3.2-Exp 是由 DeepSeek 发布的实验性(Experimental)大语言模型,作为V3.1与未来架构之间的中间版本。该模型引入了 DeepSeek 稀疏注意力(DSA)机制——一种细粒度稀疏注意力架构,旨在保持输出质量的同时提升长上下文场景下的训练与推理效率。用户可通过 "reasoning": {"enabled": true} 布尔参数控制推理行为。模型的训练条件与 DeepSeek-V3.1-Terminus 保持一致,以实现直接性能对比。基准测试显示,该模型在推理、代码生成和智能体工具使用任务上的表现与 V3.1 大致持平,不同领域存在微幅的性能取舍与提升。本次发布侧重于验证针对长上下文优化的架构设计,而非追求原始任务精度的突破,因此本质上属于研究导向型模型,主要用于探索高效的 Transformer 架构设计。
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Qwen3 VL 235B A22B Thinking
qwen/qwen3-vl-235b-a22b-thinking
Qwen3-VL-235B-A22B Thinking 是一款多模态模型,融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该模型专门针对 STEM 领域和数学的多模态推理进行优化,重点强化了鲁棒感知(识别多样化的真实世界及合成类别)、空间理解(2D/3D定位)以及长篇幅视觉内容解析能力,在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外,Qwen3-VL 还支持智能体交互与工具调用:可遵循跨多图像、多轮对话的复杂指令;将文本与视频时间轴对齐以实现精准的时间定位查询;操作图形界面元素完成自动化任务。该系列模型还能驱动可视化编程工作流,将草图或原型转化为代码并辅助UI调试,同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。
输入:¥ 0.004 / 千 tokens
输出:¥ 0.036 / 千 tokens
Qwen3 VL 235B A22B Instruct
qwen/qwen3-vl-235b-a22b-instruct
Qwen3-VL-235B-A22B Instruct 是一款开放参数的多模态模型,融合了强大的文本生成能力与跨图像、视频的视觉理解功能。该指令调优模型专注于通用视觉语言任务(视觉问答、文档解析、图表/表格提取、多语言OCR)。该系列模型重点强化了鲁棒感知(识别多样化的真实世界及合成类别)、空间理解(2D/3D定位)以及长篇幅视觉内容解析能力,在公开多模态基准测试的感知与推理任务中均展现出卓越表现。除分析功能外,Qwen3-VL 还支持智能体交互与工具调用:可遵循跨多图像、多轮对话的复杂指令;将文本与视频时间轴对齐以实现精准的时间定位查询;操作图形界面元素完成自动化任务。该模型还能驱动可视化编程工作流——将草图或原型转化为代码并辅助UI调试,同时保持与旗舰版Qwen3语言模型相媲美的纯文本处理性能。这些特性使 Qwen3-VL 适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言智能体研究等多元化生产场景。
输入:¥ 0.004 / 千 tokens
输出:¥ 0.022 / 千 tokens
DeepSeek V3.1 Terminus
deepseek/deepseek-v3.1-terminus
DeepSeek-V3.1 Terminus 是 DeepSeek V3.1 的升级版本,在保留模型原有能力的基础上,针对用户反馈的语言一致性和智能体能力等问题进行了优化,进一步提升了模型在编程和搜索智能体场景下的表现。该模型是大型混合推理模型(参数总量6710亿,激活参数370亿),支持思考与非思考两种模式。它通过两阶段长上下文训练流程扩展了 DeepSeek-V3 的基础能力,上下文长度最高可达128K词元,并采用FP8微缩放技术实现高效推理。用户可通过 {"reasoning": {"enabled": true}} 布尔参数控制推理行为。该模型优化了工具调用、代码生成和推理效率,在困难基准测试中达到与 DeepSeek-R1 相当的性能,同时响应速度更快。它支持结构化工具调用、代码智能体与搜索智能体,适用于研究、编程和智能体工作流等场景。
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.0125 / 千 tokens
Tongyi DeepResearch 30B A3B
alibaba/tongyi-deepresearch-30b-a3b
通义深度研究(Tongyi DeepResearch)是由通义实验室开发的智能体大型语言模型,总参数量达300亿但每词元仅激活30亿参数。该模型专为长周期深度信息检索任务优化,在Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、GAIA、xbench-DeepSearch及FRAMES等基准测试中均达到顶尖水平。相较于先前模型,它在复杂智能搜索、推理和多步骤问题解决方面表现更为卓越。模型采用全自动合成数据管道,支持可扩展的预训练、微调与强化学习。通过对多样化智能体数据进行大规模持续预训练,持续增强推理能力并保持知识新鲜度。其特色包括端到端同策略强化学习框架,配备定制化的组相对策略优化机制——包含词元级梯度计算与负样本过滤技术以确保训练稳定性。模型支持ReAct框架进行核心能力验证,并提供基于迭代研究(IterResearch)的"重型"模式,通过测试时扩展实现极致性能。特别适用于高级研究智能体、工具调用及复杂推理工作流场景。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0055 / 千 tokens
Qwen3 Next 80B A3B Thinking
qwen/qwen3-next-80b-a3b-thinking
Qwen3-Next-80B-A3B-Thining 是 Qwen3-Next 系列中优先推理的对话模型,默认输出结构化的"思维"轨迹。该模型专为复杂多步骤问题设计,涵盖数学证明、代码合成/调试、逻辑推理和智能体规划等领域,在知识理解、推理能力、编程实践、对齐性能及多语言评估中均表现卓越。相比此前Qwen3系列版本,该模型显著提升了长链思维下的稳定性与推理时的高效扩展性,经过调优后能够遵循复杂指令,同时减少重复性或偏离任务的行为。该模型适用于智能体框架与工具调用(函数调用)、高频率检索的工作流程,以及需要分步解决方案的标准化基准测试。它支持生成长篇详细的内容完成结果,并采用面向吞吐量的技术(如多令牌预测)以加速生成过程。需注意该模型仅运行在纯思维模式下。
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Qwen3 Next 80B A3B Instruct
qwen/qwen3-next-80b-a3b-instruct
Qwen3-Next-80B-A3B-Instruct 是 Qwen3-Next 系列中经过指令微调的对话模型,专为快速稳定的响应而优化,不输出"思维"轨迹。该模型面向推理、代码生成、知识问答和多语言应用等复杂任务,同时在对齐能力和格式规范性方面保持稳健表现。相较此前 Qwen3 指令微调版本,其重点提升了超长输入和多轮对话下的吞吐量与稳定性,特别适合需要最终答案一致性而非显式思维链的 RAG、工具调用及智能体工作流程。该模型采用扩展高效训练与解码技术,显著提升参数效率与推理速度,并在广泛公开基准测试中验证了其性能——在多个类别达到或接近更大规模 Qwen3 系统的水平,同时超越早先的中等规模基线模型。作为通用助手、编程协作者和长上下文任务处理工具,它最适用于生产环境中需要确定性指令跟随输出的场景。
输入:¥ 0.00175 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Kimi K2 0905
moonshotai/kimi-k2-0905
Kimi K2 0905 是Kimi K2 0711的九月更新版。该模型由月之暗面(Moonshot AI)研发,是采用专家混合架构(MoE)的超大规模语言模型,总参数量达万亿规模,前向推理激活参数量为 320 亿。其上下文窗口长度从之前的 128K 扩展至 256K tokens,支持长上下文推理。本次更新显著提升了智能体编码能力,在各类编程框架中展现出更高准确性和更强泛化能力;同时增强了前端编程表现,能为网页、3D等任务生成兼具美学价值与功能性的代码。Kimi K2 专门针对智能体能力进行优化,涵盖高级工具使用、复杂推理和代码合成三大核心领域,在编程(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench)等基准测试中均表现卓越。该模型采用创新训练框架,集成MuonClip优化器,确保超大规模MoE模型的稳定训练。
输入:¥ 0.00625 / 千 tokens
输出:¥ 0.025 / 千 tokens
Qwen3 30B A3B Thinking 2507
qwen/qwen3-30b-a3b-thinking-2507
Qwen3-30B-A3B-Thinking-2507 是一款拥有300亿参数的专家混合推理模型,专门针对需要多步骤深度思考的复杂任务进行优化。该模型专为"思维模式"设计,其核心特性是将内部推理过程与最终答案分离。相较于早期发布的 Qwen3-30B 版本,本模型在逻辑推理、数理科学、编程开发及多语言基准测试方面均实现性能提升,同时展现出更强的指令遵循能力、工具使用能力以及与人类价值观的对齐能力。凭借更高的推理效率和扩展的输出容量,该模型特别适用于前沿学术研究、竞技级问题求解,以及需要结构化长上下文推理的智能体应用场景。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
DeepSeek V3.1
deepseek/deepseek-chat-v3.1
DeepSeek V3.1 是一个大型混合推理模型(6710 亿参数,其中 370 亿为活跃参数),通过提示模板支持带“thinking”(思考)和非思考两种模式。DeepSeek V3.1 在 V3 的基础上进行了扩展,采用双阶段长上下文训练流程,最大支持 128 K tokens,并使用 FP8 微缩放以提高推理效率。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。 DeepSeek V3.1 改进了工具使用、代码生成和推理效率,在一些基准测试上可达到与 DeepSeek R1 相当的性能,同时响应更快。DeepSeek V3.1 支持结构化工具调用、代码代理与搜索代理,适用于科研、编写代码和智能体工作流。
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.0125 / 千 tokens
Qwen3 Coder 30B A3B Instruct
qwen/qwen3-coder-30b-a3b-instruct
Qwen3-Coder-30B-A3B-Instruct是一款拥有305亿参数的混合专家(MoE)模型,采用128个专家组件(每次前向传播激活8个),专为高级代码生成、仓库级代码理解与智能体工具调用而设计。该模型基于Qwen3架构构建,原生支持256K token的上下文长度(可通过Yarn扩展至100万token),在函数调用、浏览器操作和结构化代码补全等任务中表现卓越。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 30B A3B Instruct 2507
qwen/qwen3-30b-a3b-instruct-2507
Qwen3-30B-A3B-Instruct-2507是千问团队开发的305亿参数专家混合语言模型,每次推理仅激活33亿参数。该模型采用非思考模式运行,专注于高质量指令遵循、多语言理解和代理工具使用能力。经过指令数据后训练后,在推理(AIME、斑马逻辑)、编程(MultiPL-E、LiveCodeBench)和对齐(IFEval、写作评测)等基准测试中展现出卓越性能。该模型在主观开放任务上显著优于非指令微调版本,同时保持了强劲的事实问答和代码生成能力。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 235B A22B Thinking 2507
qwen/qwen3-235b-a22b-thinking-2507
Qwen3-235B-A22B-Thinking-2507 是一款高性能开放权重专家混合模型(MoE),专为复杂推理任务优化。该模型在前向推理过程中激活2350亿总参数中的220亿参数,原生支持高达262,144个token的上下文长度。此"纯思考"变体增强了结构化逻辑推理、数理科学及长文本生成能力,在AIME、SuperGPQA、LiveCodeBench和MMLU-Redux等基准测试中表现卓越。该模型经过指令微调,在逐步推理、工具使用、智能体工作流和多语言任务方面表现突出。此次发布的版本是Qwen3-235B系列中能力最强的开源变体,在结构化推理用例中超越诸多闭源模型。
输入:¥ 0.00275 / 千 tokens
输出:¥ 0.0095 / 千 tokens
GLM 4.5 Air
z-ai/glm-4.5-air
GLM-4.5-Air 是智谱团队推出的旗舰模型系列的轻量化版本,同样专为以智能体为核心的应用场景打造。与 GLM-4.5 相同,该模型采用专家混合架构(MoE),但参数规模更为紧凑。GLM-4.5-Air 同样支持混合推理模式,提供适用于复杂推理与工具使用的"思考模式",以及满足实时交互需求的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0129 / 千 tokens
GLM 4.5
z-ai/glm-4.5
GLM-4.5 是智谱团队最新推出的旗舰级基础模型,专为智能体应用打造。GLM-4.5 模型采用专家混合架构(MoE),支持高达 128K tokens 的上下文长度,在推理能力、代码生成和智能体对齐方面实现显著提升。GLM-4.5 提供双模式混合推理:专为复杂推理和工具使用设计的"思考模式",以及针对即时响应优化的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。
输入:¥ 0.0055 / 千 tokens
输出:¥ 0.02 / 千 tokens
Qwen3 Coder
qwen/qwen3-coder
基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.015 / 千 tokens
Qwen3 235B A22B Instruct 2507
qwen/qwen3-235b-a22b-2507
Qwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言、指令微调的混合专家(Mixture-of-Experts,MoE)语言模型,每次前向传递激活 22B 个参数(约 220 亿)。它针对通用文本生成进行了优化,包括指令跟随、逻辑推理、数学、代码和工具使用。该模型原生支持 256K 的上下文长度,且不实现“思考模式”。与基础版本相比,2507 版本在知识覆盖、长上下文推理、代码基准测试以及面向开放式任务的对齐方面带来显著提升。在多语言理解、数学推理(例如 AIME、HMMT)以及对齐评估(如 Arena-Hard 和 WritingBench)上表现尤其强劲。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0075 / 千 tokens
Kimi K2
moonshotai/kimi-k2
Kimi K2 Instruct 是由 Moonshot AI 开发的大规模专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达 1 万亿,每次前向计算活跃参数为 320 亿。该模型针对智能体(agentic)能力进行了优化,包括高级工具使用、推理与代码合成。Kimi K2 在广泛的基准测试中表现优异,尤其在编码(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench) 任务上表现突出。Kimi K2 支持最长 128 K tokens 的长上下文推理,并采用了一套新颖的训练栈,其中包含用于稳定大规模 MoE 训练的 MuonClip 优化器。
输入:¥ 0.0065 / 千 tokens
输出:¥ 0.025 / 千 tokens
Hunyuan A13B Instruct
tencent/hunyuan-a13b-instruct
混元-A13B是由腾讯开发的130亿激活参数的专家混合模型,总参数量达800亿,支持通过思维链进行推理。该模型在数学、科学、编程及多轮推理任务中展现出具有竞争力的基准性能,同时通过分组查询注意力技术及量化支持(FP8、GPTQ等)保持高效推理效率。
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0075 / 千 tokens
Baidu ERNIE 4.5 300B A47B
baidu/ernie-4.5-300b-a47b
ERNIE-4.5-300B-A47B是百度ERNIE 4.5系列推出的3000亿参数专家混合语言模型,每token激活470亿参数,支持中英文文本生成。该模型采用异构MoE架构与先进路由策略,结合FP8及2比特等量化技术,针对高吞吐量推理与高效扩展进行优化。本版本专精纯语言任务,支持逻辑推理、工具参数调用,并具备13.1万token的超长上下文处理能力,适用于需要高水平推理能力与高吞吐性能的通用大语言模型应用场景。
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.01375 / 千 tokens
ERNIE 4.5 VL 424B A47B
baidu/ernie-4.5-vl-424b-a47b
ERNIE-4.5-VL-424B-A47B是百度ERNIE 4.5系列的多模态专家混合模型,总参数量达4240亿,每token激活470亿参数。该模型采用异构MoE架构与模态隔离路由机制,通过文本与图像的联合训练,实现了高保真跨模态推理、图像理解及长上下文生成(最高支持13.1万token)。结合SFT、DPO、UPO和RLVR等技术进行微调,支持思维与非思维推理模式。专为中英文视觉语言任务设计,具备高效扩展特性,可在4比特/8比特量化环境下运行。
输入:¥ 0.006 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Deepseek R1 0528 Qwen3 8B
deepseek/deepseek-r1-0528-qwen3-8b
DeepSeek-R1-0528是DeepSeek R1的小幅升级版,通过投入更多算力与更精妙的训练后技巧,将其推理能力推升至媲美O3、Gemini 2.5 Pro等旗舰模型的水平。该版本目前称霸数学、编程与逻辑推理排行榜,展现出思维深度的阶跃式提升。其蒸馏变体DeepSeek-R1-0528-Qwen3-8B将这种思维链能力压缩至80亿参数规模,在AIME 2024测试中较标准Qwen3 8B提升10个百分点,甚至与2350亿参数的"思考"巨量模型表现持平。
输入:¥ 0.00075 / 千 tokens
输出:¥ 0.00125 / 千 tokens
DeepSeek R1 0528
deepseek/deepseek-r1-0528
DeepSeek-R1 是由深度求索推出的推理大模型。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
输入:¥ 0.00625 / 千 tokens
输出:¥ 0.025 / 千 tokens
DeepSeek Prover V2
deepseek/deepseek-prover-v2
DeepSeek Prover V2 是一个拥有 6710 亿参数的模型,专为 Lean 4 形式化定理证明设计。模型通过由 DeepSeek-V3 驱动的递归定理证明流程收集初始化数据,其冷启动训练流程首先通过引导 DeepSeek-V3 将复杂问题分解为系列子目标,将已解决的子目标证明与 DeepSeek-V3 的逐步推理过程结合,合成为思维链数据,为强化学习建立初始冷启动基础。
输入:¥ 0.0065 / 千 tokens
输出:¥ 0.0275 / 千 tokens
Qwen3 235B A22B
qwen/qwen3-235b-a22b
Qwen3-235B-A22B 是 Qwen 开发的一个专家混合(Mixture-of-Experts,MoE)模型,拥有 2350 亿参数,每次前向计算激活 220 亿参数。它支持在用于复杂推理、数学与代码任务的“思考”模式与用于提高通用会话效率的“非思考”模式之间无缝切换。该模型展现出强大的推理能力、多语种支持(覆盖 100+ 种语言与方言)、高级指令跟随能力以及代理工具调用能力。它原生支持 32K token 的上下文窗口,并可通过基于 YaRN 的伸缩扩展至 131K token。
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.00675 / 千 tokens
Qwen3 8B
qwen/qwen3-8b
Qwen3-8B是Qwen3系列中的密集型82亿参数因果语言模型,专为高强度推理任务与高效对话场景打造。该模型支持在数学运算、编程及逻辑推理所需的"思维"模式与通用对话的"非思维"模式间无缝切换,经过精细调优可胜任指令跟随、智能体集成、创意写作以及覆盖100多种语言和方言的多语言应用。该模型原生支持32K token的上下文窗口,通过YaRN扩展技术可进一步提升至131K token容量。
输入:¥ 0.0005 / 千 tokens
输出:¥ 0.00175 / 千 tokens
Qwen3 32B
qwen/qwen3-32b
Qwen3-32B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 32.8B 参数(约 328 亿),针对复杂推理与高效对话进行了优化。它能够在用于数学、编码和逻辑推理等任务的“思考”模式与用于更快速的通用会话的“非思考”模式之间无缝切换。该模型在指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务上表现强劲。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 30B A3B
qwen/qwen3-30b-a3b
Qwen3 是 Qwen 大规模语言模型系列的最新一代,结合了密集(dense)与专家混合(Mixture-of-Experts,MoE)架构,擅长推理、多语言支持与高级代理化任务。它能够在用于复杂推理的“思考”模式与用于高效对话的“非思考”模式之间无缝切换,确保多场景下的灵活且高质量表现。Qwen3 在数学、编码、常识推理、创意写作和交互式对话能力上显著超越了 QwQ 与 Qwen2.5 等此前模型。Qwen3-30B-A3B 变体包含 305 亿参数(每次前向计算激活 33 亿)、48 层、128 个专家(每个任务激活 8 个),并通过 YaRN 支持高达 131K token 的上下文,在开源模型中树立了新的标杆。
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 14B
qwen/qwen3-14b
Qwen3-14B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 14.8B 参数(约 148 亿),旨在同时支持复杂推理与高效对话。它能够在用于数学、编程和逻辑推理等任务的“思考”模式与用于通用会话的“非思考”模式之间无缝切换。该模型经过微调以适应指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
输入:¥ 0.0008 / 千 tokens
输出:¥ 0.003 / 千 tokens
Qwen2.5 VL 32B Instruct
qwen/qwen2.5-vl-32b-instruct
Qwen2.5-VL-32B 是一款通过强化学习微调的多模态视觉语言模型,其数学推理能力、结构化输出和视觉问题解决能力显著增强。该模型在视觉分析任务中表现卓越,包括图像中的物体识别、文本解析以及长视频中的精确事件定位。在 MMMU、MathVista 和 VideoMME 等多模态基准测试中展现出顶尖性能,同时在 MMLU 文本理解、数学问题求解和代码生成等基于文本的任务中保持强大的推理能力与输出清晰度。
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.0075 / 千 tokens
QwQ 32B
qwen/qwq-32b
QwQ 是 Qwen 系列的推理模型。相较于传统的指令微调模型,具备思维与推理能力的 QwQ 能在下游任务(尤其是难题处理)中实现显著增强的性能表现。QwQ-32B 作为中等参数规模的推理模型,能够与 DeepSeek-R1、o1-mini 等顶尖推理模型实现竞争性的性能表现。
输入:¥ 0.00195 / 千 tokens
输出:¥ 0.00555 / 千 tokens
Qwen2.5 VL 72B Instruct
qwen/qwen2.5-vl-72b-instruct
指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.00975 / 千 tokens
DeepSeek R1 Distill Qwen 32B
deepseek/deepseek-r1-distill-qwen-32b
DeepSeek R1 Distill Qwen 32B 是基于 Qwen 2.5 32B 蒸馏得到的大语言模型,其训练使用了 DeepSeek R1 的输出数据。模型在多项基准测试中超越 OpenAI 的 o1-mini,创造了密集模型的最新性能纪录。模型通过深度融合 DeepSeek R1 的输出进行精调,实现了与更大规模前沿模型相媲美的竞争性能。
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen2.5 7B Instruct
qwen/qwen-2.5-7b-instruct
Qwen2.5 7B 是 Qwen 大语言模型系列的最新版本。相较于 Qwen2,Qwen2.5 实现了以下重大升级:1. 通过融合编程与数学领域的专用专家模型,显著扩充知识库并大幅提升代码生成与数学推理能力;2. 在指令遵循、长文本生成(超过8K词元)、结构化数据(如表格)理解与结构化输出(特别是JSON格式)方面实现突破性进展;3. 对系统提示词的多样性具备更强适应性,显著增强聊天机器人的角色扮演与条件设定能力;4. 支持长达128K词元的上下文处理,并可生成最多8K词元的文本;5. 扩展至29种语言的多语言支持,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
输入:¥ 0.0006 / 千 tokens
输出:¥ 0.0015 / 千 tokens
Qwen2.5 72B Instruct
qwen/qwen-2.5-72b-instruct
Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.008 / 千 tokens