Kimi K2 0905

moonshotai/kimi-k2-0905

Kimi K2 0905 是Kimi K2 0711的九月更新版。该模型由月之暗面(Moonshot AI)研发,是采用专家混合架构(MoE)的超大规模语言模型,总参数量达万亿规模,前向推理激活参数量为 320 亿。其上下文窗口长度从之前的 128K 扩展至 256K tokens,支持长上下文推理。本次更新显著提升了智能体编码能力,在各类编程框架中展现出更高准确性和更强泛化能力;同时增强了前端编程表现,能为网页、3D等任务生成兼具美学价值与功能性的代码。Kimi K2 专门针对智能体能力进行优化,涵盖高级工具使用、复杂推理和代码合成三大核心领域,在编程(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench)等基准测试中均表现卓越。该模型采用创新训练框架,集成MuonClip优化器,确保超大规模MoE模型的稳定训练。

2025-09-05

输入:¥ 7 / M tokens

文本生成

DeepSeek V3.1

deepseek/deepseek-chat-v3.1

DeepSeek V3.1 是一个大型混合推理模型(6710 亿参数,其中 370 亿为活跃参数),通过提示模板支持带“thinking”(思考)和非思考两种模式。DeepSeek V3.1 在 V3 的基础上进行了扩展,采用双阶段长上下文训练流程,最大支持 128 K tokens,并使用 FP8 微缩放以提高推理效率。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。 DeepSeek V3.1 改进了工具使用、代码生成和推理效率,在一些基准测试上可达到与 DeepSeek R1 相当的性能,同时响应更快。DeepSeek V3.1 支持结构化工具调用、代码代理与搜索代理,适用于科研、编写代码和智能体工作流。

2025-08-24

输入:¥ 3.5 / M tokens

文本生成

Qwen3 Coder 30B A3B Instruct

qwen/qwen3-coder-30b-a3b-instruct

Qwen3-Coder-30B-A3B-Instruct是一款拥有305亿参数的混合专家(MoE)模型,采用128个专家组件(每次前向传播激活8个),专为高级代码生成、仓库级代码理解与智能体工具调用而设计。该模型基于Qwen3架构构建,原生支持256K token的上下文长度(可通过Yarn扩展至100万token),在函数调用、浏览器操作和结构化代码补全等任务中表现卓越。

2025-08-03

输入:¥ 1.5 / M tokens

代码生成

Qwen3 30B A3B Instruct 2507

qwen/qwen3-30b-a3b-instruct-2507

Qwen3-30B-A3B-Instruct-2507是千问团队开发的305亿参数专家混合语言模型,每次推理仅激活33亿参数。该模型采用非思考模式运行,专注于高质量指令遵循、多语言理解和代理工具使用能力。经过指令数据后训练后,在推理(AIME、斑马逻辑)、编程(MultiPL-E、LiveCodeBench)和对齐(IFEval、写作评测)等基准测试中展现出卓越性能。该模型在主观开放任务上显著优于非指令微调版本,同时保持了强劲的事实问答和代码生成能力。

2025-08-01

输入:¥ 1.25 / M tokens

文本生成

GLM 4.5 Air

z-ai/glm-4.5-air

GLM-4.5-Air 是智谱团队推出的旗舰模型系列的轻量化版本,同样专为以智能体为核心的应用场景打造。与 GLM-4.5 相同,该模型采用专家混合架构(MoE),但参数规模更为紧凑。GLM-4.5-Air 同样支持混合推理模式,提供适用于复杂推理与工具使用的"思考模式",以及满足实时交互需求的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。

2025-07-28

输入:¥ 2.5 / M tokens

文本生成

GLM 4.5

z-ai/glm-4.5

GLM-4.5 是智谱团队最新推出的旗舰级基础模型,专为智能体应用打造。GLM-4.5 模型采用专家混合架构(MoE),支持高达 128K tokens 的上下文长度,在推理能力、代码生成和智能体对齐方面实现显著提升。GLM-4.5 提供双模式混合推理:专为复杂推理和工具使用设计的"思考模式",以及针对即时响应优化的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。

2025-07-28

输入:¥ 7.5 / M tokens

文本生成

Qwen3 235B A22B Thinking 2507

qwen/qwen3-235b-a22b-thinking-2507

Qwen3-235B-A22B-Thinking-2507 是一款高性能开放权重专家混合模型(MoE),专为复杂推理任务优化。该模型在前向推理过程中激活2350亿总参数中的220亿参数,原生支持高达262,144个token的上下文长度。此"纯思考"变体增强了结构化逻辑推理、数理科学及长文本生成能力,在AIME、SuperGPQA、LiveCodeBench和MMLU-Redux等基准测试中表现卓越。该模型经过指令微调,在逐步推理、工具使用、智能体工作流和多语言任务方面表现突出。此次发布的版本是Qwen3-235B系列中能力最强的开源变体,在结构化推理用例中超越诸多闭源模型。

2025-07-28

输入:¥ 4 / M tokens

文本生成

Qwen3 Coder

qwen/qwen3-coder

基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。

2025-07-25

输入:¥ 3.6 / M tokens

代码生成

Qwen3 235B A22B Instruct 2507

qwen/qwen3-235b-a22b-2507

Qwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言、指令微调的混合专家(Mixture-of-Experts,MoE)语言模型,每次前向传递激活 22B 个参数(约 220 亿)。它针对通用文本生成进行了优化,包括指令跟随、逻辑推理、数学、代码和工具使用。该模型原生支持 256K 的上下文长度,且不实现“思考模式”。与基础版本相比,2507 版本在知识覆盖、长上下文推理、代码基准测试以及面向开放式任务的对齐方面带来显著提升。在多语言理解、数学推理(例如 AIME、HMMT)以及对齐评估(如 Arena-Hard 和 WritingBench)上表现尤其强劲。

2025-07-24

输入:¥ 1.75 / M tokens

文本生成

Kimi K2

moonshotai/kimi-k2

Kimi K2 Instruct 是由 Moonshot AI 开发的大规模专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达 1 万亿,每次前向计算活跃参数为 320 亿。该模型针对智能体(agentic)能力进行了优化,包括高级工具使用、推理与代码合成。Kimi K2 在广泛的基准测试中表现优异,尤其在编码(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench) 任务上表现突出。Kimi K2 支持最长 128 K tokens 的长上下文推理,并采用了一套新颖的训练栈,其中包含用于稳定大规模 MoE 训练的 MuonClip 优化器。

2025-07-14

输入:¥ 7 / M tokens

文本生成

Deepseek R1 0528 Qwen3 8B

deepseek/deepseek-r1-0528-qwen3-8b

DeepSeek-R1-0528是DeepSeek R1的小幅升级版,通过投入更多算力与更精妙的训练后技巧,将其推理能力推升至媲美O3、Gemini 2.5 Pro等旗舰模型的水平。该版本目前称霸数学、编程与逻辑推理排行榜,展现出思维深度的阶跃式提升。其蒸馏变体DeepSeek-R1-0528-Qwen3-8B将这种思维链能力压缩至80亿参数规模,在AIME 2024测试中较标准Qwen3 8B提升10个百分点,甚至与2350亿参数的"思考"巨量模型表现持平。

2025-06-01

输入:¥ 1 / M tokens

文本生成

DeepSeek Prover V2

deepseek/deepseek-prover-v2

DeepSeek Prover V2 是一个拥有 6710 亿参数的模型,专为 Lean 4 形式化定理证明设计。模型通过由 DeepSeek-V3 驱动的递归定理证明流程收集初始化数据,其冷启动训练流程首先通过引导 DeepSeek-V3 将复杂问题分解为系列子目标,将已解决的子目标证明与 DeepSeek-V3 的逐步推理过程结合,合成为思维链数据,为强化学习建立初始冷启动基础。

2025-05-03

输入:¥ 7.5 / M tokens

文本生成、逻辑与数学

Qwen3 235B A22B

qwen/qwen3-235b-a22b

Qwen3-235B-A22B 是 Qwen 开发的一个专家混合(Mixture-of-Experts,MoE)模型,拥有 2350 亿参数,每次前向计算激活 220 亿参数。它支持在用于复杂推理、数学与代码任务的“思考”模式与用于提高通用会话效率的“非思考”模式之间无缝切换。该模型展现出强大的推理能力、多语种支持(覆盖 100+ 种语言与方言)、高级指令跟随能力以及代理工具调用能力。它原生支持 32K token 的上下文窗口,并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入:¥ 2 / M tokens

文本生成

Qwen3 14B

qwen/qwen3-14b

Qwen3-14B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 14.8B 参数(约 148 亿),旨在同时支持复杂推理与高效对话。它能够在用于数学、编程和逻辑推理等任务的“思考”模式与用于通用会话的“非思考”模式之间无缝切换。该模型经过微调以适应指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入:¥ 1 / M tokens

文本生成

Qwen3 30B A3B

qwen/qwen3-30b-a3b

Qwen3 是 Qwen 大规模语言模型系列的最新一代,结合了密集(dense)与专家混合(Mixture-of-Experts,MoE)架构,擅长推理、多语言支持与高级代理化任务。它能够在用于复杂推理的“思考”模式与用于高效对话的“非思考”模式之间无缝切换,确保多场景下的灵活且高质量表现。Qwen3 在数学、编码、常识推理、创意写作和交互式对话能力上显著超越了 QwQ 与 Qwen2.5 等此前模型。Qwen3-30B-A3B 变体包含 305 亿参数(每次前向计算激活 33 亿)、48 层、128 个专家(每个任务激活 8 个),并通过 YaRN 支持高达 131K token 的上下文,在开源模型中树立了新的标杆。

2025-05-01

输入:¥ 1 / M tokens

文本生成

Qwen3 32B

qwen/qwen3-32b

Qwen3-32B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 32.8B 参数(约 328 亿),针对复杂推理与高效对话进行了优化。它能够在用于数学、编码和逻辑推理等任务的“思考”模式与用于更快速的通用会话的“非思考”模式之间无缝切换。该模型在指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务上表现强劲。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。

2025-05-01

输入:¥ 1.25 / M tokens

文本生成

Qwen3 8B

qwen/qwen3-8b

Qwen3-8B是Qwen3系列中的密集型82亿参数因果语言模型,专为高强度推理任务与高效对话场景打造。该模型支持在数学运算、编程及逻辑推理所需的"思维"模式与通用对话的"非思维"模式间无缝切换,经过精细调优可胜任指令跟随、智能体集成、创意写作以及覆盖100多种语言和方言的多语言应用。该模型原生支持32K token的上下文窗口,通过YaRN扩展技术可进一步提升至131K token容量。

2025-05-01

输入:¥ 0.55 / M tokens

文本生成

Qwen2.5 VL 32B Instruct

qwen/qwen2.5-vl-32b-instruct

Qwen2.5-VL-32B 是一款通过强化学习微调的多模态视觉语言模型,其数学推理能力、结构化输出和视觉问题解决能力显著增强。该模型在视觉分析任务中表现卓越,包括图像中的物体识别、文本解析以及长视频中的精确事件定位。在 MMMU、MathVista 和 VideoMME 等多模态基准测试中展现出顶尖性能,同时在 MMLU 文本理解、数学问题求解和代码生成等基于文本的任务中保持强大的推理能力与输出清晰度。

2025-03-27

输入:¥ 2.5 / M tokens

图片理解

QwQ 32B

qwen/qwq-32b

QwQ 是 Qwen 系列的推理模型。相较于传统的指令微调模型,具备思维与推理能力的 QwQ 能在下游任务(尤其是难题处理)中实现显著增强的性能表现。QwQ-32B 作为中等参数规模的推理模型,能够与 DeepSeek-R1、o1-mini 等顶尖推理模型实现竞争性的性能表现。

2025-03-08

输入:¥ 1.125 / M tokens

文本生成

Qwen2.5 VL 72B Instruct

qwen/qwen2.5-vl-72b-instruct

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。

2025-02-17

输入:¥ 3 / M tokens

图片识别

DeepSeek R1 Distill Qwen 32B

deepseek/deepseek-r1-distill-qwen-32b

DeepSeek R1 Distill Qwen 32B 是基于 Qwen 2.5 32B 蒸馏得到的大语言模型,其训练使用了 DeepSeek R1 的输出数据。模型在多项基准测试中超越 OpenAI 的 o1-mini,创造了密集模型的最新性能纪录。模型通过深度融合 DeepSeek R1 的输出进行精调,实现了与更大规模前沿模型相媲美的竞争性能。

2025-02-01

输入:¥ 1.125 / M tokens

文本生成

Qwen2.5 7B Instruct

qwen/qwen-2.5-7b-instruct

Qwen2.5 7B 是 Qwen 大语言模型系列的最新版本。相较于 Qwen2,Qwen2.5 实现了以下重大升级:1. 通过融合编程与数学领域的专用专家模型,显著扩充知识库并大幅提升代码生成与数学推理能力;2. 在指令遵循、长文本生成(超过8K词元)、结构化数据(如表格)理解与结构化输出(特别是JSON格式)方面实现突破性进展;3. 对系统提示词的多样性具备更强适应性,显著增强聊天机器人的角色扮演与条件设定能力;4. 支持长达128K词元的上下文处理,并可生成最多8K词元的文本;5. 扩展至29种语言的多语言支持,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

2024-10-19

输入:¥ 0.6 / M tokens

文本生成

Qwen2.5 72B Instruct

qwen/qwen-2.5-72b-instruct

Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。

2024-09-19

输入:¥ 2.5 / M tokens

文本生成