筛选
模型列表
共 151 个模型
GLM 4.5 Air
GLM-4.5-Air 是智谱团队推出的旗舰模型系列的轻量化版本,同样专为以智能体为核心的应用场景打造。与 GLM-4.5 相同,该模型采用专家混合架构(MoE),但参数规模更为紧凑。GLM-4.5-Air 同样支持混合推理模式,提供适用于复杂推理与工具使用的"思考模式",以及满足实时交互需求的"非思考模式"。模型可以通过 `"reasoning": {"enabled": true}` 参数来控制推理行为。
文本生成
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0129 / 千 tokens
Qwen3 Coder
基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。
代码生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.015 / 千 tokens
Qwen3 235B A22B Instruct 2507
Qwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言、指令微调的混合专家(Mixture-of-Experts,MoE)语言模型,每次前向传递激活 22B 个参数(约 220 亿)。它针对通用文本生成进行了优化,包括指令跟随、逻辑推理、数学、代码和工具使用。该模型原生支持 256K 的上下文长度,且不实现“思考模式”。与基础版本相比,2507 版本在知识覆盖、长上下文推理、代码基准测试以及面向开放式任务的对齐方面带来显著提升。在多语言理解、数学推理(例如 AIME、HMMT)以及对齐评估(如 Arena-Hard 和 WritingBench)上表现尤其强劲。
文本生成
输入:¥ 0.00125 / 千 tokens
输出:¥ 0.0075 / 千 tokens
通义千问 Qwen-Turbo
Qwen3系列Turbo模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-Turbo,达到同规模业界SOTA水平。
文本生成
输入:¥ 0.0003 / 千 tokens
输出:¥ 0.002 / 千 tokens
Kimi K2
Kimi K2 Instruct 是由 Moonshot AI 开发的大规模专家混合(Mixture-of-Experts,MoE)语言模型,总参数量达 1 万亿,每次前向计算活跃参数为 320 亿。该模型针对智能体(agentic)能力进行了优化,包括高级工具使用、推理与代码合成。Kimi K2 在广泛的基准测试中表现优异,尤其在编码(LiveCodeBench、SWE-bench)、推理(ZebraLogic、GPQA)和工具使用(Tau2、AceBench) 任务上表现突出。Kimi K2 支持最长 128 K tokens 的长上下文推理,并采用了一套新颖的训练栈,其中包含用于稳定大规模 MoE 训练的 MuonClip 优化器。
文本生成
输入:¥ 0.0065 / 千 tokens
输出:¥ 0.025 / 千 tokens
Hunyuan A13B Instruct
混元-A13B是由腾讯开发的130亿激活参数的专家混合模型,总参数量达800亿,支持通过思维链进行推理。该模型在数学、科学、编程及多轮推理任务中展现出具有竞争力的基准性能,同时通过分组查询注意力技术及量化支持(FP8、GPTQ等)保持高效推理效率。
文本生成
输入:¥ 0.0019 / 千 tokens
输出:¥ 0.0075 / 千 tokens
Baidu ERNIE 4.5 300B A47B
ERNIE-4.5-300B-A47B是百度ERNIE 4.5系列推出的3000亿参数专家混合语言模型,每token激活470亿参数,支持中英文文本生成。该模型采用异构MoE架构与先进路由策略,结合FP8及2比特等量化技术,针对高吞吐量推理与高效扩展进行优化。本版本专精纯语言任务,支持逻辑推理、工具参数调用,并具备13.1万token的超长上下文处理能力,适用于需要高水平推理能力与高吞吐性能的通用大语言模型应用场景。
文本生成
输入:¥ 0.00375 / 千 tokens
输出:¥ 0.01375 / 千 tokens
ERNIE 4.5 VL 424B A47B
ERNIE-4.5-VL-424B-A47B是百度ERNIE 4.5系列的多模态专家混合模型,总参数量达4240亿,每token激活470亿参数。该模型采用异构MoE架构与模态隔离路由机制,通过文本与图像的联合训练,实现了高保真跨模态推理、图像理解及长上下文生成(最高支持13.1万token)。结合SFT、DPO、UPO和RLVR等技术进行微调,支持思维与非思维推理模式。专为中英文视觉语言任务设计,具备高效扩展特性,可在4比特/8比特量化环境下运行。
图片识别
输入:¥ 0.006 / 千 tokens
输出:¥ 0.0175 / 千 tokens
Hunyuan a13b
腾讯混元A13B是一款基于细粒度混合专家(MoE)架构的创新开源大语言模型。该模型专为高效与可扩展性而设计,能够以较低的计算开销实现前沿性能,使其成为高级推理与通用应用的理想选择,尤其在资源受限的环境中表现出色。
文本生成
输入:¥ 0.0006 / 千 tokens
输出:¥ 0.0025 / 千 tokens
Hunyuan-T1-Vision 视觉深度思考大模型
混元多模态理解深度思考模型,支持多模态原生长思维链,擅长处理各种图片推理场景,在理科难题上相比快思考模型全面提升。
图片理解、深度思考
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01015 / 千 tokens
Hunyuan Turbos Vision 20250619
Hunyuan Turbos Vision 采用混元 MOE 结构,是混元最新多模态模型,支持多语种作答,中英文能力均衡。
图片识别
输入:¥ 0.0035 / 千 tokens
输出:¥ 0.01015 / 千 tokens
Doubao Seed 1.6 多模态模型
Doubao-Seed-1.6 全新多模态模型,同时支持auto/thinking/non-thinking三种思考模式。 non-thinking模式下,模型效果对比Doubao-1.5-pro/250115大幅提升。支持 256k 上下文窗口,输出长度支持最大 64k tokens。
多模态、深度思考、图片理解
Doubao Seed 1.6 Flash 多模态模型
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 64k tokens。
多模态、深度思考、图片理解
Qwen Text Embedding V4
Qwen Text Embedding V4 是通义实验室基于 Qwen3 训练的多语言文本统一向量模型,相较 V3 版本在文本检索、聚类、分类性能大幅提升;在 MTEB 多语言、中英、Code 检索等评测任务上效果提升 15%~40%;支持 64~2048 维用户自定义向量维度。
文本向量化
输入:¥ 0.0007 / 千 tokens
输出:¥ 0 / 千 tokens
DeepSeek R1 0528
DeepSeek R1 0528 是深度求索(DeepSeek)在2025年5月28日发布的一次“小版本升级”。这次升级虽然低调,但通过在后训练阶段投入更多算力来深化模型的“思维链”,实现了推理、编程、写作等核心能力的显著提升,综合性能已接近国际顶尖模型(如 OpenAI o3 和 Gemini 2.5 Pro)的水平。
文本生成、深度思考
输入:¥ 0.005 / 千 tokens
输出:¥ 0.02 / 千 tokens
Doubao Embedding Large Text 250515
Doubao Embedding Large Text 250515 相比 Doubao Embedding 拥有更大的模型参数量,中英文 Retrieval 效果领先。主要面向向量检索的使用场景,支持中、英双语。
文本向量化
输入:¥ 0.0009 / 千 tokens
输出:¥ 0 / 千 tokens
Qwen3 14B
Qwen3-14B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 14.8B 参数(约 148 亿),旨在同时支持复杂推理与高效对话。它能够在用于数学、编程和逻辑推理等任务的“思考”模式与用于通用会话的“非思考”模式之间无缝切换。该模型经过微调以适应指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.0008 / 千 tokens
输出:¥ 0.003 / 千 tokens
Qwen3 235B A22B
Qwen3-235B-A22B 是 Qwen 开发的一个专家混合(Mixture-of-Experts,MoE)模型,拥有 2350 亿参数,每次前向计算激活 220 亿参数。它支持在用于复杂推理、数学与代码任务的“思考”模式与用于提高通用会话效率的“非思考”模式之间无缝切换。该模型展现出强大的推理能力、多语种支持(覆盖 100+ 种语言与方言)、高级指令跟随能力以及代理工具调用能力。它原生支持 32K token 的上下文窗口,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.0025 / 千 tokens
输出:¥ 0.00675 / 千 tokens
Qwen3 30B A3B
Qwen3 是 Qwen 大规模语言模型系列的最新一代,结合了密集(dense)与专家混合(Mixture-of-Experts,MoE)架构,擅长推理、多语言支持与高级代理化任务。它能够在用于复杂推理的“思考”模式与用于高效对话的“非思考”模式之间无缝切换,确保多场景下的灵活且高质量表现。Qwen3 在数学、编码、常识推理、创意写作和交互式对话能力上显著超越了 QwQ 与 Qwen2.5 等此前模型。Qwen3-30B-A3B 变体包含 305 亿参数(每次前向计算激活 33 亿)、48 层、128 个专家(每个任务激活 8 个),并通过 YaRN 支持高达 131K token 的上下文,在开源模型中树立了新的标杆。
文本生成
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.00375 / 千 tokens
Qwen3 32B
Qwen3-32B 是 Qwen3 系列中的一个密集型自回归语言模型,拥有 32.8B 参数(约 328 亿),针对复杂推理与高效对话进行了优化。它能够在用于数学、编码和逻辑推理等任务的“思考”模式与用于更快速的通用会话的“非思考”模式之间无缝切换。该模型在指令跟随、代理工具使用、创意写作以及覆盖 100+ 种语言与方言的多语种任务上表现强劲。它原生支持 32K token 的上下文,并可通过基于 YaRN 的伸缩扩展至 131K token。
文本生成
输入:¥ 0.0012 / 千 tokens
输出:¥ 0.0045 / 千 tokens