13426109659
webmaster@21cto.com

参数量1T,阿里发布“通义最强语言模型”Qwen3-Max”预览版

资讯 0 125 21小时前
图片
阿里巴巴于9月6日在通义千问官网、OpenRouter 上线了 Qwen3-Max-Preview 模型,并称其为通义千问系列中最强大的语言模型
该模型现在可通过 Qwen Chat、阿里云 API、OpenRouter 以及 Hugging Face 的 AnyCoder 工具默认访问。
通义大模型通过官微介绍了这款模型所具备的一些特性。

此次发布的 Qwen3-Max-Preview (Instruct)相较于 2.5 系列,在中英文理解、复杂指令遵循、工具调用等维度实现了显著增强,同时大幅减少了知识幻觉,让模型更智能、更可靠。

图片

据阿里巴巴官方介绍,其参数量达到 1T,并在衡量复杂挑战能力的 Arena-Hard v2 基准测试中“领跑榜单”,在考验推理能力的 AIME25 基准测试中也获得了 80.6 分,展现其强大的逻辑思维。该模型将在处理复杂工作流、进行高质量开放式对话等方面“都将带来全新的体验”。

阿里云采用基于代币的分级定价:

  • 0-32K 代币:每百万输入 0.861 美元,每百万输出 3.441 美元;
  • 32K–128K:投入 143.4 美元/百万,产出 573.5 美元/百万;
  • 128K–252K:投入 2.151 美元/百万,输出 8.602 美元/百万。

这种模型对于较小的任务来说具有成本效益,但对于长期工作负载来说价格会大幅上涨。

闭源是否影响采用


与早期的 Qwen 版本不同,此模型并非开源。访问仅限于 API 和合作伙伴平台。这一选择凸显了阿里巴巴的商业化重点,但可能会减缓其在研究和开源社区的规模化采用。

关键要点


  • 首个万亿参数Qwen模型——Qwen3-Max突破1T参数,成为阿里巴巴迄今为止规模最大、最先进的LLM。
  • 超长上下文处理——支持262K带有缓存的令牌,实现超越大多数商业模型的扩展文档和会话处理。
  • 具有竞争力的基准性能——在推理、编码和一般任务方面优于 Qwen3-235B,并与 Claude Opus 4、Kimi K2 和 Deepseek-V3.1 竞争。
  • 尽管经过设计,但仍能产生推理——尽管没有作为推理模型进行营销,但早期结果显示其在复杂任务上具有结构化的推理能力。
  • 闭源、分层定价模型——可通过基于令牌的定价 API 获得;对于小任务来说经济实惠,但在更高上下文使用下成本高昂,限制了可访问性。


结语


Qwen3-Max-Preview 为商业 LLM 树立了新的规模标杆。其万亿参数设计、262K 上下文长度以及强劲的基准测试结果彰显了阿里巴巴的技术深度。然而,该模型的闭源版本和高昂的阶梯式定价,能否更广泛地普及是存在一些疑问的。

作者:洛逸

评论