前几天,阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和一众大模型,但实际表现如何?这篇文章,我们来看看作者的分析。
一、基础介绍
4月29日,在经历了claude 3.7 ,Gemini 2.5 和 GPT 4.1 模型发布之后,通义千问终于正式发布了Qwen3系列模型,凭借仅需 DeepSeek R1 模型三分之一的硬件成本,实现了性能的全面超越,同时追平了全球顶尖的 Gemini 2.5 Pro,同时还搭载了mcp能力。此外,小型 MoE(混合专家模型) 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。