Llama 4发布:我看到了DeepSeek的影子
本文来自微信公众号:赛博禅心,作者:金色传说大聪明,题图来自:视觉中国 Llama 4 发布了。(https://huggingface.co/meta-llama) Llama 4 的三款模型 但这次,它没有高调宣称参数量"遥遥领先",而是通过三款模型来重新布局: MoE 大概就是这样 过去,MoE 更多还是"实验室选项",自 DeepSeek 大火后,很多厂商开始尝试将其用于主力模型,比如这次的 Meta。在 Llama 4 中,模型 Scout 配置 16 专 家,而 Maverick 则是 128 专家,推理时都只激活两个,17B的量。 回顾一下,DeepSeek 在 R1 和 V3 中也是类似:671B 总参数,37B 激活,用更可控的计算开销,换来模型能力密度的提升。 一个用、一主力、一教学,不卷彼此,也不试图通吃所有任务。 讲道理,看这个发布的时候,我总隐隐有当时读 DeepSeek V3 技术报告的感觉:拥抱 MoE,拥抱合成数据。 架构转向:MoE 登上主舞台 Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架构。 (关于架构的问题,推 ...