DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
据Counterpoint Research,Grok-3展现了无妥协的规模扩张——约200,000块NVIDIA H100显卡追求前沿 性能提升。而DeepSeek-R1仅用少量计算资源就实现了相近的性能,这表明创新的架构设计和数据策展 能够与蛮力计算相抗衡。 效率正成为一种趋势性策略,而非限制条件。DeepSeek的成功重新定义了AI扩展方式的讨论。我们正 在进入这样一个阶段:算法设计、混合专家模型(MoE)和强化学习不仅是提升效率的技巧,更是实现计 算密集型性能的战略杠杆。 下一个前沿是投资回报率(ROI)导向的规模扩展。Grok-3揭示了纯计算投入的边际收益递减现象。构建 前沿AI模型的未来将从"谁能扩展更多"转向"谁能扩展更好"。大多数实验室都需要将目标明确的规模扩 展与激进的模型优化相结合。 自今年二月起,DeepSeek便因其开源旗舰级推理模型DeepSeek-R1而引发全球瞩目——该模型性能堪比 全球前沿推理模型。其独特价值不仅体现在卓越的性能表现,更在于仅使用约2000块NVIDIA H800GPU就完成了训练(H800是H100的缩减版出口合规替代方案),这一成就堪称效率优化的典范。 几天 ...