Deepseek R1是AGI的里程碑，中长期利好算力硬件

2025-02-21ASPCMS社区 - fjmyhfvclm

今天分享的是：Deepseek R1是AGI的里程碑，中长期利好算力硬件

报告共计：17页

DeepSeek成果显著，AI发展前景广阔

在AI领域蓬勃发展的当下，DeepSeek取得了一系列突破性成果，为行业发展注入新动力。其研发的Deepseek V3是基于Transformer架构的强大专家混合（MoE）语言模型，拥有671B个参数，每个令牌激活37B参数。在架构层面，创新的负载均衡策略和多标记预测训练目标，有效提升了性能；预训练阶段，FP8混合训练精度训练框架的设计，结合算法、框架和硬件的协同，克服通信瓶颈，降低训练成本，仅用2.664M H800 GPU小时便完成在14.8T tokens上的预训练。后训练时，通过知识提炼，提升了模型的推理性能。

基于Deepseek V3架构的Deepseek R1是集大成之作。其中，DeepSeek-R1-Zero通过大规模强化学习训练，无需监督微调，展现出卓越推理能力，具备自我验证、反射和生成长CoT等功能，标志着研究界的重要里程碑。DeepSeek团队还开源了多个模型，包括从DeepSeek-R1中提炼出的不同参数规模的密集模型，这些蒸馏的小模型在部分测试上性能超越OpenAI o1-mini，充分证明了较大模型推理模式提炼到小模型的可行性和优势。

面对DeepSeek的挑战，OpenAI也积极反击，发布了o3-mini和Deep Research。o3-mini在理解物理世界和编程能力方面大幅提升，在物理模拟和编程任务中表现出色，但定价相对较高。Deep Research则是一个强大的研究代理，能利用推理整合在线资源生成综合报告。

从AI发展阶段来看，虽然在专业领域已有达到超人级别的AI模型，如AlphaFold等，但从通用人工智能层面，目前整体仍处于较低水平，ChatGPT仅处于“涌现级”。然而，AI未来发展空间巨大，人形机器人领域的发展便彰显出AI广阔的应用前景。随着技术的不断进步，推理市场有望快速发展，各类功能加速迭代；训练市场在持续投入算力的基础上，也将衍生新的探索方向。

以下为报告节选内容

报告共计： 17页

中小未来圈，你需要的资料，我这里都有！