Deepseek R1是AGI的里程碑,中长期利好算力硬件

2025-02-21ASPCMS社区 - fjmyhfvclm

今天分享的是:Deepseek R1是AGI的里程碑,中长期利好算力硬件

报告共计:17页

DeepSeek成果显著,AI发展前景广阔

在AI领域蓬勃发展的当下,DeepSeek取得了一系列突破性成果,为行业发展注入新动力。其研发的Deepseek V3是基于Transformer架构的强大专家混合(MoE)语言模型,拥有671B个参数,每个令牌激活37B参数。在架构层面,创新的负载均衡策略和多标记预测训练目标,有效提升了性能;预训练阶段,FP8混合训练精度训练框架的设计,结合算法、框架和硬件的协同,克服通信瓶颈,降低训练成本,仅用2.664M H800 GPU小时便完成在14.8T tokens上的预训练。后训练时,通过知识提炼,提升了模型的推理性能 。

基于Deepseek V3架构的Deepseek R1是集大成之作。其中,DeepSeek-R1-Zero通过大规模强化学习训练,无需监督微调,展现出卓越推理能力,具备自我验证、反射和生成长CoT等功能,标志着研究界的重要里程碑。DeepSeek团队还开源了多个模型,包括从DeepSeek-R1中提炼出的不同参数规模的密集模型,这些蒸馏的小模型在部分测试上性能超越OpenAI o1-mini,充分证明了较大模型推理模式提炼到小模型的可行性和优势。

面对DeepSeek的挑战,OpenAI也积极反击,发布了o3-mini和Deep Research。o3-mini在理解物理世界和编程能力方面大幅提升,在物理模拟和编程任务中表现出色,但定价相对较高。Deep Research则是一个强大的研究代理,能利用推理整合在线资源生成综合报告。

从AI发展阶段来看,虽然在专业领域已有达到超人级别的AI模型,如AlphaFold等,但从通用人工智能层面,目前整体仍处于较低水平,ChatGPT仅处于“涌现级”。然而,AI未来发展空间巨大,人形机器人领域的发展便彰显出AI广阔的应用前景。随着技术的不断进步,推理市场有望快速发展,各类功能加速迭代;训练市场在持续投入算力的基础上,也将衍生新的探索方向。

以下为报告节选内容

报告共计: 17页

中小未来圈,你需要的资料,我这里都有!

全部评论