浙江大学(朱强):2025年DeepSeek技术溯源及前沿探索报告

2025-03-22ASPCMS社区 - fjmyhfvclm

今天分享的是:浙江大学(朱强):2025年DeepSeek技术溯源及前沿探索报告

报告共计:50页

本文是浙江大学朱强关于DeepSeek技术溯源及前沿探索的报告,主要围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍了大语言模型的发展历程、技术原理和应用前景。

1. 语言模型:语言模型旨在计算词序列是一句话的概率,其基本任务是让计算机理解人类语言,如通过One-hot Encoding、Word Embedding等编码方式实现。技术演化经历了基于统计的N-gram、基于神经网络的LSTM/GRU,再到Transformer。

2. Transformer:2017年提出,其创新的自注意力机制支持并行计算和全局上下文理解,多头注意力能捕捉复杂语义关系,前馈网络、位置编码和层归一化解决了传统模型的局限,成为大模型的技术基座。基于Transformer的大模型通过自监督学习算法,利用海量数据进行预训练。

3. ChatGPT:基于GPT-3.5,通过人类反馈的强化学习进行训练,实现了从语言模型到实用产品的转变,具备翔实回应、拒绝不当问题等能力。GPT-4、GPT-4o等多模态模型进一步拓展了语言模型的能力边界,在逻辑推理、多模态交互等方面表现出色。

4. DeepSeek:通过系统级协同工程创新,打破大语言模型对大算力的依赖。其V3基座模型采用混合专家模型,运用多头潜在注意力机制等优化手段,提升训练效率并降低显存占用。R1系列模型通过强化学习和知识蒸馏,提升推理能力,缩小了开源与闭源模型的差距。

5. 新一代智能体:由Agent和LLM组成,LLM作为智能体的大脑负责逻辑推理,智能体具备任务规划、工具使用和记忆等能力。以“时空型GPT”为决策大脑的多智能体协同系统,可实现时空智能的自主化服务。

大语言模型从基础技术发展到实际应用,再到与智能体的结合,展现出强大的发展潜力,而DeepSeek在提升模型效率和推动开源发展方面具有重要意义,有望为通用人工智能的发展开辟新路径。

以下为报告节选内容

全部评论