就在这个月了,Llama 4终于要来了
去年春天,Meta发布的Llama3大语言模型曾赢得开发者和独立评测者的一致好评。然而时隔近一年,备受期待的继任者Llama4却迟迟未能发布。
据知情人士透露,在至少两次推迟后,Meta计划在本月晚些时候发布这一备受期待的AI模型——但这并非板上钉钉,仍有可能再度延期。
️发布延迟背后:技术性能未达预期
据两位了解情况的人士称,发布推迟的关键原因之一,是该模型在开发过程中的技术基准测试表现未能完全达到Meta的内部预期,尤其在推理和数学任务方面存在短板。
此外,Meta内部也对其模型在模拟人类语音对话方面无法与OpenAI的顶尖水平相媲美。
️技术转向与商业化新探索:拥抱MoE与LlamaX计划
️为了提升Llama4的竞争力,Meta计划在技术路线上做出重要调整。
️媒体援引两位知情人士消息称,至少有一个版本的Llama4预计将采用“混合专家”(MixtureofExperts,MoE)架构,而非Llama系列此前一直坚持的“密集”(Dense)模型。
MoE方法通过将模型划分为多个专注于特定任务的“专家”子网络,在处理用户请求时仅激活相关部分,从而有望在提升性能的同时提高运行效率。DeepSeek及其他多家领先的模型开发者均已采用此技术路线。
值得注意的是,️Meta内部围绕是否从Dense转向MoE的决策,曾经历了一场长达一年多的激烈技术辩论。最终选择拥抱MoE,无疑也受到了DeepSeek等竞争对手成功实践的部分影响。
️在商业化层面,Meta正在积极筹划新策略,以期更有效地将Llama推向企业市场。
媒体援引三位知情人士消息称,公司内部正在深入讨论Meta提供自营API的模式。不过,目前还不清楚该API将依托Meta自有数据中心还是租用云服务商服务器运行。
通过提供自营API,Meta或能效仿OpenAI的模式,向客户提供诸如模型早期访问权限、定制化技术支持等增值服务。
这些讨论是Meta内部代号为"Llama X"项目的一部分,该项目源自首席战略官David Wehner的团队。通过Llama X,Meta还希望招聘工程师、营销人员和销售人员来扩大Llama的企业应用范围。
组织重组与产品困境
为了加快发展步伐,Meta今年2月对其生成式AI团队的技术领导层进行了调整。该团队任命了当时的Messenger负责人Loredana Crisan领导AI产品的产品管理,并更换了工程负责人Ryan Cairns和Ning Li。随后,Meta又任命前混合现实技术副总裁Amir Frenkel为该团队的工程负责人。
AI部门负责人Ahmad Al-Dahle在内部表示,这些变化将使团队"更快、更有效地行动"并帮助"作为一个团队工作"。值得注意的是,Meta的生成式AI团队在过去一年半从约500人急剧扩张到超过1700人,即使CEO扎克伯格近年来一直在压缩公司成本和人员。
然而,产品方面的进展并不顺利。Meta已致力于将其智能眼镜应用Meta View转变为Meta AI的独立应用,希望通过这样的应用更好地展示Meta AI的能力。但近几周,该应用在处理分析性、复杂任务方面表现不佳,特别是在审阅大量文档和撰写微妙文本方面存在困难。
Meta还考虑改变以往的做法,先通过Meta AI发布Llama 4,然后再作为开源软件发布,这与过去同时发布的策略形成对比。这样的变化可能会提升Meta AI的使用数据,但也可能疏远那些赞赏公司开源方式的研究人员和开发者。不过,尚不清楚Meta是否会推进这一计划。
高额投入、不确定回报
对Meta来说,AI领域的投入巨大。公司正在为开发和运行其模型建设数据中心,今年资本支出计划高达650亿美元。更惊人的是,Meta还在讨论一个可能耗资2000亿美元的数据中心项目。
迄今为止,Meta在AI方面的成果喜忧参半。消费者AI方面,Meta AI助手截至今年1月拥有超过7亿月活用户,但其中部分使用被认为是非主动的,公司也尚未推出早在去年春季就有讨论的付费版本。同时,Meta去年还裁撤了一组模仿名人和网红的聊天机器人。在云计算服务商向客户销售Llama方面,该模型未能获得显著吸引力。
尽管面临这些挑战,据一位接近公司的人士透露,Meta依然相信Llama 4将成为行业领先模型。
尽管挑战重重,一位接近Meta的人士透露,公司内部依然坚信Llama4将会是一款行业领先的模型。