领先的人工智能公司,包括OpenAI、微软和Meta,正在全球范围内竞相采用一种名为“蒸馏”的技术,以创建对消费者和企业来说更便宜的AI模型。
在中国的DeepSeek利用该技术基于竞争对手Meta和阿里巴巴发布的开源系统构建强大高效的人工智能模型后,该技术引起了广泛关注。这一突破动摇了人们对硅谷人工智能领导地位的信心,致使华尔街投资者让美国大型科技股的市值蒸发了数十亿美元。
通过蒸馏,公司使用一个大型语言模型(被称为“教师”模型)——生成句子中的下一个可能单词。教师模型生成数据,然后训练一个较小的“学生”模型,帮助快速将大型模型的知识和预测转移到小型模型上。
尽管蒸馏技术已经广泛使用多年,但最近的进步使行业专家相信,这一流程将越来越有利于寻求成本效益高的方法来构建基于该技术的应用的初创企业。
“蒸馏非常神奇,”OpenAI平台产品负责人Olivier Godement表示。“这个过程本质上是采用一个非常大的智能前沿模型,用来教导一个较小的模型……在执行特定任务上非常擅长,而且成本极低、速度极快。”
像OpenAI的GPT-4、谷歌的Gemini和Meta的Llama这样的大型语言模型,需要大量数据和计算能力来开发和维护。尽管这些公司尚未透露训练大型模型的精确成本,但很可能达到数亿美元。
得益于蒸馏技术,开发者和企业可以以较低的价格使用这些模型的功能,从而应用开发者可以在笔记本电脑和智能手机等设备上快速运行AI模型。
开发者可以使用OpenAI的平台进行蒸馏,从支撑ChatGPT等产品的大型语言模型中学习。OpenAI的最大支持者微软,在向该公司投资近140亿美元后,使用GPT-4蒸馏其小型语言模型家族Phi,作为商业合作的一部分。
然而,这家总部位于旧金山的初创公司表示,它认为DeepSeek蒸馏了OpenAI的模型来训练其竞争对手,这一举动违反了服务条款。DeepSeek尚未对此说法发表评论。
尽管蒸馏可以用来创建高性能模型,但专家们补充说,这些模型的能力更为有限。
“蒸馏呈现了一个有趣的权衡;如果你让模型变小,你不可避免地会降低模型的能力,”微软研究院的Ahmed Awadallah表示,一个蒸馏模型可以被设计成非常擅长总结电子邮件,“但它真的不适合其他任何事情。”
IBM研究院AI模型副总裁David Cox表示,大多数企业不需要一个庞大的模型来运行他们的产品,蒸馏模型已足够强大,可以用于客服聊天机器人或在手机等小型设备上运行。
“如果可以降低成本,并且达到想要的性能,几乎没有理由不这么做,”他补充道。
这对许多领先AI公司的商业模式构成了挑战。即使开发者使用来自OpenAI等公司的蒸馏模型,它们的运行成本也要低得多,创建成本也更低,因此产生的收入也更少。像OpenAI这样的模型制造商通常对使用蒸馏模型收费较低,因为它们需要较少的计算负载。
然而,OpenAI的Godement认为,大型语言模型仍将用于“高智能和高风险任务”,在这些任务中,“企业愿意为高水平的准确性和可靠性支付更多”。他补充说,大型模型也将用于发现新的能力,然后可以将其蒸馏到更小的模型中。
“OpenAI长期以来一直试图防止蒸馏,但很难完全避免,”Contextual AI的首席执行官Douwe Kiela表示,该公司是一家为企业构建信息检索工具的初创公司。
蒸馏技术也是开源模型倡导者的胜利,在这种模式下,技术被免费提供给开发者进行构建。DeepSeek也将其近期模型向开发者开放。
“我们将使用(蒸馏技术)并将其立即应用到我们的产品中,”Meta的首席AI科学家Yann LeCun表示。“这就是开源的全部理念。只要这些流程是开放的,你就能从每个人和其他人的进步中受益。”
蒸馏技术还意味着,模型制造商可以花费数十亿美元来提升AI系统的能力,但仍然面临竞争对手的快速赶超,正如DeepSeek最近的发布所展示的那样。当大型语言模型的能力在几个月内就能被复制时,这就引发了关于在构建大型语言模型方面的先发优势的疑问。
“在一个变化如此迅速的世界里……你实际上可能花费大量资金,艰难地去做这件事,然后其他所有人紧随其后。”IBM的Cox表示,“所以这是一个有趣且复杂的商业格局。”