开年以来,AI推理模型Deepseek R1的问世,引起行业广泛关注,其性能媲美甚至超越先进的同类模型,颠覆了对于AI发展的传统认知。
Deepseek带给业界的震撼之一,便是随着模型规模的缩小,模型的质量并没有下降反而得到了提升。大量的测试结果表明,如今在终端上运行的AI推理模型已经能够具有非常出色的表现,AI推理和处理正在全面向终端侧迁移。而伴随新模型在终端侧进行,将加速扩大边缘侧芯片的规模化扩展,也将带来广泛的对此类芯片的市场需求。
作为边缘AI的市场领导者,高通日前发布了边缘AI白皮书《AI变革正在推动终端侧推理创新》,探讨了生成式AI模型的激增和演进如何改变AI格局并释放价值。高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)接受了集微网等媒体的采访,分享了对于生成式AI模型的技术发展趋势,带来的影响,以及高通在助力AI向边缘落地过程中所进行的创新实践。
AI模型的四点趋势
Deepseek的出现,反应出终端侧运行AI模型在质量、性能和效率等方面显著提升的几点趋势。
一是像deepseek这种当前领先的AI小模型已拥有十分强悍的性能。蒸馏和先进的AI网络架构等技术,能够在不影响精度、质量的情况下,简化开发流程,让新模型的表现已经超越一年前推出的更大参数的云端大模型。
蒸馏作为开发高效小模型的一项关键技术,能够让大模型“教学”小模型,在保持准确性的同时迁移知识。正是由于蒸馏技术的使用促使小型基础模型激增,且在调优后在面向某些特定任务时,呈现出优于大模型的表现。
Llama 3.3 700亿参数模型和同类DeepSeek R1蒸馏模型的LiveBench平均测试结果显示,在相同参数规模下,蒸馏能够在推理、编程和数学任务中显著提高性能。
得益于蒸馏技术,小模型正在接近大模型的质量。DeepSeek R1蒸馏版本与其他领先模型的基准测试结果对比。基于通义千问模型和Llama模型的DeepSeek蒸馏版本展现了诸多明显优势,尤其是在GPQA基准测试中,与GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等先进模型相比,取得了相似或更高的分数。GPQA是一个关键评估指标,因其涉及解决复杂问题的深层次、多步骤的推理,这通常对许多模型颇具挑战性。
二是模型的参数规模正在快速缩小。先进的量化、压缩和剪枝技术,有助于使开发者能够在不对准确性产生实质影响的情况下,缩小模型参数规模、降低功耗。
这些技术进步推动了高质量生成式AI模型的激增。根据Epoch AI整理的数据,在2024年发布的大规模AI模型中,超过75%的模型参数在千亿规模以下。
如今,包括DeepSeek R1、Meta Llama、IBM Granite和Mistral Ministral等许多主流模型系列都推出了小模型版本,且面向特定任务的性能和基准测试都表现出色。
将大型基础模型缩减为更小、更高效的版本,不仅能实现更快的推理速度、更少的内存占用和更低的功耗,同时可以保持较高的性能水平,从而使此类模型适合在智能手机、PC和汽车等终端上部署。
三是通过高性能小模型和蒸馏技术,以及显著推动AI模型数量的激增,使得开发者能够在边缘侧打造更丰富的应用,实现更多AI商业应用的规模化扩展。高质量AI模型的数量迅速激增,文本摘要,编程助手和实时翻译等AI应用在智能手机等终端上普及,让AI能够支持跨边缘侧规模化部署的商用应用。
四是由于越来越多的个性化多模态模型的出现,可以打造个性化的多模态AI智能体,极大简化交互,高效地跨越各种应用完成任务,从这个角度而言,AI也正在成为新的UI。简单而言,未来的手机里可能只有一个应用,就是AI智能体。
边缘AI带来终端机遇
马德嘉指出,从全局来看,AI进入了一个新的发展阶段,尽管模型训练、聚合仍将在云端进行,但同时模型推理将在终端进行,带来卓越的性能、隐私性及安全性,同时大幅度降低时延,也就是我们所称的即时性。此外,面向消费者和企业,这些模型和用户体验也可以实现个性化。
“因此行业关注的焦点已不再是模型本身,而是演进到终端上的应用发展。随着终端侧可以运行越来越多高质量的AI模型,越来越多的AI应用和用例开始涌现。AI正在重新定义所有终端的用户界面,这也意味着,AI正在成为终端侧新的UI。”马德嘉说。
AI成为新的UI,这种交互上的革命性变化,是AI在边缘侧落地所带来的显著且重要的变化之一。
从芯片的角度而言,AI的出现使得芯片设计、架构、性能、功耗等发生一系列变化。异构计算的方式被用来实现对于AI算力上的支持。同时,一些设计、验证、优化等环节,速度和效果也被AI大大优化。
从终端侧看,由于生成式AI模型的变化,边缘AI所需要的推理能力的提升,终端形态也将出现改变。
比如,此前高通技术公司连接、宽带和网络(CBN)事业群总经理Rahul Patel在接受集微网采访时就表示,以传统Wi-Fi网关为例,在未来的AI网关进行数据的后处理,能够大大减少延迟、降低成本,提升安全性、保护隐私,显著提升智能家居场景的体验。而未来的AI网关会以某种“集成盒”的形式出现,不再是单一芯片,而是集成了多芯片、多个模组,以网关的形式销售,跟目前常规的网关产品形态大体相似,但已具备了支持AI推理的计算能力。
再比如手机内存方面,如今的旗舰智能手机运行内存配置一般在12GB或以上,这已经足够支持很多模型高效运行。而针对配置低一些的智能手机层级,则需要考量需要运行的模型参数规模。
马德嘉认为,随着模型规模不断地下降,日后10-20亿参数规模的模型将会占用更少的运行内存,更好地适配8-12GB内存设置的终端。
“当然边缘终端不仅有智能手机,还有PC、平板电脑、汽车、XR以及面向消费者和企业的IoT设备,他们对运行内存的需求也各有不同。我们相信模型参数规模的下降会推动降低模型对设备内存的要求,高通在处理模型终端侧运行的内存问题方面也有着丰富的技术经验。”马德嘉说。
赋能开发者缩短周期
作为在AI领域深耕多年的芯片厂商,高通一直在引领并利用从AI训练向大模型推理转型,以及AI计算处理从云端向边缘扩展。凭借面向边缘终端行业的领先硬件和软件解决方案,相继将生成式AI大模型率先引入手机、PC等终端,助力推动生成式AI终端普及,也因此赢得了在推动AI推理时代发展上的先发优势。
首先,高通长期致力于开发定制CPU,GPU,NPU和低功耗子系统,同时拥有封装技术和热设计的技术专长,构成了其行业领先的系统级芯片(SoC)产品的基础。这些SoC能够直接在终端侧提供高性能,高能效的AI推理。通过紧密集成这些核心组件,高通的平台在保持电池续航和整体能效表现的同时,能够处理复杂AI任务,这对边缘侧用例至关重要。
其次,为了在平台上充分释放AI潜能,高通构建了强大的AI软件栈,旨在赋能开发者。高通AI软件栈包括库、SDK和优化工具,可以简化模型部署并提升性能。开发者可以利用这些资源,面向高通平台的不同类型的边缘终端进行模型部署和适配,并提供工具予以支持,赋能开发者在边缘侧加速采用AI智能体和应用,也大大缩短了AI赋能应用的上市时间。
第三,去年MWC期间,高通宣布推出AI Hub。它能够帮助开发者选择相应平台和开发模型、编写应用,最后在不同类型的移动终端上进行部署。AI Hub支持主流大语言模型和多模态大模型,让开发者可在搭载高通平台的终端上部署、优化和管理推理服务。借助预优化模型库和支持定制模型优化与集成等特性,高通赋能加速开发周期,同时增强了与广泛AI生态的兼容性。
具体而言,开发者仅需要简单几步的操作:
1、选择模型,如今的高通AI Hub已经变得更加多元化。开发者可以选择现有的模型,或引入自主模型又或基于开发者的数据创建模型。
2、选择任意框架和runtime,在云端设备场(device farm)的设备上实时运行并测试AI应用。
3、使用工具商业化部署其应用。
对于众多边缘侧AI开发者而言,高通AI Hub提供了一个在高通和骁龙平台进行开发部署的一站式解决方案。
据马德嘉介绍,发布一年以来,目前已有超过1500家企业在使用高通AI Hub。
“我们与生态系统中的各类企业展开合作,其中包括海量的模型厂商,比如Meta、Allam、OpenAI、Tech Mahindra、IBM、Mistral、G42等。与此同时,我们也与许多服务和软件提供商合作,如AWS、dataloop、IBM Watsonx、Nota AI等。通过这些持续的努力,高通AI Hub在能够运行的模型数量、支持的模型厂商数量和整个生态系统的合作方面取得了长足的进步。”马德嘉告诉集微网。
高通:全方位覆盖边缘AI
高通的终端AI几乎覆盖所有关键边缘细分领域。
高通通过将CPU、GPU、NPU集成到终端设备中,实现了跨智能手机,PC,汽车和工业物联网领域的高性能,高能效AI推理,为各行业带来了高性能,经济实惠,快速响应和注重隐私的变革性AI体验。
在手机领域,当前的旗舰平台骁龙8至尊版,已经能够实现支持多模态生成式AI模型和AI智能体在手机上运行。在PC领域,骁龙X系列采用业界领先的具有45 TOPS算力的NPU,定义并引领了AI PC的创新浪潮。在汽车领域,数字底盘方案中在情景感知和智能座舱系统中使用终端AI,先进的摄像头、生物识别、环境传感器以及先进的多模态AI网络。针对自动驾驶和辅助驾驶系统,高通技术公司开发了端到端架构,利用大规模训练数据集,基于真实世界数据和AI增强数据的快速再训练、OTA更新以及包括车内多模态AI模型和因果推理在内的先进软件栈,应对现代自动驾驶和辅助驾驶的复杂性。
在工业物联网方面,近期高通推出了Qualcomm AI本地设备解决方案和Qualcomm AI推理套件。边缘AI方案让敏感客户数据,调优模型和推理负载能够保留在本地,增强隐私性,可控性,能效和低延迟。这对于AI赋能的业务应用至关重要,比如智能多语言搜索,定制AI助手和智能体,代码生成以及用于用户安全,安防和现场监控的计算机视觉。
在网络侧,高通已经推出AI赋能的Wi-Fi联网平台——A7 Elite专业联网平台。该解决方案集成wifi7和边缘,让接入点和路由器可以代表网络中的网联终端运行生成式AI推理。支持安全,能源管理,虚拟助手和健康监测等领域的创新应用,通过在网管处理数据,从而增强隐私性和实时响应。该联网平台有望将Wi-Fi路由器,Mesh系统,宽带网管和接入点转变为家庭和企业内部私有,本地且基于AI的小型服务器。
行业看来,凭借高能效芯片设计,先进AI软件栈和面向边缘应用的全面开发者支持等技术专长,高通拥有引领边缘AI加速落地的独特优势,也将在这波AI浪潮的变革中获益。