AI推理时代，终端侧AI如何释放全新价值？

作者：集小微 3小时前

相关舆情 AI解读生成海报

来源：高通中国 #高通# #AI#

1362

通过蒸馏技术将百亿参数模型压缩至端侧设备可运行的创新，让AI推理成本大幅下降，为终端侧AI的爆发按下加速键。低成本、高灵活性的特性引发了行业对这一技术突破的深度思考，也验证了AI格局即将向大规模推理转变的趋势。

小模型也有“大智慧”

近年来，前沿大模型技术不断取得突破。在训练成本下降、快速推理部署以及针对边缘环境的创新推动下，业内已经催生了大量更智能、更小型、更高效的模型。

借助蒸馏技术，大模型能够通过“教学”将强大的推理能力提炼并迁移到小模型中，将复杂的AI模型简化，在保持高性能的同时，减少计算资源的消耗。这一技术不仅打破了“模型越大越聪明”的固有认知，也让更多人以更低成本享受到了AI的高性能。

下图展示了蒸馏的强大能力。比较Llama 3.3 700亿参数模型和同类DeepSeek R1蒸馏模型的LiveBench平均测试结果，在相同参数规模下，蒸馏能够在推理、编程和数学任务中显著提高性能。

Meta Llama 700亿参数模型和DeepSeek对应蒸馏模型的LiveBench AI基准测试平均结果对比。

来源：LiveBench.ai，2025年2月。

在DeepSeek R1蒸馏版本与其他先进模型的基准测试结果对比中。基于通义千问模型和Llama模型的DeepSeek蒸馏版本展现了诸多明显优势，尤其是在GPQA基准测试中，与GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等先进模型相比，取得了相似或更高的分数。这也进一步反映了在涉及解决复杂问题的深层次、多步骤的推理中，小模型正在接近前沿大模型的质量。

数学和编程基准测试。来源：DeepSeek，2025年1月。

高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉认为，模型规模将持续减小，同时质量将不断改进。这一趋势至关重要，因为这意味着未来所有这些模型都能够在我们口袋里的终端上运行。

多维度发力，领跑AI推理创新时代

如今，许多主流模型系列包括DeepSeek R1、Meta Llama、IBM Granite和Mistral Ministral都推出了小模型版本，且面向特定任务的性能和基准测试都表现出色，从而使此类模型更适合在智能手机、PC和汽车等终端上部署。作为终端侧AI的引领者，高通技术公司凭借面向边缘终端的行业先进硬件和软件解决方案，在推动AI推理时代发展上具有战略优势。

在硬件层面，高通技术公司长期致力于开发定制CPU、NPU、GPU和低功耗子系统，同时拥有封装技术和热设计的技术专长，构成了其行业先进系统级芯片（SoC）产品的基础。通过紧密集成这些核心组件，高通技术公司的平台可在保持电池续航和整体能效表现的同时处理复杂AI任务，这对边缘侧用例至关重要。

软件层面上，高通技术公司还构建了强大的AI软件栈，旨在赋能软件开发者。高通® AI软件栈包括库(libraries)、SDK和优化工具，可简化模型部署并提升性能。开发者可以利用这些资源，面向高通平台高效进行模型适配，缩短AI赋能应用的上市时间。

此外，高通技术公司还与全球伙伴积极合作，构建繁荣开放的AI生态，凭借多年深耕移动产业的影响力、领导力，紧密携手设备厂商、模型厂商、开发者、用户，通过简化在消费和商用产品中集成先进AI特性的过程，不断赋能AI创新，成为加速终端侧AI发展的重要力量。

赋能关键领域，端侧AI释放全新价值

在MWC巴塞罗那期间，高通技术公司也展示了iQOO、努比亚、OPPO、荣耀、小米和一加等中国生态伙伴搭载骁龙® 8至尊版的商用旗舰AI智能手机，包括最新发布的小米15 Ultra，带来基于骁龙平台的终端侧生成式AI的最新应用成果。

骁龙8至尊版为这些先进用例提供了可靠的算力支撑，第二代定制的高通Oryon™ CPU、全新切片架构的高通® Adreno™ GPU和增强的高通® Hexagon™ NPU等这些创新技术将开启终端侧生成式AI新时代——通过直接在终端侧提供个性化的多模态生成式AI，支持语音、情境和图像理解，从而全面增强从生产力到创意任务等各方面的体验。