云天励飞携“1001计划”,剑指“百亿Token1分钱”目标

来源:爱集微 #云天励飞# #边缘算力# #集微大会#
889

伴随人工智能应用生态持续演进,大模型正从传统对话交互加速迈向智能Agent新阶段。这类应用需承接超长上下文、高频工具调用与复杂任务调度,深度联动各类外部系统与数据资源。这意味着行业算力需求增长重心已然转变,不再侧重更大参数模型训练,而是集中于推理频次攀升、任务链路延伸与在线服务扩容。

换言之,决定大模型能否真正广泛赋能千行百业的关键所在,正逐渐从“能否训练出更大的模型”转向“能否以可承受的成本,稳定提供大规模的推理服务”。

携“1001计划”推动行业降本

云天励飞作为中国领先的人工智能公司,长期专注于AI推理芯片的研发设计、商业化以及整个生态链的发展。5月17日,云天励飞上海子公司浦云天芯正式揭牌,旨在算力高地驱动国产推理成本革新。活动现场重点举行了“1001计划”联合倡议签署仪式,云天励飞、浦云天芯等近30家产业链相关企业和单位参与签署倡议。

“1001计划”是云天励飞围绕AI推理成本持续优化提出的长期愿景,即推动“百亿Token1分钱”目标的逐步实现。云天励飞希望通过联合产业链上下游合作伙伴,在芯片、模型、软件栈、算力基础设施和应用生态等环节加强协同探索,共同推动国产AI生态建设,持续降低AI应用成本,让人工智能更广泛地服务产业发展和社会创新。

作为云天励飞在上海布局的重要载体,浦云天芯将围绕AI大算力推理芯片研发、技术创新、人才集聚和产业协同等方向开展工作。

在今年2月举行的“大算力芯片战略前瞻会”上,云天励飞提出“训练追赶、推理超车”的战略方向,首次对外公布未来三年的大算力AI推理芯片战略布局,致力于持续降低百万Token的成本,同时发布了基于“PD分离”思路的芯片路线图:力争实现百万Tokens推理成本降低100倍以上的目标,推动AI从技术尝鲜走向普惠生产力。

所谓“PD分离”架构,是云天励飞基于对大模型推理计算特征的理解,按照“PD分离”的系统架构规划两类大算力芯片。其中P芯片(Prefill)面向计算密集型需求设计,满足Prefill阶段的高算力要求;D芯片(Decode)面向访存密集型需求设计,满足Decode阶段的高带宽需求。而在一个包含1024颗芯片的超节点内,P芯片与D芯片可实现有效组合,以满足大模型云推理的集群化部署需求。

在致力于持续降低百万Token成本同时,云天励飞的目标是通过下一代芯片实现“百万 Tokens 一分钱”。未来三年,公司希望将成本进一步降至“百万 Tokens 0.1分钱”,以加速大模型应用的规模化落地。


GPNPU架构支撑三代芯片规划

为推进大模型降本和规模化落地的目标愿景,云天励飞未来三年规划了三代芯片产品:2026年,打造第一代超节点P芯片,面向百万级长上下文场景进行Prefill推理优化,算力水平对标Hopper架构;2027年,研发第一代超节点D芯片,聚焦Decode推理的低时延目标,算力水平对标Blackwell架构;2028年,推出第二代超节点D芯片,面向毫秒级推理时延目标进一步优化,带动Prefill与Decode性能提升,算力层面有望看齐下一代Rubin芯片。

进一步来看,上述路线图的核心支撑是云天励飞的GPNPU架构。该架构通过“通用计算+高效NPU+3D堆叠”的架构,把GPU的灵活性、NPU的高能效和近存计算的数据供给能力结合起来,使算力不再只是峰值堆叠,而是围绕推理SLA进行系统级优化。

据了解,云天励飞在研新一代GPNPU四大技术亮点:第一,GPGPU级通用编程能力:GPNPU架构强调对主流CUDA等生态的兼容与迁移支持,以降低客户模型部署与迁移门槛。第二,极致能效的NPU内核:围绕推理效率与能效比进行深度优化,提升推理侧性价比。第三,引入3D堆叠存储架构:获得更高带宽与更低访问时延。第四,算力积木架构:以“算力积木”架构利用下一代芯片构建机架级Scale-up超节点,以满足万亿级乃至十万亿级MoE架构大模型的推理需求。

在持续推动技术创新的同时,云天励飞的算力产品也在加速商业化落地。3月12日,云天励飞成功中标湛江AI推理千卡集群项目,将推动DeepSeek等国产大模型在相关应用场景中的适配与部署。该项目算力集群将分三期建设,其中一期项目将部署云天励飞X6000推理加速卡,未来将率先搭载公司最新一代芯片产品,能够在实际应用场景中大幅提升大模型的推理效率,并有效降低整体推理成本,为区域人工智能产业发展提供坚实的算力支撑。

目前,云天励飞现有商业化芯片为DeepEdge系列芯片,DeepEdge10选择基于国内自主可控的14nm工艺,采用了基于D2D(DietoDie)互联的Chiplet先进封装架构,可实现单Die16T算力,单芯片128T,一张加速卡256T的推理架构,产品主要为迎接边缘端侧发展。DeepEdge10芯片系列可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类不同架构的主流模型,并在机器人、边缘网关、服务器等领域实现商业化应用。

例如在DeepSeekR1发布后,云天励飞成为首批完成适配的国产芯片企业,目前也在积极推进DeepSeekV4适配工作,包括其GPNPU架构与IFWA智能融合软件栈已完成DeepSeek-V4系列模型关键机制适配验证。未来,公司旗下的AI推理加速卡将全面承载DeepSeek大模型能力,赋能千行百业。

以全栈方案筑基算力突围

整体上,云天励飞的产品战略以自研芯片及算法赋能的全栈式解决方案为核心,满足端边云推理的需求,服务企业级、消费级和行业级三大类应用场景。

通过对应用场景及算法研发的深度理解,云天励飞使用协同设计的指令集、芯片架构及工具链打造出优化芯片,包括基于IFIC底座开发出NPU产品Nova、AI推理芯片(包括主要产品DeepEye及DeepEdge以及主要在研产品DeepVerse和DeepXBot)及AI推理芯片运行的Hy3CAN硬件使能工具及IFIE软件平台、IFMind大模型(能够进行视觉、文本和语言分析)。

这一全链路技术共同构成了云天励飞的产品及服务关键基础和核心竞争力,将更适合各行业AI推理应用,为市场提供极具竞争力的算力选择,同时推动公司业绩快速发展。

财务数据显示,得益于AI算力的爆发和端侧AI行业迅速发展,云天励飞2025年实现营业总收入13.39亿元,同比增长45.99%,归属于上市公司股东的净利润-4.22亿元,较2024年减亏1.57亿元;经营活动产生的现金流量净额为2.66亿元,同比转正。2026年第一季度实现营业收入3.12亿元,同比增长17.97%,归属于上市公司股东的净利润-1.34亿元,同比增亏;经营活动产生的现金流量净额为0.93亿元,同比转正。

同时,云天励飞研发费用增加明显,2025年研发费用为4.45亿元,同比增加11.4%,2026年第一季度研发费用为1.4亿元,同比增加67.04%。这主要系主要系研发人员薪酬、股份支付费用及研发直接投入等项目支出上升所致。


众所周知,算力芯片是典型的高固定成本行业,NPU推理赛道的热度已传导至云天励飞的营收端,推动其规模实现快速扩张,成本与费用结构持续优化,但在行业技术快速迭代、市场竞争激烈的背景下,云天励飞仍需维持高强度的研发投入与市场拓展,未来通过产品持续放量与迭代才能让营收增长跑赢研发支出,进而逐步实现经营杠杆由负转正。

值得提及的是,被誉为中国半导体产业“风向标”的集微大会将于5月27日至29日在上海举办,通过聚焦AI赋能、端侧AI、先进封装、EDA/IP、存储及产业投资等前沿领域,云集众多上市公司全景展示核心技术实力,汇聚全球资源,共筑产业新生态。

作为大会核心论坛之一,“端侧AI峰会”将于5月28日同步盛大启幕。届时,云天励飞边缘芯片规划总监张福林将发表名为“全链路技术突围,边缘算力筑基一云天励飞边缘芯片实战与生态布局”的主题演讲,深度拆解边缘算力发展痛点与突破路径,分享企业在边缘芯片领域的技术研发成果、落地应用实战经验,同时阐述整体产业布局思路与生态共建规划。

责编: 爱集微
来源:爱集微 #云天励飞# #边缘算力# #集微大会#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...