DeepSeek自2024年底以来相继发布了开源大语言模型V3和R1,并在多项评测中表现优于主流开源模型,并极具成本优势,显著降低了对硬件资源的需求。1月27日,Deepseek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜,并在美国地区下载榜上超越了ChatGPT。
根据开发方深度求索的技术报告,DeepSeek-V3的训练仅耗费266.4万H800 GPU小时,总成本仅为557.6万美元。Antropic的CEO达里奥·阿莫迪曾表示,GPT-4o的模型训练成本约为1亿美元,目前正在开发的AI大模型训练成本可能高达10亿美元。
与此同时,DeepSeek的API调用成本相对较低,每百万个token的价格仅为16元,与此对比,GPTo1-2024-12-17模型API定价,每百万输出tokens约为435元,这对于预算有限的企业和个人开发者都极具吸引力。
相比OpenAI动辄数亿美金训练成本的模型,毫无疑问,DeepSeek具备极大的成本优势。
Meta首席AI科学家Yann Lecun表示,“DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。”,OpenAI首席执行官Sam Altman首次承认OpenAI的闭源策略“站在了历史错误的一边”。
里昂发布研报表示,中国内地人工智能公司深度求索(DeepSeek)公布大模型,其AI模型训练是基于业界开源AI演算法,并展现良好的效能和相对较低的训练成本。
但该行认为,美国超大规模企业的人工智能资本支出,可能不会因为DeepSeek的影响而下降,因DeepSeek的人工智能模型训练总成本可能被低估,较低的运算成本也可能增加人工智能应用和推理需求,这将进一步增加运算能力需求,料行业资本支出应该持续。
算力需求增加,AI设备应用加速
业内人士分析认为,DeepSeek推理算力成本加速下降,在一定程度上将会提高使用资源的效率,令资源消耗速度上升,因而tokens调用成本降低反而会催生其整体消耗量的提升。
虽然未来tokens或更为普惠,但是对推理算力的需求会呈现更高要求。以DeepSeek-V3为例,需要承载大量的日活用户服务请求,其参数高达6710亿,随着模型参数量的不断增大以及专家数量的增加,在训练和推理阶段,尤其是进行大规模数据处理时,需要依赖高效的分布式计算架构,对计算资源的需求也随之大幅增加。
再随着DeepSeek需要不断加快迭代,后续版本的研发和优化等,本质上对训练的算力需求也仍然较大,也需要大量的计算资源来支持模型的更新和改进。
另一方面,DeepSeek-R1允许用户蒸馏实现端侧模型的训练,这将带来端侧模型能力的批量升级,进而带来用户体验的大幅提升,AI的端侧应用落地加速,也将更快迎来端侧应用付费的“时刻”。
里昂指出,DeepSeek表现出了良好的性能,并且训练和推理成本相对较低,这将有助于AI应用的普及及加速AI货币化进程,最终有利于边缘AI设备的发展,2025年将成为人工智能货币化的起点。
市场关注重点也将从半导体和云服务等AI第一阶段受益者,拓展至软件公司和人工智能原生初创公司,这些公司将利用基础模型构建智能工具,于2025年将AI技术转化为实际商业价值。
国海证券分析认为,DeepSeek有望通过成本优化和技术创新,推动全球AI应用和AI终端技术的创新和普及,并有望加速AGI时代到来。诸如,科大讯飞其自主可控大模型将具备下一代的智能语音识别、自然语言理解、机器翻译等功能,将AI技术广泛应用在教育、政务、医疗、交通等领域;万兴科技作为软件应用类公司代表,完成DeepSeek最新大模型的深度适配,旗下万兴喵影、亿图图示等产品融合了相关AI能力,为用户的创作效率和质量提供实际价值;拓尔思与DeepSeek联合开发金融舆情大模型,为金融机构等客户提供舆情监测、风险预警等服务,当下阶段可以关注以下标的。
各界正在接入DeepSeek模型
面对DeepSeek的横空出世,各界反应却截然不同。
据媒体报道,意大利数据保护机构Garante因DeepSeek未能充分回应其隐私政策问题,下令在意大利封禁其聊天机器人。并且,Garante的这一命令可能引发了连锁反应,爱尔兰和比利时数据监管机构已经开始调查DeepSeek的数据处理做法,法国数据保护机构CNIL也将对提供DeepSeek聊天机器人的公司进行质询。
美国海军禁止其成员使用 DeepSeek,给出“潜在安全和伦理问题”的理由。DeepSeek的服务器可能位于美国境外,美国海军担心成员使用时,数据在存储和传输过程中,可能会被第三方获取或监听,导致军事敏感信息、个人隐私数据等泄露,威胁到军事行动安全和人员安全。
这样的担心亦或正常,不过,由于DeepSeek已经开源,这些政府和机构可以将模型下载到本地再运行。
不管争议有多大,事实上,各界已经完成了对DeepSeek模型的接入。
海外平台方面,亚马逊AWS、微软Azure、英伟达已陆续接入,AWS的全球用户可直接调用DeepSeek-R1模型,微软Azure AI Foundry 将DeepSeek-R1纳入其AI服务体系,英伟达在其NIM微服务预览版中上线了DeepSeek-R1。
而在国内,众多大公司也纷纷开启与 DeepSeek的对接工作,百度智能云千帆平台上架了DeepSeek-R1和DeepSeek-V3模型并推出优惠及免费体验服务,阿里云让用户可在PAI Model Gallery上直接部署,华为云联合硅基流动推出基于昇腾云服务的 DeepSeek推理服务,腾讯云将DeepSeek-R1模型整合到其HAI平台。
DeepSeek的突破,也表明了我国在算力受限的情况下,通过极致的技术探索,实现对海外AI技术的追赶的可行性,为全球AI治理规则制定注入中国视角,使中国在全球AI发展中发挥更大的影响力。