DeepSeek正在与清华大学合作,减少其人工智能(AI )模型所需的训练,以降低运营成本。
DeepSeek于1月份推出了低成本推理模型并引起市场轰动,该公司与北京大学的研究人员合作发表了一篇论文,详细介绍了一种新的强化学习方法,以提高模型的效率。
研究人员写道,新方法旨在通过对更准确、更易理解的响应提供奖励,帮助人工智能模型更好地遵循人类的偏好。强化学习已被证明能有效地加速狭小应用和领域的人工智能任务。然而,将其扩展到更一般的应用已被证明具有挑战性,这就是 DeepSeek 团队试图用一种称为自我原则批评调整的方法来解决的问题。根据该论文,该策略在各种基准测试中都优于现有的方法和模型,结果显示,在更少的计算资源下,性能更好。
DeepSeek 将这些新模型称为 DeepSeek-GRM(通用奖励模型的缩写),并将以开源方式发布。包括阿里巴巴和OpenAI在内的其他人工智能开发商也在努力提高人工智能模型实时执行任务时的推理和自我改进能力。(校对/李梅)
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000