科大讯飞:星火大模型单次训练成本和DeepSeek V3在一个层次

来源:爱集微 #科大讯飞#
7927

近日,科大讯飞在接受机构调研时表示,训练成本是讯飞星火大模型的竞争优势,单次训练成本和DeepSeek V3在一个层次,而且后面优化路径也很明确,目前以昇腾910B为代表的国产硬件还不支持FP8精度训练以及DualPipe的实现,随着国产算力在底层能力上进一步提升,讯飞星火的训练成本还有较大的下降空间。

基于此前在评语模型、强化学习方面的积累,科大讯飞在2024年10月就实现了蒙特卡洛树搜索(MCTS)等算法创新并跑通了深度推理模型训练算法,因为只能使用国产算力,额外花费2个月完成华为昇腾910B算力的适配和优化并大幅提升训练效率(训练效率相比A100从55%提升到85%),于今年1月15日完成了星火深度推理模型X1的训练和发布。

虽然当前X1模型很小(仅130亿参数),但依靠科大讯飞算法和数据优势,星火X1已达到可以和OpenAI o1-preview对标的水平;科大讯飞表示,随着国产算力的逐步到位,模型参数增加后,公司完全有信心实现数学答题和过程思维链能力全面对标甚至超过OpenAI o1。

责编: 邓文标
来源:爱集微 #科大讯飞#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...