在近日红杉资本举办的AI Ascent 2025演讲中,NVIDIA人工智能总监Jim Fan介绍了「实体图灵测试」的概念,并解释了大规模模拟将如何解锁机器人技术的未来。
笔者针对其演讲内容进行了梳理并编译。
Jim Fan:
几天前,我看到一篇部落格文章,它引起了我的注意。文章说大模型已经通过了图灵测试,但却没人注意到。图灵测试曾经是神圣不可侵犯的,对吧?它是电脑科学的圣杯,其理念是,你无法区分与你对话的是人类还是机器。
然后,我们就这么悄无声息地通过了图灵测试。但当机器思考的时间多了几秒钟,或是云端无法调试你糟糕的程序码时,人们就会感到不满。每一次突破都在平淡无奇中度过,就像又一个普通的星期二。
我想提出一个非常简单的概念,叫做「物理图灵测试」。设想一下,周日晚上你举办了一场黑客松派对,周一早上,你想找人收拾这一片狼藉,并且在晚餐时为你点上一支精美的蜡烛让你的伴侣开心起来。而当你回到家时,却无法分辨这一切是人类还是机器的杰作。
这就是简单的实体图灵测试。但我们现在进展到什么程度了呢?快实现了吗?看看这个类似的机器人,准备去工作,结果却没能做好。再看看机器狗面对香蕉皮的场景,还有被指示为你制作早餐麦片的机器人呢?
它能正确辨识牛奶,这一点我给它勉强及格。它的意图是好的,或者说用汤匙的体验就像是贵宾级的。看看,我都有点嫉妒了,都没人能给我这样的体验。这就是我们目前的现况。那么,为什么解决物理图灵测试这么困难呢?
大家都知道,研究人员常抱怨。最近,有个叫ilia的人抱怨说,预先训练的数据快用完了。他甚至把网络比作人工智能的「化石燃料」,还说我们用于训练网络的数据即将耗尽。只要和机器人专家相处一天,就知道那些深度学习研究人员有多「娇惯」 了。
我们连「化石燃料」 都没有。这是在英伟达总部的咖啡馆进行的数据收集场景。设置了人形机器人,通过操作它们来收集数据。
这就是收集到的数据,机器人的关节控制讯号,这些是随时间变化的连续值,无法从网络上获取,在维基百科、YouTube或其他任何地方都找不到。人们必须自己收集。那怎么收集的呢?有一种非常复杂但也很昂贵的方法,叫做「远端操作」。让人戴上VR,辨识手部动作,并将动作讯号传送给机器人。
通过这种方式,人类可以教机器人做事,例如从烤面包机拿出面包,然后在上面淋上蜂蜜。但可以想像,这是一个非常缓慢且痛苦的过程。
真正的机器人数据是「人力燃料」,而这比化石燃料还糟糕,因为这是在消耗人力。更糟的是,每个机器人每天最多只能运作24小时,甚至实际过程中远远达不到这个时长,因为人会累,机器人比人更容易累。
这就是现状,那该怎么办呢?如何突破这个障碍?机器人领域的「核能」 在哪里?我们需要清洁能源,不能永远依赖「化石燃料」。于是,模拟技术登场了。
必须离开现实世界,在模拟环境中做点什么。所以试着让机器人的手在模拟环境中完成超越人类灵巧度的任务,例如转笔。对我来说这是超人类的技能,因为我小时候就放弃尝试转笔了。
我很高兴机器人至少在模拟环境中比我做得好。那么如何训练机器人的手完成这样复杂的任务呢?有两个思路。第一,模拟速度要比即时10,000倍,这意味着在单一GPU上并行运行10,000个实体模拟环境。这是第一点。第二点是,这10,000个模拟环境不能完全相同,必须改变一些参数,例如重力、摩擦力和重量,我们称之为「域随机化」。这就是模拟的原理。
为什么这样做有效呢?想像一下,如果一个神经网络能够控制机器人在1,000,000个不同的世界中完成任务,那么它很有可能也能应付第1,000,001世界,也就是现实世界。
换句话说,现实世界是这些训练场景的一部分。那么如何应用呢?可以创造一个数位孪生体,也就是机器人和现实世界1:1的复制体。然后在训练模拟中进行测试,再直接应用到现实世界,实现0样本学习。
可以用手来举例,这是能完成的最令人印象深刻的任务之一。例如让机器狗站在球上,然后将训练成果应用到现实世界。这是在加州大学柏克莱分校(UCB),有人在操控机器狗行走。研究人员想法很奇特,这场景看起来就像《黑镜》里的情节。
实际上,这被称为「尤里卡博士」 项目。有个研究人员让他的机器狗站在瑜珈球上,至少现在在机器狗的灵活性方面取得了很大进展,不过真正的狗可做不到。接下来,也可以将这种方法应用到更复杂的机器人上,例如人形机器人。
这些人形机器人通过2小时的模拟训练,就掌握了相当于现实中10年才能学会的行走技能,并且可以将训练成果应用到现实中。无论机器人的形态如何,只要有机器人模型,进行模拟训练,就可以让它学会行走。
能做的不只行走,对吧?当控制身体时,可以追踪任何想要追踪的点、任何关键部位,并跟随任何想要的速度向量。这就是人形机器人的全身控制问题。
这非常困难,但可以通过并行运行10,000个模拟环境来进行训练。将训练成果零样本、无需微调地应用到现实机器人上,这是在NVIDIA实验室。实际上,需要放慢影片播放速度。
第一个影片是即时播放的,下一个影片是放慢后的。可以看到机器人动作的复杂性,它在保持平衡的同时做出类似人类的敏捷动作。猜猜完成这些动作需要多大规模的神经网络?
只需要150万个参数,不是几十亿,150万个参数就足以捕捉人体的潜意识处理过程。这个系统的推理过程,150万个参数就够了。如果将其放在速度与模拟多样性的图表中,我认为这可以称为「模拟1.0」,也就是数位孪生范式,它使用经典的向量化物理引擎。
然后可以将模拟速度提升到每秒1万到100万帧。但问题是,必须创造数位孪生体,需要有人建造机器人、建造环境等等。这非常繁琐,而且需要大量手工操作。
能不能开始产生模拟的部分内容呢?所有这些3D资源都是由3D生成模型生成的,所有的纹理来自Stable Diffusion 或其他扩散模型,所有的场景布局由提示词和语言模型生成,再编写XML将它们整合在一起,构建了一个名为「Robot-CASa」 的框架,这是一个大规模的合成模拟框架。
它用于模拟日常任务,除了机器人,其他内容都是生成的。可以组合不同的场景,它仍然依赖经典引擎运行,但已经可以完成许多任务。
现在,可以再次让人进行远端操作,但这次是在模拟环境中,而不是在现实机器人上。在模拟环境中重现操作轨迹,并加入强大的硬件加速光线追踪技术,让模拟场景更加逼真。
甚至可以改变动作。例如在远端操作时将杯子从这里移动到那里,不需要反复示范同样的动作。综合这些,在模拟环境中进行一次人类演示,通过环境生成和动作生成,将数据量扩展n倍,再乘以n倍。我保证这是今天需要接触的唯一数学计算。这就是扩充数据的方法。第一列和第三列是现实机器人的真实视频,第二列到第四列是Robot-CASa模拟生成的视频。
仍然可以看出这些纹理不是真实的,但已经足够接近了。把这种够接近的情况称为什么呢?称为「数位表亲」 范式。它不是数位孪生体,但在一定程度上捕捉到了相似性。这个数位表亲模拟运行速度较慢,但它是一种混合生成实体引擎,产生部分内容,然后将其余部分交给经典图形管道处理。
现在,模拟包含软件、流体等各种元素的场景,对于艺术家或图形工程师来说,要正确模拟这样的场景需要很长时间。看看图形技术的发展历程,从早期到现在花了30年。
而视讯联合模型只花了1年时间,就实现了从模拟简单物体到模拟可变形物体(例如面条)的跨越。这里可能少了点趣味性,但这是我愿意付出的代价。对于最新的Sora等策略模型,也只花了1年时间,这就是规模扩展和数据驱动过程的力量。
还记得一开始给你们看的影片吗?这个影片里没有一个真实像素,它完全是由定制化模型产生的。使用通用的开源VR影片生成模型,在现实机器人实验室收集的领域数据上进行微调,然后产生了这些内容。现在,可以通过提示词让模型想像不同的未来场景,模拟反事实情况。看,这两帧画面原本完全相同,但根据不同的语言提示,生成的影片会做出正确的反应。
即使这些动作在现实世界中从未发生过,也能实现。视讯扩散模型并不在乎场景有多复杂,也不在乎是否有流体或软件。
同样地,可以让它拿起不同的东西,它会用正确的手抓取物体并放入篮子里。这些都是生成的,没有一个像素是真的。它还能正确模拟出各种反射效果,对吧?
所有这些交互效果都能正确模拟。我最喜欢的一个场景是机器人在那边弹尤克里里。基本上,影片模型可能看过数百万人类弹尤克里里的画面,然后它就能模拟机器人的手指做出相应动作,即使硬件实际上并不支援。影片生成模型就能做到这一点。从这个角度来看,这就是「模拟2.0」。
它具有很高的多样性,但目前运行速度可能较慢。没人给它起名字,但我叫它「数位游牧民族」,它就像是在视频扩散模型的梦幻空间里漫游。
什么是视讯扩散模型呢?它就像是将数亿个网络影片压缩成一个多元宇宙的模拟场景。很神奇,对吧?在这个梦幻空间里创建机器人,机器人现在可以与任何地方的物体进行交互,无处不在,无所不能。
詹森之前离开了,但我觉得他会很喜欢这个。要扩展经典模拟,需要大量的运算资源,这也是1.x系列的情况。问题是,随着规模的扩大,它会遇到瓶颈,因为手工制作的系统在多样性方面有限制。
而神经世界模型,也就是模拟2.0,将随着运算资源呈指数级扩展。这就是神经网络超越经典图形工程师的地方。两者相加,将成为扩展下一代机器人系统的「核能」。
那些一开始就说电脑状况会改善而不是恶化的人,把这句话刻在视网膜上,再好好想想吧。把所有这些数据输入到所说的视觉语言动作模型中,这个模型输入像素和指令,输出马达控制讯号。
在3月NVIDIA GTC大会约翰逊(Johnson)的主题演讲中开源了一个名为Groot的模型。在机器人上运行这个模型,有时候会有很神奇的效果。无法想像在训练过程中清理了多少数据。它能够完美地拿起香槟,做得非常好。
它还能完成一些工业任务,例如拿起工厂里的物品,也能实现多机器人协作。 Groot模型是完全开源的,实际上,未来的一系列模型也将开源,因为遵循约翰逊的开源理念,致力于让实体人工智能更加普及。
那么接下来呢?在看到实体人工智能的发展后,下一步是什么?我认为是物理API。纵观人类历史,5000年来,我们拥有了更好的工具,社会也在整体上有了很大进展。但做晚餐以及进行许多手工劳动的方式,从埃及时代到现在,或多或少都没有太大变化。
在人类历史的99%时间里,一直遵循这样的模式:从原料出发,通过人类劳动建构文明。而在过去的1%,也就是大约50年里,人类劳动占比逐渐减少,出现了高度专业化、高度复杂的机器人系统,它们一次只能完成一项任务。
程序设计成本非常高,但它们仍然在社会中发挥作用。这就是现状。未来是要把代表机器人劳动占比的区域扩展到各个领域,就像语言模型API(LLM API)处理数位和位元一样,物理API将处理原子。
基本上可以给软件配备实体执行器,让它改变物理世界。在实体API之上,将会出现新的经济模式和新的范式,例如实体提示。如何指令这些机器人?如何训练它们?
有时候语言是不够的。还会有实体应用商店和技能经济。比如说,米其林星级厨师不必每天都去厨房,他可以训练机器人,然后将提供米其林星级晚餐作为一种服务。再引用一次约翰逊的话:未来,一切可移动的物体都将自动化。
有一天,回到家,会看到干净的沙发和点着蜡烛的晚餐,伴侣会微笑着迎接,而不是因为没洗衣服而大喊大叫,这每天都激励着我。上个月买了两个人形机器人,它们运作良好。
这些机器人就像环境智能一样融入背景,甚至不会注意到通过实体图灵测试的那一刻。而那一天,也只会被当作另一个普通的星期二被人们记住。
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000