海南泡沫板胶厂家 Jim Fan解读机器人“终局之战”:人类将在2040年解锁“机器人技术树”

英伟达具身自主研究团队负责人Jim Fan宣告,机器人域正在复制大语言模型的成功路径,终局之战已经开始,而他以95的置信度押注:2040年海南泡沫板胶厂家,机器人技术树将解锁。机器人技术树即机器人从“身体”到“大脑”所需的关键技术,包括底层硬件、中层感知、上层决策等。
在近日举行的AI Ascent大会上,英伟达具身自主研究团队负责人Jim Fan发表了场题为"机器人学:终局之战"的主题演讲。他系统阐述了套完整的机器人技术发展路线图——从模型范式革命到数据策略颠覆,并以"伟大的类比"为核心论点:机器人域将严格复制LLM的成功路径,从预训练到理,再到自动化研究,"这是对大语言模型成功路径的复制。"
Fan开场即直接点出他对大语言模型团队的羡慕:"LLM团队正在享受他们人生中辉煌的时刻……那么,机器人域为什么不能也沾沾光呢?"
机器人“大脑”换新案:旧模型偏“嘴皮子”,新模型长“手脚”过去三年,机器人行业流行种叫VLA的训练法(中文叫“视觉-语言-动作模型”)。英伟达自己的Groot和另明星公司Pi都用的这套。
但Fan直接开怼:这套法说白了就是“语言-视觉-动作模型”——大部分力都喂给了语言模块,语言是老大,视觉和动作只能排后面。结果是,机器人学了堆知识和名词,但物理操作和“动词”能力明显不行。
英伟达的新案是:先看世界怎么动,再学自己怎么动。
Fan团队出了新模型,叫“世界行动模型”。逻辑很简单:步,用海量训练机器人预测“接下来世界会发生什么”(比如杯子倒了水会洒);二步,用少量操作数据微调,让机器人把注意力放到真实任务上;后用强化学习收尾。
具体产品叫Dream Zero。它能边预测画面边输出动作——画面预测对了,动作就执行;画面预测错了,动作就失败。实验显示,它甚至能样本执行从没见过的软体操作任务。
遥操作之死:人类成为机器人数据主粮数据策略上,Fan指出遥操作同样走到了终点。问题的本质是物理限:
"每台机器人每天的有工作时间像是3小时——而且还是在机器人状态良好、不闹脾气的情况下。"
他提出的替代路径是"类FSD案"——让数据采集感化、背景化,就像特斯拉FSD悄悄上传驾驶数据样。英伟达团队开发了MANUS系统(与五指机械手实现1:1映射的轴骨架),并用Ego Scale案证明了以人为中心的颠覆潜力。关键数字如下:
使用20,000小时真实场景人类手部预训练机器人数据参与预训练微调阶段仅需50小时模拟数据 + 4小时真实数据(占总训练数据不足0.1)终模型能够泛化到卡片分类、操作注射器、液体转移等灵巧度任务,"也许有天我们会拥有庭机器人护士。"
值得关注的发现是:Fan团队发现了机器人灵巧操作的经缩放定律——"在初针对语言模型的经缩放定律提出六年之后,我们发现了个简洁的对数线数学程,同样适用于机器人灵巧操作。"预训练时长与优验证损失之间存在非常清晰的数学关系。
他明确预测:未来两年内,遥操作数据需求将下降至几乎可以忽略不计,以自我中心为核心的数据范式将接管。
"计量=环境=数据":模拟器革命强化学习训练环境的规模化,是机器人域的另大瓶颈——"我们目前还法实现100万个并行训练环境的目标,如果用传统法,那需要100万个真实机器人。"
英伟达的解法分两步:
Real2Sim2Real:用iPhone拍照→3D扫描提取物体→在物理模拟器中自动重新成,"iPhone基本上就变成了个口袋世界扫描仪。"
Dream Dojo:基于世界模型构建的经模拟器,实时输出RGB图像和传感器状态,"不涉及任何物理程,也不涉及任何图形引擎。"
这使得个等式成立:"计量 = 环境,环境 = 数据。" Fan随即引用了黄仁勋的话作为注脚——"买得越多,省得越多。"
三大成就与2040年终局Fan将机器人技术的终局拆解为文明游戏式的"三大成就":
成就——物理图灵测试:让人法分辨是机器人还是人类在完成任务。Fan判断:"大约还需要两到三年时间。"
二成就——物理API:机器人像软件样通过API和命令行调度,支撑"灯塔工厂"(原子印机:输入Markdown设计文件,输出完整组装产品)或湿实验室中化学、生物、医学域的科学发现自动化。
三成就——物理自动化研究的顶峰:机器人能够设计、改进和构建下代自身,"其能力将远远出人类的范畴。"
时间线上,Fan援引了个精确类比:AI域从2012年AlexNet到如今逼真生成模型,历时14年。"2026年正好介于2012年和2040年之间。而且技术发展并非线,而是呈指数增长。"
以下是演讲原文:
主持人 00:02海南泡沫板胶厂家
先,我很兴向大介绍我的朋友 Jim Fan。Jim 着英伟达的具身自主研究团队,也就是英伟达机器人团队。我认为机器人是未来激动人心的发明之。汽车本质上就是个大型机器人,但我期待机器人能够帮我们排便、搬运东西。Jim 在去年的 AI 大会上表现出,我们非常兴他能再次参加。
Jim Fan 00:27
那是 2016 年的个夏日,就在我们现在坐的这间办公室里。个穿着锃亮皮夹克、肌肉发达的伙,把个大金属托盘扔了进来。托盘上写着:"致埃隆·马斯克和 OpenAI 团队,致计机和人类的未来:我向你们展示世界上台 DGX-1。"那是我次见到黄仁勋(Jensen)。像任何个优秀的实习生样,我赶紧排队在上面签名。你们能找到吗?我的名字就在这里。还能找到另个吗?那是安德烈(Andrej)。安德烈,我们要去计机历史博物馆了。我感觉自己像个恐龙。那时候我根本不知道自己即将加入的是什么。接下来发生的事,恐怕没有人比伊利亚(Ilya)本人能描述清楚了。如果你相信度学习,他们也会相信你。他们对我们所有人的度学习信念,真是比坚定。
Jim Fan 01:36
三个阶段,六年时间,这就是我们走到今天的全部历程。
先是 GPT-3,监督预训练。接下来是词元预测——它实际上是在学习语法规则,语言结构则是在模拟思想、代码以及各种信息序列应当如何折叠。2022 年,我们引 GPT 进行监督微调,使模型能够完成有用的工作,或者使用强化学习进行理,以越模仿学习。后是自动化研究,将整个循环加速到人类能力的限。正如 Andrej 所说,所有的努力都是为了终决战。对于大语言模型(LLM)团队来说,他们已经进入了游戏的后阶段。说实话,我非常羡慕。看看 Andrej 有多开心,脸上挂着灿烂的笑容。
Jim Fan 02:33
LLM 团队正在享受他们人生中辉煌的时刻。他们用名为"Missile"的秘利器,以速进通用人工智能(AGI)。那么,机器人域为什么不能也沾沾光呢?于是,就像任何个自尊自重的科学都会做的那样,我照搬了这套法,并给它起了个新名字,称之为"伟大的类比"。
与其预测 token 序列,我们能否预测下个物理世界状态?然后,通过动作微调,将机器人与模拟中对真实机器人至关重要的关键区域进行对齐。后,让强化学习完成后的冲刺。就是这样。这是对大语言模型成功路径的复制。
Jim Fan 03:18
既然法战胜他们,那就加入他们。请收看新期节目——机器人学:终局之战。
香蕉真是太美味了,谢谢,Dennis。
那么,我们该如何这场终局之战呢?归根结底,就是两件事:模型策略和数据策略。
我们先来看模型。过去三年,视觉-语言-动作模型(VLA)占据了主地位,Pi 和 Groot 这样的模型也属于这范畴。我们假设预训练由视觉语言模型完成,然后在其上附加个动作头。但如果仔细想想,这些模型其实应该叫做语言-视觉-动作模型(VLA),因为大部分参数都分配给了语言模块。语言是等公民,视觉和动作居其次。根据设计,VLA 擅长编码知识和名词,但在物理和动词面则略显不足——在某些面有点用力过猛。
这是我喜欢的 VLA 原始论文中的例子:把可乐罐移动到泰勒·斯威夫特的图片上。是的,模型之前从未见过泰勒·斯威夫特,它确实具备泛化能力,但这并非我们所追求的预训练向。
那么,二种预训练范式是什么?我们原本以为它会非常出。可惜结果发现,它不过是"AI 老虎机"——就是那种"我可以整天看监控录像里的猫弹班卓琴"的玩意儿,简直是互联网的之作。但说真的,除非我们意识到这些模型正在学习内部模拟下个世界状态,否则没人会认真对待它。
这里展示了 Veo 3 中的些片段。你可以看到,这些模型能够自主地捕捉重力、浮力、光照、反射和折射等果——所有这些都不是预先编码的。物理特是通过大规模预测下个像素块而涌现出来的,甚至视觉规划也是如此。
Jim Fan 05:23
看看 Veo 是如何解决这些物理理问题的——它通过在像素空间中向前运行模拟来解决。注意右下角,这是我喜欢的例子。如果你眨下眼,就会错过 Veo 3 是如何解决这个问题的——它非常智能。你知道,如果不仔细看,几何关系就显得多余了。我把这称为"物理槽"。
Jim Fan 05:53
那么,我们如何才能让这些世界模型真正发挥作用?答案是:进行动作微调。我们将所有可能的未来状态叠加起来,并将其压缩到对真实机器人至关重要的那薄层上。
Jim Fan 06:09
隆重出 Dream Zero。这是种新型策略模型,它能够预测几秒钟后的未来,并据此采取行动。运动动作是维连续信号,看起来就像像素样,因此我们可以在渲染的同时渲染动作。Dream Zero 可以联解码下个世界状态和下个动作。由此,它能够样本执行从未见过的软体任务和动作。
当机器人执行动作时,我们可以可视化正在传输的内容,相关非常:如果预测正确,动作就会执行;如果出现错误,动作就会失败。视觉和动作再次成为重中之重。
我们用 Dream Zero 做了很多有趣的实验——只需在实验室里让机器人滚动,然后在提示框中输入些随机内容。当然,Dream Zero 法 保证所有任务的鲁棒,但它就像 GPU 样,力求在每种情况下都正确捕捉运动轨迹。
Jim Fan 07:19海南泡沫板胶厂家
Dream Zero 是我们迈向机器人开放式、开放词汇提示的步。我们将这种新型模型称为世界行动模型(World Action Model)。
让我们为我们的老朋友 VLA 默哀片刻。它为我们做出了巨大贡献。安息吧,路走好。
接下来是数据策略。这位是英伟达席科学 Bill Dally,他正在我们实验室进行远程操作。考虑到他的薪水,我认为这对是我们数据集中收集到的昂贵的轨迹。
过去三年,PVC管道管件粘结胶远程操作占据了主地位——这是黄金时代:VR 头显、致优化的流媒体延迟,以及这些看起来像中世纪酷刑装置的复杂绑带系统。
Jim Fan 08:17
工业域投入了那么多资金,付出了那么多痛苦和磨难,然而每台机器人每天的工作时间上限只有 24 小时,这是基本的物理限。实际上,准确地说,每台机器人每天的有工作时间像是 3 小时——而且还是在机器人状态良好、不闹脾气的情况下。
Jim Fan 08:37
那么我们该如何做得好呢?不如试试这个——你只需把机械手戴在自己的手上。这叫做 UMI(通用操作接口,Universal Manipulation Interface),是个看似简单却意义远的想法:戴上机器人末端执行器,用手操作,像人类样直接收集数据,而机器人的其他部分则需参与。
我认为 UMI 或许是机器人数据域重要的论文之,它催生了两角兽初创公司。左边是 Physical Intelligence(π)对这个设计进行的改进;右边是 Sunday 制作的三指数据手套。
去年,我们进步,设计了个轴骨架,与五指 Dexterous 机器人手实现了 1:1 的映射,我们称之为 MANUS(纯文本操作数据采集系统)。
来看下对比:左边是人直接收集数据,速度快;右边,操作员是我们技术精湛的博士之,他须非常仔细地进行对准,速度非常慢,成功率也很低;而中间案,只需穿戴这个轴骨架,就能直接采集质量数据。我们用这些数据训练机器人策略。现在看到的是自主的策略部署,该策略基于机器人操作数据训练而成。如此来,我们破了每个机器人每天 24 小时运行的限制——看看这些机器人有多开心,因为它们不再需要参与数据采集了。
Jim Fan 10:16
所以这就是答案吗?我们解决了机器人技术的规模化问题吗?
这里有人开特斯拉或 Waymo 吗?你知道,当你开车的时候,你实际上参与了迄今规模大的物理数据采集。妙处在于,在 FSD(全自动驾驶)模式下,你甚至感觉不到它的存在,因为数据上传是个声的过程。然而,佩戴 UMI 或 MANUS 这类数据可穿戴设备仍然很麻烦——它很突兀,不像开车上班那样缝。
所以我们需要套类似 FSD 的案。数据收集需要变得加轻量、融入背景,这样我们才能充分捕捉人类在各行各业、所有经济价值劳动中展现的灵巧技能。
Jim Fan 11:06
因此,我们全力投入到以人类为中心的中,这些配有详细标注,包括手部位置追踪、密集语言标注,并引入了自我尺度(Ego Scale)的概念。其中,99.9 的训练数据都基于以人类为中心的。终,我们获得了种端到端的策略,可以直接将摄像头像素映射到具有 22 个自由度的灵巧度机器人手上。
Jim Fan 11:35
您现在看到的是自主运行的结果。我们使用 20,000 小时的真实场景下以人为中心的人类数据对 Ego Scale 进行预训练,不使用任何机器人数据。在预训练过程中,我们预测手部关节位置和腕部姿态。在动作微调阶段,我们仅收集了 50 小时的精度模拟数据,以及 4 小时的真实训练数据——这 4 小时的数据不到我们总训练数据的 0.1。
凭借这些数据,Ego Scale 能够泛化到些非常灵巧的任务,例如卡片分类、操作注射器以及液体转移。也许有天我们会拥有庭机器人护士。对于这些任务,只需在测试时进行次演示,模型就能学习不同的衬衫折叠策略。
Jim Fan 12:33
这篇论文中引人入胜的发现,是我们发现了灵巧相关的经缩放定律——预训练时长与优验证损失之间存在非常清晰的关系。在初针对语言模型的经缩放定律提出六年之后,我们发现了个简洁的对数线数学程,同样适用于机器人灵巧操作。
如果我们把所有数据策略都放在张图表上,X 轴代表与机器人硬件的耦程度,Y 轴代表可扩展,图表大致如下:可扩展差的数据可穿戴设备,其数据量也不过数十万小时。而对于自我中心(Egocentric),如果能充分发挥类 FSD 的优势,下阶段的数据量很容易突破数千万小时。此外,如果我们在图表上画条分界线,线左侧的所有法都代表了新的数据范式——人体传感器数据。
Jim Fan 13:29
让我做几个预测。
未来两年内,我们会看到机器人遥操作数据的需求持续下降,直至几乎可以忽略不计。届时,将会出现系列针对不同硬件和应用场景定制的数据变体。终,机器人域的主要数据来源将是自我中心。
让我们为我们的老朋友遥操作默哀片刻。你为我们做出了卓越的贡献。安息吧。
那么,数据策略完成了吗?大注意到我在数据策略上标了两个环吗?外环是什么?所有前沿 AI 域都投入了大量资源来构建数百万个编码环境,用于强化学习训练。机器人域同样如此,我们迫切需要扩展训练环境的数量。当然,你也可以直接在真实机器人上进行强化学习。在我们的实验室里,我们通过 RL 将某些任务的成功率提升到接近 ,让机器人连续执行数小时。
Jim Fan 14:35
看着这些机器人自主组装 GPU,感觉确实挺有意思的。用我老板的话说就是:干得好,这项任务已经得到批准了。然而,我们目前还法实现 100 万个并行训练环境的目标——如果用传统法,那需要 100 万个真实机器人。
所以我们需要种好的法。假设你用 iPhone 拍张照片,通过 3D 扫描流程提取场景中所有物体,再在经典物理模拟器中自动重新成它们。扫描完成后,所有这些物体都具有交互,你可以在模拟中限扩展,添加我们称之为"数字表亲"的各种变体。在这个我们称之为**"实物到仿真再回到实物(Real2Sim2Real)"**的流程中,iPhone 基本上就变成了个口袋世界扫描仪。通过这种式,我们拥有了种可扩展的法,可以将物理世界移植到数字世界。但这种法仍然依赖于经典的图形渲染引擎。
我们能否做得好?Dream Dojo 的出现让我们能够好地利用世界模型,并将其转化为齐全的经模拟器。Dream Dojo 接收连续的动作信号作为输入,并实时输出下帧 RGB 图像以及传感器状态。您现在看到的每个像素都不是真实的。Dream Dojo 能够通过纯数据驱动的法,捕捉并学习不同机器人的运行机制。
Jim Fan 16:10
这个过程不涉及任何物理程,也不涉及任何图形引擎。因此,机器人训练的新范式是:套大规模并行的强化学习系统,运行在少数几个真实机器人工作站上,配备大量 GPU 来执行世界扫描和强化学习计,同时运行世界模型。
正如这个等式所描述的:计量 = 环境,环境 = 数据。用我老板的话说:买得越多,省得越多。
好了,整理下。机器人技术的发展将遵循个宏大的平行规律,而且它正在发生——我们正处于终阶段的起点。
大都玩过《文明》这款游戏吧,它至今仍是我的。我喜欢把自己的研究比作在文明科技树上解锁成就。机器人技术还有三个成就需要解锁。
Jim Fan17:16
解锁之后,我就大功告成,可以退休了。
个成就,是让机器人通过涵盖各种活动的物理图灵测试——让你根本分辨不出是人类还是机器人在完成某项任务(也许喝醉的人类除外)。物理图灵测试关注的是单位能量输入与单位劳动输出的比值。光看现在机器人的姿态,我觉得我们还有很多工作要做。大约还需要两到三年时间。
二个成就是物理 API——届时我们将拥有整支机器人队伍,它们可以像任何软件样,通过 API 和命令行进行配置与调度,并终由 Opus 9.0 这样的 AI 进行协调。
有了物理 API,我们将能够实现灯塔工厂(Lighthouse Factory)。这些工厂本质上是原子印机:接收以 Markdown 文件形式输入的设计,输出组装好的产品,全程自主运行。或者应用于湿实验室,实现化学、生物学和医学域的科学发现自动化。
三个成就是物理自动化研究的顶峰——届时机器人将能够设计、改进和构建下代自身,其能力将远远出人类的范畴。
Jim Fan 18:40
你可能会问:这难道不是科幻小说吗?我们这辈子能看到吗?
人工智能域花了整整 14 年,才从 2012 年 AlexNet 的次前向传播,发展到如今能够生成逼真的模型。AlexNet 初只能勉强区分猫和狗。
2026 年——好吧,我们聊的是实体智能,那就再加 14 年——2040 年。2026 年正好介于 2012 年和 2040 年之间。而且技术发展并非线,而是呈指数增长。
所以我可以 95 确定地说,到 2040 年,我们将完成机器人技术树的终阶段。而我们那时依然年轻。
奥力斯 pvc管道管件胶批发 联系人:王经理 手机:15226765735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
如果你相信机器人技术,机器人技术也会相信你。
对于在座的各位——我们这代人,生不逢时,错过了探索地球的佳时机;生不逢时,错过了探索星辰的佳时机。但我们生逢其时,正值攻克机器人技术难题的佳时机。
风险提示及责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符其特定状况。据此投资,责任自负。 相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。