海南泡沫板胶厂家 Jim Fan解读机器人“终局之战”：人类将在2040年解锁“机器人技术树”

英伟达具身自主研究团队负责人Jim Fan宣告，机器人域正在复制大语言模型的成功路径，终局之战已经开始，而他以95的置信度押注：2040年海南泡沫板胶厂家，机器人技术树将解锁。机器人技术树即机器人从“身体”到“大脑”所需的关键技术，包括底层硬件、中层感知、上层决策等。

在近日举行的AI Ascent大会上，英伟达具身自主研究团队负责人Jim Fan发表了场题为"机器人学：终局之战"的主题演讲。他系统阐述了套完整的机器人技术发展路线图——从模型范式革命到数据策略颠覆，并以"伟大的类比"为核心论点：机器人域将严格复制LLM的成功路径，从预训练到理，再到自动化研究，"这是对大语言模型成功路径的复制。"

Fan开场即直接点出他对大语言模型团队的羡慕："LLM团队正在享受他们人生中辉煌的时刻……那么，机器人域为什么不能也沾沾光呢？"

机器人“大脑”换新案：旧模型偏“嘴皮子”，新模型长“手脚”

过去三年，机器人行业流行种叫VLA的训练法（中文叫“视觉-语言-动作模型”）。英伟达自己的Groot和另明星公司Pi都用的这套。

但Fan直接开怼：这套法说白了就是“语言-视觉-动作模型”——大部分力都喂给了语言模块，语言是老大，视觉和动作只能排后面。结果是，机器人学了堆知识和名词，但物理操作和“动词”能力明显不行。

英伟达的新案是：先看世界怎么动，再学自己怎么动。

Fan团队出了新模型，叫“世界行动模型”。逻辑很简单：步，用海量训练机器人预测“接下来世界会发生什么”（比如杯子倒了水会洒）；二步，用少量操作数据微调，让机器人把注意力放到真实任务上；后用强化学习收尾。

具体产品叫Dream Zero。它能边预测画面边输出动作——画面预测对了，动作就执行；画面预测错了，动作就失败。实验显示，它甚至能样本执行从没见过的软体操作任务。

遥操作之死：人类成为机器人数据主粮

数据策略上，Fan指出遥操作同样走到了终点。问题的本质是物理限：

"每台机器人每天的有工作时间像是3小时——而且还是在机器人状态良好、不闹脾气的情况下。"

他提出的替代路径是"类FSD案"——让数据采集感化、背景化，就像特斯拉FSD悄悄上传驾驶数据样。英伟达团队开发了MANUS系统（与五指机械手实现1:1映射的轴骨架），并用Ego Scale案证明了以人为中心的颠覆潜力。关键数字如下：

使用20,000小时真实场景人类手部预训练机器人数据参与预训练微调阶段仅需50小时模拟数据 + 4小时真实数据（占总训练数据不足0.1）

终模型能够泛化到卡片分类、操作注射器、液体转移等灵巧度任务，"也许有天我们会拥有庭机器人护士。"

值得关注的发现是：Fan团队发现了机器人灵巧操作的经缩放定律——"在初针对语言模型的经缩放定律提出六年之后，我们发现了个简洁的对数线数学程，同样适用于机器人灵巧操作。"预训练时长与优验证损失之间存在非常清晰的数学关系。

他明确预测：未来两年内，遥操作数据需求将下降至几乎可以忽略不计，以自我中心为核心的数据范式将接管。

"计量=环境=数据"：模拟器革命

强化学习训练环境的规模化，是机器人域的另大瓶颈——"我们目前还法实现100万个并行训练环境的目标，如果用传统法，那需要100万个真实机器人。"

英伟达的解法分两步：

Real2Sim2Real：用iPhone拍照→3D扫描提取物体→在物理模拟器中自动重新成，"iPhone基本上就变成了个口袋世界扫描仪。"

Dream Dojo：基于世界模型构建的经模拟器，实时输出RGB图像和传感器状态，"不涉及任何物理程，也不涉及任何图形引擎。"

这使得个等式成立："计量 = 环境，环境 = 数据。" Fan随即引用了黄仁勋的话作为注脚——"买得越多，省得越多。"

三大成就与2040年终局

Fan将机器人技术的终局拆解为文明游戏式的"三大成就"：

成就——物理图灵测试：让人法分辨是机器人还是人类在完成任务。Fan判断："大约还需要两到三年时间。"

二成就——物理API：机器人像软件样通过API和命令行调度，支撑"灯塔工厂"（原子印机：输入Markdown设计文件，输出完整组装产品）或湿实验室中化学、生物、医学域的科学发现自动化。

三成就——物理自动化研究的顶峰：机器人能够设计、改进和构建下代自身，"其能力将远远出人类的范畴。"

时间线上，Fan援引了个精确类比：AI域从2012年AlexNet到如今逼真生成模型，历时14年。"2026年正好介于2012年和2040年之间。而且技术发展并非线，而是呈指数增长。"

以下是演讲原文：

主持人 00:02海南泡沫板胶厂家

先，我很兴向大介绍我的朋友 Jim Fan。Jim 着英伟达的具身自主研究团队，也就是英伟达机器人团队。我认为机器人是未来激动人心的发明之。汽车本质上就是个大型机器人，但我期待机器人能够帮我们排便、搬运东西。Jim 在去年的 AI 大会上表现出，我们非常兴他能再次参加。

Jim Fan 00:27

那是 2016 年的个夏日，就在我们现在坐的这间办公室里。个穿着锃亮皮夹克、肌肉发达的伙，把个大金属托盘扔了进来。托盘上写着："致埃隆·马斯克和 OpenAI 团队，致计机和人类的未来：我向你们展示世界上台 DGX-1。"那是我次见到黄仁勋（Jensen）。像任何个优秀的实习生样，我赶紧排队在上面签名。你们能找到吗？我的名字就在这里。还能找到另个吗？那是安德烈（Andrej）。安德烈，我们要去计机历史博物馆了。我感觉自己像个恐龙。那时候我根本不知道自己即将加入的是什么。接下来发生的事，恐怕没有人比伊利亚（Ilya）本人能描述清楚了。如果你相信度学习，他们也会相信你。他们对我们所有人的度学习信念，真是比坚定。

Jim Fan 01:36

三个阶段，六年时间，这就是我们走到今天的全部历程。

先是 GPT-3，监督预训练。接下来是词元预测——它实际上是在学习语法规则，语言结构则是在模拟思想、代码以及各种信息序列应当如何折叠。2022 年，我们引 GPT 进行监督微调，使模型能够完成有用的工作，或者使用强化学习进行理，以越模仿学习。后是自动化研究，将整个循环加速到人类能力的限。正如 Andrej 所说，所有的努力都是为了终决战。对于大语言模型（LLM）团队来说，他们已经进入了游戏的后阶段。说实话，我非常羡慕。看看 Andrej 有多开心，脸上挂着灿烂的笑容。

Jim Fan 02:33

LLM 团队正在享受他们人生中辉煌的时刻。他们用名为"Missile"的秘利器，以速进通用人工智能（AGI）。那么，机器人域为什么不能也沾沾光呢？于是，就像任何个自尊自重的科学都会做的那样，我照搬了这套法，并给它起了个新名字，称之为"伟大的类比"。

与其预测 token 序列，我们能否预测下个物理世界状态？然后，通过动作微调，将机器人与模拟中对真实机器人至关重要的关键区域进行对齐。后，让强化学习完成后的冲刺。就是这样。这是对大语言模型成功路径的复制。

Jim Fan 03:18

既然法战胜他们，那就加入他们。请收看新期节目——机器人学：终局之战。

香蕉真是太美味了，谢谢，Dennis。

那么，我们该如何这场终局之战呢？归根结底，就是两件事：模型策略和数据策略。

我们先来看模型。过去三年，视觉-语言-动作模型（VLA）占据了主地位，Pi 和 Groot 这样的模型也属于这范畴。我们假设预训练由视觉语言模型完成，然后在其上附加个动作头。但如果仔细想想，这些模型其实应该叫做语言-视觉-动作模型（VLA），因为大部分参数都分配给了语言模块。语言是等公民，视觉和动作居其次。根据设计，VLA 擅长编码知识和名词，但在物理和动词面则略显不足——在某些面有点用力过猛。

这是我喜欢的 VLA 原始论文中的例子：把可乐罐移动到泰勒·斯威夫特的图片上。是的，模型之前从未见过泰勒·斯威夫特，它确实具备泛化能力，但这并非我们所追求的预训练向。

那么，二种预训练范式是什么？我们原本以为它会非常出。可惜结果发现，它不过是"AI 老虎机"——就是那种"我可以整天看监控录像里的猫弹班卓琴"的玩意儿，简直是互联网的之作。但说真的，除非我们意识到这些模型正在学习内部模拟下个世界状态，否则没人会认真对待它。

这里展示了 Veo 3 中的些片段。你可以看到，这些模型能够自主地捕捉重力、浮力、光照、反射和折射等果——所有这些都不是预先编码的。物理特是通过大规模预测下个像素块而涌现出来的，甚至视觉规划也是如此。

Jim Fan 05:23

看看 Veo 是如何解决这些物理理问题的——它通过在像素空间中向前运行模拟来解决。注意右下角，这是我喜欢的例子。如果你眨下眼，就会错过 Veo 3 是如何解决这个问题的——它非常智能。你知道，如果不仔细看，几何关系就显得多余了。我把这称为"物理槽"。

Jim Fan 05:53

那么，我们如何才能让这些世界模型真正发挥作用？答案是：进行动作微调。我们将所有可能的未来状态叠加起来，并将其压缩到对真实机器人至关重要的那薄层上。

Jim Fan 06:09

隆重出 Dream Zero。这是种新型策略模型，它能够预测几秒钟后的未来，并据此采取行动。运动动作是维连续信号，看起来就像像素样，因此我们可以在渲染的同时渲染动作。Dream Zero 可以联解码下个世界状态和下个动作。由此，它能够样本执行从未见过的软体任务和动作。

当机器人执行动作时，我们可以可视化正在传输的内容，相关非常：如果预测正确，动作就会执行；如果出现错误，动作就会失败。视觉和动作再次成为重中之重。

我们用 Dream Zero 做了很多有趣的实验——只需在实验室里让机器人滚动，然后在提示框中输入些随机内容。当然，Dream Zero 法保证所有任务的鲁棒，但它就像 GPU 样，力求在每种情况下都正确捕捉运动轨迹。

Jim Fan 07:19海南泡沫板胶厂家

Dream Zero 是我们迈向机器人开放式、开放词汇提示的步。我们将这种新型模型称为世界行动模型（World Action Model）。

让我们为我们的老朋友 VLA 默哀片刻。它为我们做出了巨大贡献。安息吧，路走好。

接下来是数据策略。这位是英伟达席科学 Bill Dally，他正在我们实验室进行远程操作。考虑到他的薪水，我认为这对是我们数据集中收集到的昂贵的轨迹。

过去三年，PVC管道管件粘结胶远程操作占据了主地位——这是黄金时代：VR 头显、致优化的流媒体延迟，以及这些看起来像中世纪酷刑装置的复杂绑带系统。

Jim Fan 08:17

工业域投入了那么多资金，付出了那么多痛苦和磨难，然而每台机器人每天的工作时间上限只有 24 小时，这是基本的物理限。实际上，准确地说，每台机器人每天的有工作时间像是 3 小时——而且还是在机器人状态良好、不闹脾气的情况下。

Jim Fan 08:37

那么我们该如何做得好呢？不如试试这个——你只需把机械手戴在自己的手上。这叫做 UMI（通用操作接口，Universal Manipulation Interface），是个看似简单却意义远的想法：戴上机器人末端执行器，用手操作，像人类样直接收集数据，而机器人的其他部分则需参与。

我认为 UMI 或许是机器人数据域重要的论文之，它催生了两角兽初创公司。左边是 Physical Intelligence（π）对这个设计进行的改进；右边是 Sunday 制作的三指数据手套。

去年，我们进步，设计了个轴骨架，与五指 Dexterous 机器人手实现了 1:1 的映射，我们称之为 MANUS（纯文本操作数据采集系统）。

来看下对比：左边是人直接收集数据，速度快；右边，操作员是我们技术精湛的博士之，他须非常仔细地进行对准，速度非常慢，成功率也很低；而中间案，只需穿戴这个轴骨架，就能直接采集质量数据。我们用这些数据训练机器人策略。现在看到的是自主的策略部署，该策略基于机器人操作数据训练而成。如此来，我们破了每个机器人每天 24 小时运行的限制——看看这些机器人有多开心，因为它们不再需要参与数据采集了。

Jim Fan 10:16

所以这就是答案吗？我们解决了机器人技术的规模化问题吗？

这里有人开特斯拉或 Waymo 吗？你知道，当你开车的时候，你实际上参与了迄今规模大的物理数据采集。妙处在于，在 FSD（全自动驾驶）模式下，你甚至感觉不到它的存在，因为数据上传是个声的过程。然而，佩戴 UMI 或 MANUS 这类数据可穿戴设备仍然很麻烦——它很突兀，不像开车上班那样缝。

所以我们需要套类似 FSD 的案。数据收集需要变得加轻量、融入背景，这样我们才能充分捕捉人类在各行各业、所有经济价值劳动中展现的灵巧技能。

Jim Fan 11:06

因此，我们全力投入到以人类为中心的中，这些配有详细标注，包括手部位置追踪、密集语言标注，并引入了自我尺度（Ego Scale）的概念。其中，99.9 的训练数据都基于以人类为中心的。终，我们获得了种端到端的策略，可以直接将摄像头像素映射到具有 22 个自由度的灵巧度机器人手上。

Jim Fan 11:35

您现在看到的是自主运行的结果。我们使用 20,000 小时的真实场景下以人为中心的人类数据对 Ego Scale 进行预训练，不使用任何机器人数据。在预训练过程中，我们预测手部关节位置和腕部姿态。在动作微调阶段，我们仅收集了 50 小时的精度模拟数据，以及 4 小时的真实训练数据——这 4 小时的数据不到我们总训练数据的 0.1。

凭借这些数据，Ego Scale 能够泛化到些非常灵巧的任务，例如卡片分类、操作注射器以及液体转移。也许有天我们会拥有庭机器人护士。对于这些任务，只需在测试时进行次演示，模型就能学习不同的衬衫折叠策略。

Jim Fan 12:33

这篇论文中引人入胜的发现，是我们发现了灵巧相关的经缩放定律——预训练时长与优验证损失之间存在非常清晰的关系。在初针对语言模型的经缩放定律提出六年之后，我们发现了个简洁的对数线数学程，同样适用于机器人灵巧操作。

如果我们把所有数据策略都放在张图表上，X 轴代表与机器人硬件的耦程度，Y 轴代表可扩展，图表大致如下：可扩展差的数据可穿戴设备，其数据量也不过数十万小时。而对于自我中心（Egocentric），如果能充分发挥类 FSD 的优势，下阶段的数据量很容易突破数千万小时。此外，如果我们在图表上画条分界线，线左侧的所有法都代表了新的数据范式——人体传感器数据。

Jim Fan 13:29

让我做几个预测。

未来两年内，我们会看到机器人遥操作数据的需求持续下降，直至几乎可以忽略不计。届时，将会出现系列针对不同硬件和应用场景定制的数据变体。终，机器人域的主要数据来源将是自我中心。

让我们为我们的老朋友遥操作默哀片刻。你为我们做出了卓越的贡献。安息吧。

那么，数据策略完成了吗？大注意到我在数据策略上标了两个环吗？外环是什么？所有前沿 AI 域都投入了大量资源来构建数百万个编码环境，用于强化学习训练。机器人域同样如此，我们迫切需要扩展训练环境的数量。当然，你也可以直接在真实机器人上进行强化学习。在我们的实验室里，我们通过 RL 将某些任务的成功率提升到接近，让机器人连续执行数小时。

Jim Fan 14:35

看着这些机器人自主组装 GPU，感觉确实挺有意思的。用我老板的话说就是：干得好，这项任务已经得到批准了。然而，我们目前还法实现 100 万个并行训练环境的目标——如果用传统法，那需要 100 万个真实机器人。

所以我们需要种好的法。假设你用 iPhone 拍张照片，通过 3D 扫描流程提取场景中所有物体，再在经典物理模拟器中自动重新成它们。扫描完成后，所有这些物体都具有交互，你可以在模拟中限扩展，添加我们称之为"数字表亲"的各种变体。在这个我们称之为**"实物到仿真再回到实物（Real2Sim2Real）"**的流程中，iPhone 基本上就变成了个口袋世界扫描仪。通过这种式，我们拥有了种可扩展的法，可以将物理世界移植到数字世界。但这种法仍然依赖于经典的图形渲染引擎。

我们能否做得好？Dream Dojo 的出现让我们能够好地利用世界模型，并将其转化为齐全的经模拟器。Dream Dojo 接收连续的动作信号作为输入，并实时输出下帧 RGB 图像以及传感器状态。您现在看到的每个像素都不是真实的。Dream Dojo 能够通过纯数据驱动的法，捕捉并学习不同机器人的运行机制。

Jim Fan 16:10

这个过程不涉及任何物理程，也不涉及任何图形引擎。因此，机器人训练的新范式是：套大规模并行的强化学习系统，运行在少数几个真实机器人工作站上，配备大量 GPU 来执行世界扫描和强化学习计，同时运行世界模型。

正如这个等式所描述的：计量 = 环境，环境 = 数据。用我老板的话说：买得越多，省得越多。

好了，整理下。机器人技术的发展将遵循个宏大的平行规律，而且它正在发生——我们正处于终阶段的起点。

大都玩过《文明》这款游戏吧，它至今仍是我的。我喜欢把自己的研究比作在文明科技树上解锁成就。机器人技术还有三个成就需要解锁。

Jim Fan17:16

解锁之后，我就大功告成，可以退休了。

个成就，是让机器人通过涵盖各种活动的物理图灵测试——让你根本分辨不出是人类还是机器人在完成某项任务（也许喝醉的人类除外）。物理图灵测试关注的是单位能量输入与单位劳动输出的比值。光看现在机器人的姿态，我觉得我们还有很多工作要做。大约还需要两到三年时间。

二个成就是物理 API——届时我们将拥有整支机器人队伍，它们可以像任何软件样，通过 API 和命令行进行配置与调度，并终由 Opus 9.0 这样的 AI 进行协调。

有了物理 API，我们将能够实现灯塔工厂（Lighthouse Factory）。这些工厂本质上是原子印机：接收以 Markdown 文件形式输入的设计，输出组装好的产品，全程自主运行。或者应用于湿实验室，实现化学、生物学和医学域的科学发现自动化。

三个成就是物理自动化研究的顶峰——届时机器人将能够设计、改进和构建下代自身，其能力将远远出人类的范畴。

Jim Fan 18:40

你可能会问：这难道不是科幻小说吗？我们这辈子能看到吗？

人工智能域花了整整 14 年，才从 2012 年 AlexNet 的次前向传播，发展到如今能够生成逼真的模型。AlexNet 初只能勉强区分猫和狗。

2026 年——好吧，我们聊的是实体智能，那就再加 14 年——2040 年。2026 年正好介于 2012 年和 2040 年之间。而且技术发展并非线，而是呈指数增长。

所以我可以 95 确定地说，到 2040 年，我们将完成机器人技术树的终阶段。而我们那时依然年轻。

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

如果你相信机器人技术，机器人技术也会相信你。

对于在座的各位——我们这代人，生不逢时，错过了探索地球的佳时机；生不逢时，错过了探索星辰的佳时机。但我们生逢其时，正值攻克机器人技术难题的佳时机。

风险提示及责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符其特定状况。据此投资，责任自负。相关词条:管道保温施工塑料挤出设备预应力钢绞线玻璃棉厂家保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

海南泡沫板胶厂家 Jim Fan解读机器人“终局之战”：人类将在2040年解锁“机器人技术树”

热点资讯

推荐资讯

话题标签

友情链接：

海南泡沫板胶厂家 Jim Fan解读机器人“终局之战”：人类将在2040年解锁“机器人技术树”

延安泡沫板胶 短线风险 31只个股短期均线现死叉

仙桃pvc管粘接胶 哥瑞利递表港交所 报告期内亏损3.6亿元