文/VR陀螺 万里
人形机器人可谓是今年科技领域的当红炸子鸡。
新战略人形机器人产业研究所数据指出,截至2025年4月,全球人形机器人本体企业数量已超300家,里面充斥着大量明星或者跨界企业,比如国内的宇树科技、优必选、小鹏汽车、海外的特斯拉Optimus、Figure AI、1X等。
有意思的一点是,人形机器人与VR/AR看似不相关,但是两者却存在着紧密联系。

图源:一条
10月月底,海外的1X Technologies的人形机器人公司率先打响了消费级市场第一枪,企业宣布于2026年面向普通家庭推出一款名为Neo的机器人。目前官网已经接受预定,并提供了两种购买方案:1、订阅制、499美元/月;2、买断制,价格20000美元,套餐内提供高级支持服务。
1X是一家海外明星人形机器人初创公司,于2014年成立,总部位于美国加州,致力于AI和消费级机器人研发。目前企业已通过四轮融资共筹集了1.26亿美元,投资方包括OpenAI Startup Fund、EQT Ventures等。

近年来人形机器人的进展究竟有多快,想必很多人都有目共睹:去年这类产品仍处于一个“突发恶疾”的阶段,翻车视频不绝于耳。而到了今年,国内的宇树机器人登上春晚,近期的小鹏IRON甚至因为走路太像真人而遭到了质疑。
再到Neo,从宣传视频来看,它的表现更为惊艳:它能与主人闲聊、提供对话帮助、主动完成卫生打扫、物资搬运、浇花、吸尘、开门、洗衣服、倒垃圾、添置猫粮等日常家庭任务,没电的时候还能主动跑到充电仓里面自行补电,妥妥属于一个面向未来的科技管家。
硬件部分,Neo搭载了英伟达的机器人芯片Jetson Thor,手指支持22自由度,电池842瓦时可以支撑4小时运行;手和身体部分分别支持IP68以及IP44防护等级,眼睛则采用了双885万像素90Hz立体鱼眼镜头。智能部分,Neo分别搭载了用于交流的LLM模型以及用于行动决策的世界模型Redwood AI。

Neo宣传视频
然而值得注意的是,Neo就像很多同类型产品一样,它仍处于“视频仅供参考”阶段,《华尔街日报》体验指出,机器人动作仍相对笨拙,效率明显不如真人,即便是擦桌子等简单任务仍有很大改进空间。
另外,前面Neo所展示的家务场景,并非很多人误以为的自主执行的结果,恰恰相反,它需要依靠真人操作员才能运行起来。下面视频中可以看到,操作员结合使用了Quest 3头显,他能看到机器人眼前的画面,并基于6DoF手柄让机器人“复刻”出相应的动作。

用VR头显操作机器人,图源:《华尔街日报》
前面所提到的“高级支持”服务,也非常耐人寻味。随着Neo发货,但是它干不了家务该怎么办呢?不用担心,到时候Neo同样会由远程工作人员驱动运行,买家可以基于APP为机器人预约打扫卫生的时间节点。1X CEO Bernt Børnich表示,为了减轻隐私顾虑(毕竟远程操作员可以看到你家里的一切),Neo看到人像时会自动模糊处理、买家可以为机器人设置禁入区域等。
Neo身上集中展示了很多人对于这类人形机器人的困惑:为什么在视频里面,机器人可以跳街舞、障碍跑并且侃侃而谈,但是真正到了线下,却可能路都走不稳?这背后,反映的是人形机器人在操作方面的路线差异:

1、预编程机器人:机器人的动作由预先编辑好的程序驱动并执行,有时候它经过程序优化可以让动作看起来非常连贯,比如跑酷等,但是它缺乏认知、理解和规划能力,不适合开放环境,很容易见光死。
2、遥控机器人:机器人动作依赖于人类实时操作,机器人同样没有自主决策能力,但是优势在于有真人作为“外脑”,可以胜任更多复杂场景。
3、基于AI驱动的机器人:完全基于AI驱动,这时候机器人能够理解人类指令并自主执行相应的任务。
前两种交互往往会让人形机器人看起来科幻感十足,并让人误以为它有较高的完成度,实际上它更多只是扮演着大号玩具一类的角色,难以胜任日常生活中复杂且琐碎的需求。
最后一种交互则是我们对人形机器人所寄望的终极目标,它能脱离人类的监督和控制实现自我运行,目前仍没有任何一家厂商能够实现。只不过,近些年来随着LLM、自动驾驶等领域的突破,很多企业看到了曙光。理论上Scaling Law同样适用于人形机器人背后的VLA、世界模型,只要“投喂”海量数据,最终也会实现行业的Chatgpt时刻。
人形机器人硬件驱动或模型训练时都离不开模仿学习(IL)这一个环节,所谓模仿学习,指的是让机器人模仿人类行为,从而学会相应的动作。VR头显等设备是这一阶段常用的工具之一。操作员佩戴VR头显,他能通过第一视角看到机器人的真实画面,然后利用手柄操作机器人完成诸如开门、搬运、分拣等常见的动作。除了真实环境外,VR里面还能模拟3D虚拟训练环境。
目前大多数人形机器人厂商背后都能看到VR头显的身影,下图是特斯拉训练Optimus的场景,操作员需要穿着动捕服、佩戴头显等,然后再重复执行各项指令,动捕服可以采集人体运动姿态,头显则可以采集头、手运动等数据,这些数据最终会驱动机器人并作为模型的训练语料。

去年,外媒Business Insider曾报道,为满足机器人数据需求,特斯拉Data Collection Operator岗位(数据采集操作员)曾招聘了超过50多名员工。相比于直接运行机器人采集数据,真人训练无疑是一个更具性价比的选择,因为真人有着清晰的意图,目标明确,出错率低。从效益来看,单台机器人成本数十万元,长时间运行容易出现跌倒损坏、关节磨损等,而真人“抗造”得多。
另外值得一提的是,机器人训练师其实是一个对于体能要求很高的工作(可以参考下面的特斯拉招聘公告),外媒曾透露,特斯拉数据训练师需要背着沉重的训练服,日常工作是从事着拿杯子、拉窗帘等简单动作,有时候一个任务需要更换不同的姿势来完成并重复上百遍之多。

图源:特斯拉
延伸来看,人形机器人行业对于训练数据有着巨大缺口,物理AI仿真系统研发公司松应科技创始人聂凯旋曾透露,“整个行业现阶段拥有的具身智能交互数据只有几百万条,实际所需的规模可能在上千万甚至上亿万条。”机器人训练数据包含真机数据、仿真数据以及互联网数据。业内常见做法是先在仿真数据中训练,然后用真实数据进行微调。在这其中,真实数据占比不高,在10%-20%左右。
为了解决“数据荒”问题,今年国内一个有意思的现象是“人形机器人训练场”遍地开花。下图是今年9月投入使用的北京人形机器人数据训练中心,相关资料指出,场地占地上万平米,1:1还原了工业智造、智慧家庭、康养服务和5G融合四大类共16个细分场景,每年可产出超过600万条高质量数据。基于各种报道来看,VR头显虽说不是里面的主角,不过它作为辅助工具角色也有着很高的亮相频次。

回到1X以及它即将发布的Neo机器人,它率先将人形机器人推向家用市场无疑是一次抢跑,提前在真实家庭中部署,相当于把数据采集以及模型训练环节后置了,只不过这一举措是否会获得市场认可仍有待后续观察。
对于人形机器人,行业还有一个经常被拿来讨论的问题:为什么机器人一定要长得像人?
里面有很多种因素,比如这个世界的大多数基础设施是为人而设立的,如楼梯、过道、门把手、座椅、键鼠办公用品等,机器人设计为人形可以更好适应现有的世界。另外,人形机器人更像人,那么很多真人实操数据就相对容易迁移到机器人身上,比如前面所提到的“手把手”教学等。
除了遥控训练外,目前也已经有企业开始探索更前沿的机器人训练方案,比如特斯拉Optimus,最新消息传出,它已经放弃头显+动捕数据采集,并转为与汽车相同的纯视觉路线。数据采集员的角色依然重要,只不过它的装备变成了含有多个摄像头阵列的定制头盔以及背包,摄像头可以在运动时采集到第一视角视频以及手部关节等运动信息。特斯拉的目标是希望未来的机器人能够直接从人类视频中学习到新动作。

今年6月,Meta发布了面向研究人员的AI眼镜Project Aira Gen 2,官网表示它会是一款“革新情境人工智能和机器人未来的强大工具。”
佐治亚理工学院提出了一个名为EgoMimic的全新机器人学习框架,它能够基于Project Aira眼镜等所采集的人体第一视角数据用于训练机器人。它相较于真人遥控机器训练的方式在成本以及效率方面更具优势。研究指出,“得益于EgoMimic,研究员仅用90分钟的Aria采集视频,就使机器人在各项任务中的表现比以往方法提升了 400%。此外,该机器人还能够在之前从未遇到过的环境中成功完成这些任务。”
因而我们可以设想,当市场过渡到纯视觉路线,支持第一视角录制的AI/AR眼镜的重要性可能会逐步凸显出来。

对于人形机器人,目前市场分为了乐观派以及谨慎派。
马斯克在最新财报会议上透露,Optimus有潜力成为有史以来最成功的产品,Optimus将于明年量产,未来会实现年产百万台的目标。Figure AI CEO Brett AdcockFig则表示,通用机器人技术将在24个月内得到解决。未来十年内,世界上最大的公司将会是人形机器人公司,每个家庭都会拥有一个机器人。
另外也有观点指出,人形机器人最具价值的部分“手”的工程难度超乎想象,触觉对人手至关重要,但是很多设备依然稀缺。另外,人形机器人核心的AGI仍是一个漫长的目标。
无论如何,人形机器人逐步落地已经是正在发生的事情,而VR、AR也成为了其发展过程中的见证者以及亲历者之一。

菲律宾员工利用人形机器人+VR在日本便利店打工,图源:网络
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息