游戏评测

推广

单摄实现SLAM定位与3D手势背后的难点与突破

发布时间：2023-03-23 10:01 | 标签： AR眼镜 SLAM Rokid Rokid Max Pro 3D手势

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

文/VR陀螺案山子

戴上眼镜，张开手掌，菜单立马浮现在手掌上，并跟随手掌移动；

手指捏合，便可进入应用；拖住一个3D模型，就可以把它拽到现实环境中，360度转一圈看一下，还能捏住模型对角进行拉伸和缩小……

《黑客帝国》电影中的酷炫操作，如今离普通用户越来越近了。

要说体验最为接近《黑客帝国》的产品，纵观全产业，微软的HoloLens如果排在第二必定无人敢说第一。但由于HoloLens中融合了众多传感器来实现高精度的SLAM定位与手势识别算法，也导致了其“类头盔”型的庞大体积，以及动辄3000美金的高昂价格，这个前提下面向消费市场几乎无望。

如果在不影响核心体验的基础上，保持一定精度，并将产品和价格都调整至更接近消费端的形态呢？

或许Rokid近日公布的全新一代自研AR空间操作系统——YodaOS-Master，首创基于单摄像头即可实现SLAM及3D裸手交互等能力，提供了新的参考思路。

双目、四目到单目

背后的技术难点与突破

至今为止，大部分VR或者AR设备上所使用的SLAM定位，大多采用了2个或2个以上的摄像头来实现，部分甚至会结合更多的深度传感器。

如HoloLens针对SLAM空间定位和手势识别，采用了4 个可见光摄像头、2个红外摄像头、1个ToF深度传感器，同时还结合了加速度计、陀螺仪、磁强计等辅助定位。因此它能够实现非常高精度的定位效果。

而目前主流的VR终端，也从早期的双目升级到了4目及以上，如Quest 2、Quest Pro、PICO 4、PS VR2等。

回到AR，关于定位追踪或手势识别的实现，并无大家“默认”的标准，毕竟每家的产品定位和定义以及主打的场景都不尽相同。只是对于消费市场，大家会一致将“轻便”作为产品的第一要素。

空间定位和手势识别的技术方案经过多年迭代发展，在成本、易用性、便携性、精准度和延迟各方面都迎来了较大的突破。

如空间定位的方式，从以可见光、激光、红外为主的Outside-In（由外向内）方式，进化到以CV视觉为主的Inside-Out（由内向外）方式，去除了冗杂繁琐的安装调试步骤，并且让VR、AR终端随时随地可实现6DoF空间定位。

手势识别同样如此，为了平衡功耗、重量以及对处理器的负担，摒弃红外、ToF等深度传感器，直接共用SLAM空间定位的硬件基础，通过算法优化来实现手势识别的技术方案越来越成为主流，Quest 2就是一个非常典型的案例。

只是，在追求极致轻便的消费级AR产品上，且不论四目，就连双目都稍显多余。因此，基于单目摄像头的SLAM和手势识别技术方案，逐渐变成了众多企业重点攻坚的技术难点。

原本双目或者多目的目的，一方面是便于获取深度信息，正如人的双眼，由于产生了视差所以能够判断物体的距离；另一方面则是为了扩大捕捉范围，所有摄像头都有FOV限制，而视觉定位的局限性在于，其不可被遮挡，同时被捕捉物体必须在摄像头的FOV范围内，所以通过增加摄像头，就能够让捕捉范围更广。

Rokid Max Pro（图源：Rokid）

而单目由于只有一个平面摄像头，无法用视差获取深度信息，如何实现SLAM定位？

VR陀螺与Rokid首席科学家周军博士、Rokid副总裁&XR中心负责人王俊杰，以及负责BSP和SLAM算法的马超，三位技术专家展开了对话。

据了解，使用纯视觉的单目摄像头，无法获取深度信息，也就是尺度信息，因此会分不清物体的远近距离。而恢复深度有两种方法，第一种是用双目或者四目，通过视差来获取，另一种方法则是通过不同的角度来观测同一个物体，利用前后帧补偿计算来获取与双目一样的视差信息，从而反推出尺度信息。其原理与双目类似，只是这个视差计算不在同一个时间内进行，而是前后关系。

而恢复尺度的时候，核心的问题则在于怎么确定前后帧两个不同视角之间物体的位置，因为这个位置需要标准的尺度信息来恢复，通过位置来反推物体的深度信息，所以要实现单目SLAM，惯性传感器（IMU）是必不可少的，也就是加速度计和陀螺仪，通过它们能够计算出真实的物理位移，然后反推物体的距离。

但是在处理的过程中会出现一个问题，在于加速度计本身的精度是不准的，会造成如果只是单纯用这种简单的方法来反推的话误差较大，所以需要一套初始化算法来精准地将尺度信息估算出来，这也是为什么大部分单目SLAM算法，需要一开始精确初始化。初始化时一般需要用户在空间内来回走动，但这将影响用户体验，因此在Rokid AR初始化的设定中，只需要用户稍微运动就能将深度信息计算出来。

从最开始数据的输入的准确性，到整个生产环节的标定，再到算法的运行，以及算法使用过程中的实时自我校准，都会影响到里面的误差。所以，AI跟深度学习在SLAM里面也占了一个比较重要的比重。特别是做一些快速的跟踪定位的时候，AI部分尤为重要。

现在Rokid定制了大视场角的摄像头，单目SLAM可以实现厘米级精度，整体上与双目SLAM相当。

图源：Rokid

除了SLAM空间定位，手势识别也是一大难题，这是因为手势具备高灵活性、高自由度的特点。并且相比于传统的2D手势识别，Rokid所关注的动态3D手势识别更具有挑战性。据了解，在3D手势识别的算法实现上，首先要从复杂的环境背景中精确地检测出人手所在的区域并标记出人手各个关节点的位置，然后利用人手本身的一些范式以及形状特性，通过不停地追踪人手各个关节点来估算反推出其深度距离，从而实现全自由度3D手势识别。从视频来看，目前Rokid的手势识别在3D空间中可实现多种操作，包括拖、拉、拽、点击等等，完全可以满足AR交互应用需求。

使用单目实现SLAM空间定位和手势识别，除了目前算法和精度还有待提升之外，其他的益处也很明显，首先减轻重量，使结构布局更简单，避免双摄基线变化带来的算法效果劣化，减少支架配重，相比双摄重量可减轻3-4g左右；同时还能降低功耗，一个摄像头的功耗约100～200毫瓦，相对一些AR三摄方案功耗可降低1瓦以上，而降低功耗的同时也可同步缓解发热、续航等问题；第三是降低成本，芯片选择性更大，集成度更高，大幅减少设计复杂度，整体成本降低15%以上，所以据了解Max Pro的售价与上一代差异并不大。

场景决定产品形态

“真AR”必备SLAM与手势

关于AR产品形态和交互的探讨从未停止，但并没有明确的定论。

如今市场上大家各自为战，产品形态或单目、双目，或分体式、一体式，光学方案或Birdbath，或阵列/衍射光波导……不同产品形态下，对应的场景也各不相同，工业、教育、文旅、观影、信息提示、翻译、骑行、游泳……

Rokid在B端和C端均有布局，在其看来，AR难以有统一的标准，最后需要根据场景来定义产品形态。

只是针对消费端，正如前文提到，轻便仍是首要考虑因素，而要在此基础上实现“真AR”，在其看来，SLAM空间定位与手势交互技术是必备的。

实际上最近市场上的诸多动态也反映出这一趋势，如高通去年年底推出的AR2芯片，主打功能就是无线和SLAM空间定位；此外，影目、雷鸟近期推出的新品也都带有SLAM功能。

“AR相比手机、电脑，更多是三维空间化的升级。手机电脑是平面上的二维交互，AR更多是三维的交互，对于我们来说，三维化的交互一定是我们核心的发力点。空间化的交互、空间化的感知，还有空间化的展现。”周军博士提到。

在操作交互方面，AR也纷繁多样，手柄/手机、语音、手势、按键、指环、手环……究竟哪一种是终极方案，现阶段仍然难以一概而论。

“我认为会有多种交互方式共存，根据不同的场景选择合适的交互。比如游戏它可能更适合一些确定性的交互，如指环、手柄等；对于交互不需要那么精确的应用，可能通过眼动追踪、手势识别就可以操作了；而对于需要精确输入，可能还是需要键盘鼠标，因为它的效率更高。所以也会根据不同的场景来搭配，到底是用什么样的交互方式做输入和输出。”对于未来交互的发展趋势，王俊杰继续补充道。

图源：Rokid

相对于VR主打娱乐属性，目前AR更适合从工具属性切入，直到未来走向全场景、全天候、随身携带的那天，或许就真正成为下一代个人计算平台。作为工具，它的易用便携性，则是Rokid如此执着于手势交互的关键因素之一。“3D手势是最为自然的交互方式，不需要借助外设，方便简单，最能体现人的本能意图。”王俊杰说道。

而且，Rokid认为，围绕产品和交互，AR企业才能在巨头林立的赛道中构建自己的护城河。

“交互部分，我们可以释放标准，一起合作建设，或者通过OpenXR这种方式一起来制定标准。因为交互不完全是纯算法部分，它还有很多硬件部分，所以很多交互的部分需要算法和底层技术一起去实现，这部分内容大厂是不会去释放出来的，这是AR厂商自己的核心部分。”马超说道。

探索“真AR时代”

让所有人都能参与到生态共建中

3月21日，Rokid召开Open Day发布会，不仅向我们展示了其对于AR产品、交互的理解和最新的技术动态，同时还呈现了他们对于未来AR这个大生态共建的决心。如今，Rokid已经从AR终端、系统、交互、创作工具、平台全面布局，并有序地推进。

1、消费级大屏入口，积累用户

自2021年年底Rokid第一代消费级AR产品Rokid Air发售，到近日公司CEO祝铭明公布该产品6万台已全部售出，短短一年多时间，Rokid踏出了消费端AR市场成功的第一步。

“‘把AR行业带入消费者时代’，Rokid Air已经完成了它的使命，剩余的交付任务就交给继任者。”祝铭明在公布Rokid Air销量时还留了个小悬念。

Rokid Max（图源：Rokid）

昨天的发布会上，“继任者”的神秘面纱也被揭开。除了上文中提到的Rokid Max Pro外，Rokid还发布了Air的升级版Rokid Max，在上一代的基础上提升了大屏体验。

Rokid Air与Rokid Max参数对比：

图源：网络

Rokid升级版的AR主机Station Pro，采用高通全新扩展现实平台第一代骁龙XR2+，该平台相较于骁龙XR2平台，可以带来30%的散热性能提升和50%的持续性能提升。主机还内置了12G RAM + 128G ROM，支持WIFI6/6E和BT5.1，基于Station Pro主机运行分体式眼镜，续航能力将是手机方案的2倍以上，同时具有更佳的散热和更高性能，可以达到厘米级6DoF跟踪精度和极低 MTP（Motion to Photon）渲染延迟。

正如手机以大哥大形态最早面向消费市场一样，AR在底层技术受限的当下，也不得不先从细分市场切入，而对于消费市场来说，既有的“大屏”观影需求，显然比游戏等重交互的场景更容易切入，所以大多消费级AR产品都瞄准了这条细分赛道。

对于Rokid来说，大屏只是切入消费市场的第一步，先积累种子用户，接下来，逐步扩充应用场景，融入交互，则是其要使用Rokid Max Pro以及基于单摄的自研AR空间化操作系统来下的第二步棋。

图源：Rokid

2、全空间化AR操作系统，场景交互提升至新维度

正如上文中提到，SLAM空间定位、手势识别将是AR产品中不可或缺的两项技术，而这两项技术融入后，现有的AR产品也将在交互层面全面提升一个维度。

为了更好地呈现单目SLAM效果，Rokid从系统底层着手，本次也带来了最新的全空间化AR操作系统——YodaOS-Master。该系统基于单摄像头即可实现SLAM、3D裸手交互、第一视角分享、视觉定位VPS等能力，可以支持多任务运行、空间创作等AR体验，给更轻量化、普惠的AR眼镜带来无限可能。同时，围绕感知、理解、协同、展现和数字资产五个方面，YodaOS-Master从芯片优化、硬件设计、软件架构、AR算法还有创作工具等诸多方面都做了全面升级。

YodaOS-Master（图源：Rokid）

基于YodaOS-Master的底层系统能力，场景拓展得到了极大提升。Rokid实际上去年下半年就使用单摄SLAM产品在部分场景上有过探索，如北京民生美术馆的“敦煌AR智能导览”，在该案例中，参观者戴上AR眼镜，进入莫高窟第285窟1:1复制的洞窟中，就可以看到以九色鹿为原型的数字讲解员“敦敦”浮现在面前，引导讲解1400多年前的西魏时期，第285窟壁画中的《五百强盗成佛》故事。

游客体验北京“敦煌AR智能导览” （图源：Rokid）

目前针对博物馆场景、街区导览或者办公室的导览等场景，Rokid已经形成了相对比较完善的整体解决方案，并且还在拓展其他更多轻交互的场景。

3、AR空间创作工具灵境，让所有用户参与到生态建设中

除了以上诸多软硬件更新迭代之外，Rokid本次还带来了一款让所有人能够快速实现AR空间创建的产品——灵境。

其包含空间采集&重构功能和3D场景编辑功能。使用灵境，通过普通的iOS和安卓手机的摄像头视频采集，在AI引导下，无需标定板，通过手机SLAM即可完成尺度恢复。并能针对不同环境调整参数，保证数据采集质量，“上传至云端”完成空间重构。据了解，其建图速度也相比市场主流方案更为快速，10平米空间用灵境平均只需要10分钟就能完成。

Rokid的目标是把创造AR空间体验这件事，变得可用易用，帮大家提升生产与合作的效率，支持各行业的业务标准化，并提供基于硬件的交互和系统能力，从而帮助大家一起重构未来混合现实空间下的人、物、场。

投稿/爆料：tougao@youxituoluo.com

稿件/商务合作：六六（微信 13138755620）

加入行业交流群：六六（微信 13138755620）

版权申明：本文为VR陀螺原创，任何第三方未经授权不得转载。如需转载请联系微信：vrtuoluo233 申请授权，并在转载时保留转载来源、作者以及原文链接信息，不得擅自更改内容，违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处，如涉及版权问题，请联系本网站协商处理。