游戏评测

推广

AI教母的「空间智能」，或掀起XR第一次大模型技术革命

发布时间：2024-07-30 09:45 | 标签： AI 计算机视觉李飞飞 World Labs 空间智能

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

文/VR陀螺冉启行

在众多的 AI 创业公司中，“World Labs”可能是最特别的一个。

被誉为“AI 教母”的知名华裔计算机科学家李飞飞创立了一家名为 World Labs 的初创公司。近日，据英国《金融时报》消息，这家公司仅仅成立四个月，估值已超过 10 亿美元。

World Labs 希望利用类似人类的视觉数据处理能力，使 AI 能够进行高级推理，这项研究旨在使 AI 像人类一样，类似于 ChatGPT 在生成式 AI 中所做的那样。

李飞飞将其目前所研究的工作称之为「空间智能」——值得注意的是，这与苹果推出的「空间计算」设备 Vision Pro 在命名上有着异曲同工之妙，是商业策略上的巧合，还是技术演进的必然趋势？基于李飞飞的过往履历，TED 演讲以及最新爆料，World Labs 极有可能引领一场新的 XR 技术革命。

「AI教母」李飞飞的传奇履历

“AI 教母”的传奇履历，是超级学霸，更是技术奠基先驱。

李飞飞，1976 年出生于中国，后随父母移居美国，毕业于普林斯顿大学（学士）、加州理工学院（博士）。在校期间，堪称学霸级别，成绩十分优异，在普林斯顿大学获得了物理学学士学位（主修），并获得应用和计算数学以及工程物理学证书，后在加州理工学院拿下电气工程博士学位。

李飞飞以其在计算机视觉和人工智能领域的杰出贡献而享誉全球。她最为人所知的成就之一，是创建了 ImageNet 数据库，该项目花费数年时间整理了 1500 万张图像，极大地推动了 21 世纪 10 年代计算机视觉技术的迅猛发展。李飞飞的研究工作不仅在学术界产生了深远影响，也为业界带来了革命性的变革。

目前，李飞飞担任斯坦福大学红杉资本计算机科学教授。在斯坦福大学，她担任人工智能研究所的联席主任，同时也是视觉与学习实验室的联席主任，期间她引领了多项创新项目，为人工智能领域的理论与实践做出了重要贡献。当然，她也曾涉足商业巨头，曾是 Twitter 董事会的一员，也曾在谷歌云担任过人工智能/机器学习首席科学家兼副总裁。

2017 年，李飞飞与合作伙伴共同创立了 AI4ALL，这是一个致力于促进人工智能领域多样性和包容性的非营利组织。该项目是与梅琳达·弗朗西丝·盖茨（美国慈善家、比尔盖茨前妻）和黄仁勋（NVIDIA 创始人）合作创建，进一步扩大了其在 AI 领域的影响力。

李飞飞的研究领域涵盖了人工智能、机器学习、深度学习、计算机视觉以及认知神经科学，她的工作横跨多个学科，其研究成果主要发表于《自然》《美国国家科学院院刊》《神经科学杂志》《国际计算机视觉会议》《欧洲计算机视觉会议》等知名期刊。

她在学术研究上取得了非常多显著成果，还因其卓越的贡献获得了诸多荣誉，包括「国家级」的认可。李飞飞先后于 2020 年当选为美国国家工程院院士和美国国家医学院院士，2021 年当选美国艺术与科学学院院士；2023 年，她还接受联合国秘书长安东尼奥·古特雷斯的邀请，成为联合国科学顾问委员会的成员；2023 年，她荣登《时代》杂志评选的年度 100 位人工智能最具影响力人物榜单，并在同一年内荣获英特尔终身成就创新奖，表彰她对人工智能领域做出的突出贡献......

李飞飞在 AI 上的一系列贡献和影响力，让其被称之为“AI 教母”，可谓当之无愧。此外，从李飞飞的过往履历与研究涉及「计算机视觉」技术的范畴也非常之多，这是 AI 的一条重要分支，也为其在“大模型时代”创业（World Labs）奠定了基础。

空间智能：理解与行动的三维世界AI大模型

与大多数 AI 创业公司不同，World Labs 的「空间智能」大模型并非局限于简单的文字、图片和视频的生成与交互。

“空间智能是人工智能拼图中的重要一环。这是我 2024 年的 TED 演讲，讲述从进化到人工智能的历程，以及我们如何构建空间智能。视觉变成了洞察力，洞察力变成了理解力，理解力导致了行动，所有这些都产生了智能。”李飞飞在社交平台上如此写道。

在李飞飞看来，拍照并不等同于观察和理解，并且仅仅观察也是不够的，观察还要意味着行动和学习。当我们在三维空间和时间的世界中行动时，我们会不断学习，学会更好地观察和行动，而大自然创造了一个由“空间智能”驱动的良性循环。”

李飞飞在 TED 上曾表示：“我们在空间智能上取得了令人兴奋的进展。空间智能方面最近的里程碑是教会计算机看、学、做，并学会更好地看和做。这并不容易。大自然花了数百万年的时间才进化出空间智能，它依赖于眼睛接收光线，将二维图像投射到视网膜上，然后大脑将这些数据转换成三维信息。”

她举例说道：“谷歌的一组研究人员开发了一种算法，可以将一堆照片转换成三维图像。我的学生和合作者更进一步，创建了一种可以从单个输入图像生成 3D 形状的算法。回想一下，我们讨论过可以将人类语言转换成视频的计算机程序，密歇根大学的一组研究人员找到了一种将文字转换成三维空间的方法。而我在斯坦福大学的同事和他们的学生已经开发出一种算法，可以从一张图像中生成无限数量的可能空间供观众探索。”

李飞飞的演讲也透露了她的 AI 创业方向——即「空间智能」，正如 World Labs 这个品牌名字一样，这是关于三维世界的 AI 大模型的研究实验。而在四个月后的《金融时报》中，一位知情的 VC 人士也表示：“World Labs 正在开发一种能够理解三维物理世界的模型，本质上是物体的尺寸、位置和功能。”

这实际上关乎的是一种先进的算法能力，它能够将图像和文本信息精准地映射至三维空间，并据此做出相应的行动决策。笔者坚信，这一大型模型所带来的影响，远不止于对生成式 AI 产出的图片与视频内容进行“物体空间”层面的优化调整。

更为重要的是，它可能还预示着一场革命性的跃升，尤其是在那些深度依赖“计算机视觉”技术的领域，如机器人的智能化、自动驾驶技术的精进，以及 XR 设备交互效能的提升。这些领域都将因这一技术的「AI大模型化」而获得更为深刻的识别、理解与行动力。

CV：XR硬件中最能「差异化」的技术

让每台 XR 设备的 CV 算法都能“Vision Pro”化？

计算机视觉（Computer Vision，简称CV）是指使用机器学习来处理、分析和理解现实世界中的数字图像或视频，从而得出有意义的决策并据此采取行动。简而言之，计算机视觉使机器能够像人类一样识别和理解世界。

CV 技术在 XR 中应用广泛，推动了早期设备在交互能力上的多元化，并且降低了设备使用门槛和成本。如早期使用激光定位技术的 HTC VIVE 头显，不仅头显成本高，基站的部署也十分麻烦，使用成本较高；而在采用基于 CV 的光学定位技术之后，大大降低了整机成本以及使用门槛。

通常带有一个或多个摄像头模组，或拥有 6DoF 、手眼交互能力的 VR/AR 设备，几乎都用到了计算机视觉技术，代表产品包括 Apple Vision Pro、Quest 3、Magic Leap 2、HoloLens 2、PICO 4 系列、雷鸟 X2 等。当然，由于各家 CV 算法存在一定差异，交互方式与逻辑上也因各种专利限制，所以最终体验也不大相同。

目前的 XR 设备中，CV 扮演着人机交互核心的角色，直接影响用户到用户的近眼显示综合体验，它的关键应用包括：

第一，同步定位与地图构建（SLAM）：SLAM 技术使得 XR 设备能够在未知环境中实时构建地图，同时确定自身在该环境中的位置。这是 XR 技术能够提供无缝体验的关键所在。SLAM 确保了 XR 虚拟内容在现实世界中的精确放置，即使在设备或用户移动时也能维持稳定的空间关系。

在以往的 VR 体验中，如 Quest、PICO 等产品在开机后常常要求我们绘制安全边界，而此过程中，虚拟地图也会与现实世界地图进行贴合，通常误差越小，越能增强用户沉浸式体验，减少晕动症的产生，这是该技术在 XR 中的一项基础性应用。