文/VR陀螺
去年9月,Meta首度对外亮相了AR眼镜Orion,虽说产品并未面向消费市场,但其诸多先进特性引起了外界广泛关注:如碳化硅刻蚀光波导、分体式无线计算单元、多模态AI能力等。
值得关注的是,Meta Orion率先为AR眼镜引入了肌电手环,它能实现自然输入,并且非常私密。关于肌电手环,Meta团队内部已经进行了多年研究,企业对这一技术非常看好,甚至将其视为人机交互的未来。有消息称,Meta即将发布的消费级AR眼镜Hypernova同样会标配肌电手环。
今年8月,Meta旗下播客Meta Tech Podcast更新了一场关于《如何构建通用神经运动接口》的节目,播客由Meta软件工程师Pascal Hartig主持,Meta EMG工程和研究团队的研究科学家Sean、Lauren.和 Jesse参与了本次对话。
播客中谈到了团队创建通用人机神经运动界面的途径,软件和硬件工程如何与神经科学协同等。以下是对话内容。
Pascal Hartig:今天,我们要探讨一个听起来像是从科幻电影里搬出来的话题——通用近端运动接口(generic nearer motor interfaces)。想象一下,只需轻轻动一下双手就能控制你的MR头显、AR眼镜或电脑。这可不是不切实际的空想,实际上,这是Meta正在开发的产品。
今天节目中,我们将探讨非侵入式接口与该领域之前的产品有何不同、AI如何参与其中,从而无需个性化训练,以及该技术对无障碍的影响。
今天我邀请到了三位杰出的嘉宾,Sean、Lauren和Jesse,请各位先做一下自我介绍。
Jesse:我是Meta的一名研究科学家。我在Meta大约工作了三年半,主要致力于肌电图(EMG)和计算机视觉的交叉领域。在加入Meta之前,我是学术界的一名研究员,研究大脑与身体运动之间的联系。
Lauren:我在Meta已经工作四年多了。我加入了EMG研究团队。再往前,我在一家名为SRI International(斯坦福研究所)的公司工作,我觉得它是一家承接研究项目的公司,我在里面做了很多不同类型的研究,包括脑机接口、雷达和扫描显微镜的研发。我有神经科学和生物医学工程领域的研究科学家背景。
Sean:过去4年,我一直在Meta担任研究科学家,致力于EMG与文本输入交叉领域的工作,目前正在为文本输入制作不同的EMG方法原型。在这之前,我在哥伦比亚大学完成了理论神经科学的博士学业。
Pascal Hartig:在开始之前,谁能告诉我神经运动接口到底是什么?
Jesse:有些听众可能熟悉脑机接口的概念,这是一种通过植入电极或使用置于头部表面的电极,直接与大脑产生的电活动进行交互,并利用这种电活动来控制计算机或其他设备的技术。你可以简单地想象一下,比如,在电脑上移动光标,看着它移动而无需做出任何身体动作。
至于神经运动接口,它与脑机接口类似,但它不是读取大脑活动,而是读取肌肉活动。我们的肌肉在收缩时会产生电活动。这些可能是非常微小的冲动,当然它们也受大脑控制,所以在某种意义上,通过读取肌肉的电活动,你也在读取传递到这些肌肉的神经信号。
Pascal Hartig:之前您在《自然》杂志上发表了一篇题为《用于人机交互的通用非侵入性神经运动接口》的论文,你能大致给我们讲一下里面的内容吗?
Jesse:这项工作实际上处于脑机、脑机接口和人机交互的交叉领域,目标是创建一种能在不同人身上通用的神经运动接口。我们可以把这个计算设备放在任何人身上,让他们能够用它来控制电脑、输入文本、控制光标,或者玩电子游戏。
在这之前,这些计算机接口已经存在,但有一个问题,那就是泛化性,即你可以从一个人那里获取大量的训练数据,如大脑上的电极,手臂上的电极等来控制计算机,让他们想象1000次光标移动,或者让他们用食指做1000次捏合动作,这样你就可以构建一个模型,该模型能够理解来自身体的电信号,以及这些信号如何预测光标或手势的移动,但这个模型无法推广到新的人群。当你拿着这个接口试着把它戴在另一个人身上,让他们控制电脑,让他们做出小手势,结果却根本不管用。
这篇论文背后的理念是,我们开发了一种策略,它能实现通用控制,即适用于任何人的控制方法。而且我们采用的是非侵入性的方式,所以你不必将电极植入大脑或其他身体的任何部位。
Pascal Hartig:你能否谈一下这种非侵入性神经运动接口与其他输入方式之间的差异?
Jesse:我们的神经测量仪接口依赖于一种名为表面肌电图的技术。表面肌电图意味着它的记录发生在你身体表面,而肌电图则意味着它读取你肌肉发出的电信号。
其实市面上已经存在各种各样的设备可以用来向计算机输入信息,比如鼠标、键盘,手部追踪,可配合摄像头使用的系统,甚至还有脑机接口等,后者需要在大脑中植入电极。
我们在论文中描述的神经运动接口实际上是一种腕带。你只需要戴在手腕上,就可以开始使用。相比键盘或鼠标,你不需要摆出“电脑操作姿势”,不需要特地去操作另一种设备。你可以用任何自然的手部动作来完成输入。因此,它也可以应用在移动场景下。比如,当你戴着一副智能眼镜走路时,你显然不会随身带着鼠标;而摄像头也可能无法识别放在身体两侧的手,但腕带就能很好解决这个问题。
Pascal Hartig:肌电手环思路很好,但是你们如何找到一个对每个普通人都有效的方案?
Jesse:这里的答案实际上与现代发展、AI和大语言模型有关。比如AI模型中有一个Scaling Laws的概念,即随着模型中参数数量的增加,现代基础模型、大语言模型的性能会出现可预测的提升。Scaling Laws也适用于这些神经运动接口。
你采用一个模型来预测佩戴这个手环的人的手势。如果你用10个人的数据来训练它,甚至用100、1000个人的数据来训练它,最终你会看到一条非常可预测的幂律曲线,该曲线能预测你将获得多大的性能提升。所以,背后的关键发现是这个AI缩放定律,你可以用它来指导这些界面的设计。当然,背后离不开的是,如何构建一个能够从100人或1000人那里收集数据的系统,这涉及大量的硬件和软件工程。
Pascal Hartig:Meta Orion上面的肌电手环很小巧,并不显眼。关于产品体积想必给你带来了一些设计上的限制,团队如何保证设备在体积小巧的同时又足够强大、能够捕捉所有所需数据?
Jesse:这是一种新型的计算界面,之前就有人尝试过这么做,只不过没有人真正成功过,也没有人真正知道要打造这样一个设备需要付出什么。
在这之前,人们在临床环境中通过将电极线植入皮肤来进行肌电图检查,一些研究用途的高精度设备甚至带有湿凝胶,使用时需要把它涂满全身。Meta肌电手环团队前身是一家名为CTRL-Labs的初创公司,后来被收购。CTRL-Labs最初的产品是带有电线的运动腕带,电线直接露在外面,到现在,我们已经升级为阵列设备,它们非常轻薄,这是不断迭代的结果。
我很难准确描述我们硬件和工业工程师的卓越才华,但他们通过持续的迭代周期来缩小电极尺寸,并真正找到合适的设计。而精密的电子工程技术让你能够以令人惊叹的保真度记录肌肉活动的量子、运动单位动作电位等信号。
Lauren:我认为腕带的另一个主要设计考量是舒适度,这是我们希望人们整天都佩戴的东西,它必须外观好看,且易于穿脱。而且电池续航时间必须长。这些都是打造一款消费级产品所不容忽视的因素。
Pascal Hartig:之前我曾体验过Orion的肌电手环,当时虽说仍是一个原型,但已经非常接近市场化了。到了现在,在后训练阶段,当这些模型被投入线上使用时,它们的表现情况有何变化?
Lauren:当有人真正使用这个设备时的体验才是最重要的。你知道,当我们训练一个模型时,它是一个机器学习系统,我们会有一大堆指标可以参考。比如大多数从事 AI 的人都熟悉的那些指标:假阴性(false negatives)、假阳性(false positives)、F1分数。我们一直在努力优化这些指标。
但归根结底,关键还是它在真实线上环境中的表现。我们有一整套不同的评估方式。其中很多评估是在Jesse提到的实验室设施里完成的,我们在那里进行数据采集。我们在开发评估协议上投入了很多精力,也就是设计一些让人们执行任务的方式,以此来模拟真实的使用场景。
当然,我们希望得到的结果是具有普适性的,能适用于不同人群。因此这里一个非常关键的点,就是确保我们在一个多样化的人群样本上进行测量,并且确保人们能够顺利完成任务。比如接下来会谈到的手写任务或输入任务,以及像在菜单中导航这样的操作。
Lauren:我认为,通用使用场景的一部分就是要评估学习过程。因为这是一个面向消费者的设备,它应该开箱即用,而不是让用户花上三天时间去学习如何做EMG手势。所以我们评估的内容之一就是:一个人能多快戴上手环并立即开始使用。这在我们的评估中是非常关键的。
我觉得最后一个部分是把实验室里的线上评估和我们的产品合作伙伴联系起来。因为最终,用户并不会在现实中去做那些实验室任务,他们真正会做的是打电话,或者以产品设计的方式去使用它。所以我们必须确保:我们在实验室里获取到的信号,与产品在真实使用场景中得到的信号是一致的。
Pascal Hartig:你们反馈周期是怎样的,比如当你发现某件事没有按预期运行时,你如何调整你的模型,使其能与你收到的日常反馈相适配?
Lauren:这确实是我们工作经常面临的问题,我们设计在线任务或试图评估实验室任务时,并不总是能一次就做对。
当前最有趣的事情之一就是开发迭代周期。我们会尽量从多个来源获取反馈,比如问卷调查、错误报告等方式。然后我们会对评估指标进行调整,把这些反馈融入到开发指标里,以便获取更大的信号,看看是否能发现某些趋势,并尝试去修正这些趋势。
因此,我们会不断调整评估方式、数据收集方法以及建模策略。可以说,这是一个完整的反馈闭环。
Pascal Hartig :前面你提到了大语言模型,它对我这个非AI研究人员来说,听起来有点令人困惑,特别是肌肉活动的检测,它似乎与“大语言”相去甚远。这是如何运作的?
Sean:最近在生成式 AI(Gen AI)、大语言模型(LLM)以及语音识别技术方面的许多最新进展,其实都可以应用到我们关于神经接口文本输入的挑战性研究上。
简单描述一下,我们过去发表过一些关于按键结构识别(Keystruc recognition)的研究,比如双手触控打字;或者更近期的手写识别研究,用户佩戴手环在一只手臂上,以自己的书写风格写字符,机器学习模型可以识别这些字符。
我们的早期研究在很大程度上受益于与Meta内世界级的AI和语音专家的紧密合作,同时也借鉴了FAIR(Facebook AI Research)团队在模型架构、损失函数、数据增强、数据预处理等方面的技术,这极大提升了识别人类行为并生成文本的模型性能。
用EMG手环实现手写输入,图源:Meta
Pascal Hartig:当我戴着腕带时,它的手写识别功能是如何工作的?
Sean:设想一下这样一个场景:你正在使用WhatsApp或Messenger,你想给朋友写一条消息。你会看到输入框,以及你正在输入的字符。也许你是在自己的另一只手上书写,或者是在面前的桌面上书写,甚至是在大腿上书写,而你只是用自己自然的书写风格来写字。系统会识别你所写的字符,然后我们利用语言建模技术来推断出你想发送的文本,自动补全这些消息,最后再把它们发出去。
Pascal Hartig:这真的很棒,因为总会存在一些场景,语音转文字并不是理想的沟通方式。比如我在地铁里坐着,想要给伴侣发一条有点私密的消息,我肯定不希望对着眼镜或者手机大声喊出来。
Jesse:我还想说的一点是,对我来说,这项技术能实现,依然是非常不可思议的。当我第一次来到这里的时候,我看了下这些腕带采集到的原始信号,完全就像一堆乱七八糟的数据。要是你去看当时的学术文献,那个时候,用这些信号来完成 26 个字母的识别任务,尤其还是在这样受限的硬件上,几乎是完全不可思议的,感觉就是个异想天开的点子。所以我觉得真的非常惊人,团队在为一个极具挑战性的问题真正推动这些高精度模型的发展。
Pascal Hartig:在这件事上,我可能会成为你们的最终挑战,因为我的字迹实在太糟糕了。就算我用Apple Pencil在iPad上写字,它都很难认出我写的是什么。所以,如果你们以后想要寄一个原型机给我测试,我很乐意帮忙。
Sean:是的,我们确实越来越能体会到,在书写和自然人群中存在着巨大的行为差异,而我们会把这视为一个关键挑战来解决。
Pascal Hartig:你们都是研究人员,你们是如何与那些把研究成果变成真实硬件的人合作的?
Lauren:我刚才稍微提到过一些实验室里的评估,但其实在产品场景中的评估才是我们和产品团队建立联系的关键方式之一。我们一直在向产品开发者收集反馈,他们会测试设备,并尝试把我们EMG团队开发的交互方式融入产品中,让它真正变得可用、好用。
此外,我们有时也会向他们提出一些新的交互方式。比如,就像Jesse说的,可能某个产品开发者从来没想过“手写”这种交互方式是可行的,而我们要做的事情之一,就是推动EMG的可能性边界,去思考一些全新的、有创意的方式,把它融入到产品里。
最后,我们也会去思考EMG在无障碍和其他不同人群应用中的潜力,确保这些技术能被更广泛的人群使用。
Pascal Hartig:关于无障碍技术,我觉得EMG对于正常人以及一些有特殊无障碍需求的人来说,意义完全不一样。那么在这方面有什么故事吗?
Jesse:其实对于我们来说,Meta的目标就是打造所有人都能使用的设备。这也是团队里很多成员的个人兴趣方向,我们团队不少人都受过脑机接口(BCI)领域的训练,而这个领域本身就是为了在运动或输入能力丧失时帮助恢复功能。
对我个人来说,这也是一个很重要的领域,因为我有直系亲属依赖无障碍设备来与计算机交互。我们真的相信,神经运动接口会成为无障碍领域的一个巨大突破,这是一种非常强大的工具。它的作用体现在以下几个方面:恢复输入能力:即便一个人完全不能移动,或者动作过多失控,也依然能通过这些接口完成输入;个性化动作风格:让使用者能够根据自己残存的运动方式,个性化地控制设备。
我可以稍微展开讲几个例子:
与卡内基梅隆大学(CMU)合作:我们在一些脊髓损伤患者身上测试了这些设备。他们的肢体完全无法运动,但仍然保留一些残余的肌肉活动。通过这些设备,他们依然可以控制电脑、玩游戏、甚至打电话。
应对震颤患者:在另一项研究中,我们发现即便是有严重手抖等过度运动的情况,也仍能识别出他们的动作。通用模型(generic model)的强大之处在于,它能泛化到这些“异常”运动场景,这正体现了现代AI的泛化能力。
有限运动能力者:最后一种情况是,那些活动范围有限、力量不足的人——他们可能没办法用鼠标,没办法打字,甚至没办法完成常规的手势。而我们的模型通过检测“意图”,能够根据他们残余的运动自由度个性化定制输入方式,让他们依然能使用计算机和智能设备。
Pascal Hartig:如果一种技术能够很容易地获得和使用,它确实能带来很大的改变。我最近刚看到一篇报道,它说一些人已经把Ray-Ban Meta智能眼镜当作一种无障碍工具来用。其中一个原因是,它们相比医疗领域里搭载类似功能的设备来说,价格要便宜得多。
Jesse:是的,我也补充一点,其实在Netflix上,有一半的观看行为使用了字幕。这就说明对无障碍功能和个性化的需求是非常巨大的。而我认为,AI在这里面有巨大的机会,能够为人们提供这些输入和支持。
Pascal Hartig:团队背靠Meta,这对你们实现目标有多大帮助?你们前面已经提到与产品团队的合作,除此之外还有哪些协同领域?
Jesse:比如说我们最近在Nature上发表的论文,这篇论文有多达200位作者,他们来自非常广泛的专业领域,包括软件工程、硬件开发、神经科学、机器学习和人工智能等。能把这些人汇聚到同一个平台上,需要一个非常特殊的环境和时机。
而且这背后还有一点,就是要有人敢于下注。因为这项技术是高风险的,它不像打造一部手机那样确定可行,我们并不能完全确定它一定能成功。所以必须要有一家公司,既能把这些人聚在一起,又足够相信他们,愿意支持他们工作过程中不可避免的各种挑战。
Sean:我们从中受益良多。比如,我们的研究能够接触到世界级的语言建模和语音领域专家,不管是从他们那里学到的方法论和算法经验,还是在大规模GPU集群上高效训练的技术,这些都让我们获益匪浅。这是我在这里工作时感受到的最核心的收获之一。
Lauren:我想补充一点,我们正在开发的模型是与硬件生产团队、固件开发团队协同工作的。我之前已经谈了很多关于产品的内容,但实际上这些东西必须整合在一起。每一次我们发布新版本或者对产品进行更新,我认为这真正体现了Meta在生产方面的卓越能力,以及整个过程的顺畅。我个人也确实从中学到了很多。
Pascal Hartig:作为论文发布的一部分,你们还发布了一系列开源仓库。能不能介绍一下里面都包含些什么?
Sean:我们对最近发布的一些EMG数据集感到非常兴奋,其中涵盖了大约100名用户在核心交互任务上的数据,比如双手打字、手写等。令人振奋的是,我们大约六个月前在NeurIPS上刚刚发布的一个数据集,就已经有人基于它撰写论文并投稿到学术会议,在这项技术上取得了新的进展。所以,这是一种很好的方式,可以吸引更广泛的学术群体参与和合作。
网络泄露的Meta AR眼镜新品及其附带的肌电手环,图源:网络
Pascal Hartig:你和你的团队接下来会有什么新计划?你们现在的关注重点是什么?
Jesse:你知道,就EMG来说,其实还处于非常早期的阶段。正如你提到的,我们和Orion一起发布了一个原型产品,但目前还没有真正的消费级设备。回顾过去,我们甚至有一个小小的“博物馆”,里面陈列着早期的EMG腕带,从最初的“汗带+导线”版本到后来的原型机。而且,正如人们常说的,底层还有很多空间,我们仍然有很大的余地去做小型化和精细化。
另外,我们仍处在AI与人体生物学交互的早期阶段。所以我认为我们将会继续构建新的交互方式,探索在设备中利用EMG的新方法。正如Sean提到的,仅仅六个月,我们就已经看到有人基于我们开源的研究进行二次开发。所以我相信未来还会不断出现意料之外的新突破和新收获。
Lauren:对于我来说,我个人非常期待看到这些研究成果最终会诞生怎样的消费级产品。我们的使命是要彻底革新人机输入方式。所以我们真正想做的就是改变人们将信息输入设备的方式。而这只是一个开始。
Sean:我自己其实只是单纯着迷于观察人们如何享受使用这项技术,他们喜欢什么,不喜欢什么,以及我们如何为人们创造更好的体验。
Pascal Hartig:感谢大家贡献自己的研究成果,并为我们所有人铺平了EMG输入设备功能的道路。感谢收听本期Meta Tech播客,我们下期再会。
来源:
https://www.meta.com/blog/reality-labs-surface-emg-research-nature-publication-ar-glasses-orion/
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
版权申明:本文为VR陀螺原创,任何第三方未经授权不得转载。如需转载请联系微信:vrtuoluo233 申请授权,并在转载时保留转载来源、作者以及原文链接信息,不得擅自更改内容,违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处,如涉及版权问题,请联系本网站协商处理。
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息