编译/VR陀螺
近日,Meta官方博客发表了一份题为《用我们的语言交流:揭秘AI眼镜上的实时翻译》的主题文章,里面提到了实时翻译功能背后的开发故事。
Meta最早曾在2024年Connect大会上基于Ray-Ban Meta演示了实时翻译功能,即眼镜用户可以听到其他语种并基于扬声器实时播放为本地语言,目前该功能是Meta旗下智能眼镜的标配,支持英语、法语、德语、意大利语、葡萄牙语(Meta Ray-Ban Display暂不支持)和西班牙语的互译。以下是博客主要内容:

实时翻译最初只是当时尚未发布的Meta Ray-Ban Display的一个演示功能。但项目团队很快意识到,已经上市的Ray-Ban Meta眼镜才是完美的测试平台。产品经理Nish Gupta指出,“得益于Ray-Ban Meta的五麦克风阵列,波束成形技术可以区分佩戴眼镜的人和他们的对话伙伴,从而有助于确保翻译的准确性。而且,我们无需依赖显示屏来显示翻译文本,而是利用眼镜的扬声器近乎实时地播放翻译内容。”
产品经理Emerson Qin指出,“这项功能的设计本身就非常复杂。它不在服务器端处理,所以要把一个功能强大、用途广泛的模型适配到无需联网即可运行的眼镜上——这本身就是一项艰巨的任务,而且还会带来许多其他难题。由于所有操作都在设备端进行,我们无法获得足够的信息或日志来改进这项功能。因此,在开发过程中,这给我们带来了很多挑战,我们难以了解开发进度以及产品质量是否真正达到了预期标准。而解决这个问题的最佳方法就是持续不断地进行测试。”
为了打造流畅的体验,模型必须进行优化,以适应眼镜的内存容量并避免过热。此外,团队还将延迟从5秒以上降低到2.7秒,提升幅度约为46%。Qin指出,延迟方面的改进得益于团队不断突破技术极限。“其中最显著的创新在于,该模型能够以流式传输的方式理解、翻译和生成语音音频——所有操作都在几个词的时间内完成,无需等待完整的短语或句子。”
软件工程经理Fei Wang指出:“这项功能仍在开发中。目前仍存在明显的延迟,准确率也并非完美。我们现在发布是为了随着时间的推移不断改进产品。它会变得更快、更准确,我们也会添加更多语言。”
Qin指出,“为了推出一种新语言,我们必须针对每个设备重新进行所有工作,因此很难实现规模化。我们还有很长的路要走,才能添加更多语言。一切都是定制的,所以请大家多多包涵。”
来源:Meta
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息