文/VR陀螺 豌豆
苹果在WWDC25的一场开发者会议上悄然推出了一种新的空间音频(Spatial Audio)格式:Apple Spatial Audio Format(以下简称ASAF),苹果表示这将带来“真正沉浸式的音频体验”。
ASAF是什么?它与杜比全景声 (Dolby Atmos) 或三星和谷歌的Eclipsa Audio等竞争对手的空间音频格式有何不同?更重要的是,它对像创作者、工程师和听众意味着什么——尤其是那些已经通过苹果现有空间音频产品(例如AirPods Pro 2等)享受到乐趣和沉浸感的人。
虽然立体声音频仍然可用,但现在更苹果建议创作者使用Apple Positional Codec(以下简称APAC)进行编码,为此有必要了解空间音频本身,以及ASAF如何融入苹果的战略。
空间音频赛道的格式之争
空间音频是一种在三维空间中传递声音的方式,并非将音频置于固定的左右立体声场中,而是允许声音在听众的上方、后方、下方或四周环绕。它能让用户在听音乐、看电影或玩游戏时,仿佛置身于一个由声音包围的环境中。
虽然杜比全景声已成为家庭影院和流媒体内容空间音频的一大标准,但它并非唯一的选择。杜比全景声的工作原理是,对可在3D空间中动态定位的音频对象进行编码,然后根据听众的扬声器配置或耳机设置进行实时渲染,主要依赖于预定声音位置的概念。
相比之下,苹果推出新音频格式的这一举措既更像是对杜比全景声的拓展:杜比全景声可以通过苹果的新音频格式进行传输,该格式能够在此基础上添加一些额外的空间音频效果。苹果要求所有针对Vision Pro的新沉浸式视频内容必须采用APAC格式。创作者仍然能够使用杜比全景声,但他们需要将其封装在苹果定义的这一新格式中。
苹果推出了新的空间音频格式,不由得让人联想起今年1月的CES大会上,三星和谷歌发布的Eclipsa Audio格式。
2023年,由三星、谷歌、Netflix、Meta及其他顶尖企业组成的开放媒体联盟(AOM)正式采用空间音频模型和格式(IAMF),确立其为3D音频的产业标准。Eclipsa Audio将在今年为某些YouTube视频上提供3D音频体验,同时三星2025系列电视与条形音箱也将支持该标准。
多年来,三星一直不支持动态HDR元数据的Dolby Vision(杜比视界),而是选择推广其首选的替代方案HDR10 Plus。至此,三星和谷歌对开源3D音频进行类似HDR10+的竞争性或替代性推动,将使免费的Eclipsa Audio成为杜比全景声的竞争对手。
这对社交媒体来说,尤其是YouTube这样的视频平台,能够以一种较低成本的方式为用户提供沉浸音频体验,能为创作者的内容分发带来一定的支持。
苹果的头部追踪空间音频技术会监测到用户的头部运动,并相应地调整声场。如果用户将头向左转,音频就会“锚定”在屏幕上,让人感觉声音来自一个固定的方向。
ASAF的出现是否会引发另一场音频格式大战?
杜比的收入模式依赖于授权,Eclipsa Audio以开源的方式走向视频流媒体,目前平台间的战火还未被点燃。但苹果的目的很可能是想早一步布局,推动苹果生态系统中的差异化,尤其是Vision Pro。由此来看,ASAF更像是有着专业性、高度优化且深度集成于苹果沉浸式视频内容体验的特点,且更希望能保持对自有平台上高端沉浸式体验的控制权。
苹果的新格式ASAF提供了更高的灵活性和真实感。但要理解其背后的原理,还需要了解Apple引入的技术栈。
ASAF格式,苹果的下一代空间音频革新
ASAF作为苹果全新的音频框架,旨在打造具有完全沉浸式、头部追踪和环境感知的音频体验。ASAF格式在WWDC25的开发者会议视频“了解苹果沉浸式视频技术”上正式亮相,这也标志着苹果在空间音频创作领域的一次重要革新。
苹果此次更新的空间音频分为两部分:
据苹果沉浸式视频工程师Blake Gordon介绍:“ASAF通过确保使用声学提示来渲染音频,实现了真正外化的音频体验。它由新的元数据、LPCM(一种无损音频编码方式)以及苹果平台内置的强大空间渲染器组成。它通过众多点源和高分辨率声音场景或高阶环绕声,产生高分辨率空间音频。渲染的音频完全基于对象的位置和方向,以及听众的位置和方向进行自适应。所有这些都不是预先设定的。ASAF中的声音来自任何方向、任何位置和任何距离。ASAF包含在带有线性PCM信号和元数据的广播Wave文件中。”
可以说,ASAF的渲染引擎是基于对象且具有环境感知能力的。它能让声音感觉仿佛存在于用户周围的真实3D空间中。它不仅能实时适应用户的头部运动,还能根据物体的位置进行调整,在虚拟环境中动态调整音量、回声和混响等效果。
APAC,可作为编解码器可将对ASAF这一音频格式进行编码以便于传输。可在除watchOS之外的苹果平台上使用,包括tvOS、iOS、iPadOS、macOS和visionOS,但在visionOS上会表现更佳。并支持通道、对象、高阶环绕声、对话、双耳音频、交互元素及可扩展元数据的配置。苹果以此进一步扩展空间计算生态中更丰富、更有层次感的音频效果。
而且,APAC编解码器可在低至64kbps的比特率下工作,最高可达768kbps。而常见的立体声音乐码率包括128kbps、192kbps、256kbps和320kbps,其中320kbps的MP3文件可以提供接近无损的音质。虽然APAC这一数值看似较低,但与苹果、Netflix等公司当前用于流媒体传输杜比全景声的最大比特率相同,因此可满足当前所需音频质量标准。
Vision Pro采用开放式音频设计,双驱动单元音频单元可提供个性化音效,并根据音频光线追踪进行自适应调整
ASAF和APAC共同构成了高分辨率自适应空间音频的管道,可深度融入苹果的生态系统,尤其是visionOS和Vision Pro头显。与杜比全景声略有不同的是,杜比全景声可以模拟用户静止地坐在虚拟影院中,而ASAF则可以根据以下情况动态调整音频:
这几点使得ASAF成为苹果空间计算内容的理想格式,包括VR/AR内容、沉浸式视频和类似Vision Pro上的交互式体验。ASAF的优势在于其音频并非预先渲染混响、回声或距离等效果,而是基于元数据和头部位置进行实时渲染。这使苹果能够根据不同环境和场景动态调整体验。
例如在Vision Pro观看沉浸式视频的虚拟音乐会时,可能会有更好的体验:当你转头看向舞台左侧,ASAF会实时调整歌手声音的方位,同时根据虚拟场馆的环境动态添加混响。
苹果押注空间音频赛道,不仅是将ASAF作为技术升级的一环,而是战略性地将空间音频内容与消费端连接的重要举措。
苹果有着软硬件的完整生态链,ASAF旨在贯穿整个技术栈:它支持苹果多个系统平台;支持头部追踪的耳机和头显;通过iPhone 16或专业录音工具进行音频捕获;在专业工具如Apple AAX插件或DaVinci Resolve Studio进行内容创作,并能以“.MP4”格式交付。
此外,对于新版visionOS中新增的Apple Projected Media Profile(APMP)视频格式,即对QuickTime或MP4视频类型的支持。Vision Pro使用的是与Meta Quest和YouTube VR上支持的同样Ambisonic音频格式。录制完成后可以将音频编码为APAC并与APMP视频混合完成交付。
写在最后
空间音频技术的潜力不仅限于影视内容和游戏,苹果曾在2023年发布过一项关于将空间音频用于导航的专利,通过AirPods、智能眼镜以及Vision Pro等产品,利用声音引导用户去往目的地。空间音频也有望被用于治疗、听力康复、教育培训、音乐会等场景。苹果正在构建从内容创作到消费者的完整沉浸式生态。
图1展示了使用iPhone和AirPods的空间音频导航;图2A展示了空间音频导航可以与未来的智能眼镜或Vision Pro一起使用(图源:Patenly Apple)
只是目前许多标注为“杜比全景声”的音轨听起来平淡或不自然,这可能是由于混音质量差或从立体声自动升频所致。空间音频背后的艺术性有待深入挖掘,且文件格式其强大程度取决于其背后的生态系统。ASAF强大的功能也带来了更高的复杂性,博主“Hugh Hou”声称ASAF使用了数量惊人的声道,制作难度颇高,创作者至少需要一个Voyage Audio Spatial Mic才能开始使用。
可见ASAF不仅仅关乎音质,它更是一种从空间、交互和用户体验角度思考音频的全新方式。空间音频已不再是奢侈品,而是未来沉浸式内容的必需品。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息