深度报告

推广

Sora冷静期后，我们更关心AI+XR的组合能够带来什么

发布时间：2024-03-07 15:05 | 标签： AI XR AIGC Sora 智能硬件

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

文/VR陀螺

不可否认的是，OpenAI总能创造爆款。

赶在中国农历春节假期结束前，OpenAI又一次在社交媒体上投下了一颗重磅炸弹。新的人工智能系统Sora的出现宣告着现代内容的创建方式彻底改变。

图源：Sora

根据OpenAI的说法，Sora不仅可以文本提示生成时长达一分钟的视频，还能通过静止图像生成视频，或者通过扩展现有视频或通过生成缺失的帧来填补视频中的空白。

虽然该模型目前仅在申请内测阶段，但从国内外社交媒体的反应以及官方提供的实例来看，Sora生成的视频无论是在质量还是可靠性上都超越了该领域的“前辈们”，展现出成为下一个ChatGPT的强劲势头。

这固然有部分炒作的成分在，但不可否认的是，Sora的爆火现象的背后是人们对于信息革命之后第四次重大技术变革的全民狂欢，“多模态真人工智能”进化的又一个里程碑出现在了2024开年。

现实与虚拟的边界已被成功混淆

在 Sora 及其技术报告推出后，OpenAI几段长达 60 秒，高清晰度且画面可控、能多角度切换的高水平效果视频就在国内外社交媒体上疯传。

在Sora的魔法下，人们第一次知道AI生成的视频原来还可以这么逼真。

即使融入纪录片也毫无违和感（图源：Sora）

要知道，2023年AI的视频生成效果还是这样的：

真实但显然视频对象灵活性欠佳（图源：Pika）

仅仅过去几个月时间，文本生成视频技术实现了从5秒到60秒，从卡通动画到纪录片画质的飞跃，这放谁身上不汗流浃背。

逼真的视觉效果以及“未来已来”的社交媒体病毒式营销使得Sora成为2024年初AI领域最为破圈的存在，风头甚至盖过了几乎同一时间发布的Gemini 1.5，一时间无论是娱乐版块还是科技板块都充斥着Sora的身影。

一年前，一段由 AI 生成威尔・史密斯吃面的视频在网络上大火，仅在Twitter上该视频的播放量就突破了 800 万。

一年后，威尔史密斯于Sora刷屏后在自己的INS上上传了一则视频，并附文“越来越失控了”。

可以看到，视频画面分为上下两段：上半段显示是一年以前的 AI 视频，下半段则显示现在的 AI 视频。

图源：X

虽然大家很快就发现这只是威尔・史密斯在玩梗，视频下半段并不是AI生成，而是他自己录的，但还是有不少网友大呼受骗：“最令人毛骨悚然的是，你无法判断这是表演还是人工智能生成的。”

这也从侧面证明Sora的出现使得人们开始相信视频生成AI能够以假乱真，AI代替视频剪辑的时刻似乎已经到来。在Sora发布的另一则演示视频中，可以看到，人物在进食过程中的咬合动作，汉堡上的缺口以及牙印都与现实规律无异，完全不是一年前史密斯吃面的恐怖效果可以比拟的。

汉堡有瑕疵，但牙印很还原（图源：Sora）

不过，视频生成效果再好，也总有人能在其中找到瑕疵。许多影视行业人士在分析Sora生成的演示视频之后表示，虽然Sora在视频画质、细节、光影和色彩等方面表现出色，但目前还不能直接用于影视作品，因为其在涉及镜头运动角度和更精细内容调控方面仍存在不足。

一个明显的案例出自于这段视频，视频中人物在跑步机上逆向跑步，Sora显然还不明白运动的规律。

图源：Sora

还有一个佐证是四条腿的蚂蚁，Sora知道什么图像代表着蚂蚁这一单词，但对完整蚂蚁形象的理解还存在不足。

图源：Sora

然而，即使Sora还不够完美，但其生成效果也已经足够震撼，业内人士普遍认为Sora完全可以用于诸如概念设计之类的影视前期开发。

再加上OpenAI方面对于积极改进Sora不成熟之处的承诺以及AI语音克隆初创公司ElevenLabs等对Sora视频“声音缺失”的一系列问题的解决方案的推出，在突破现实与虚拟边界的小试牛刀后，Sora未来将为影视行业带来更多创新和突破。

爆火的背后，Sora踩中了什么流量密码？

Sora并非第一个问世的文本生成视频AI模型，但为什么只有Sora成为了现象级的全球爆款？

根本来看，一是视频质量的跨级别飞跃，二是“意想不到的核心技术”。

其中，Sora生成视频的质量大家有目共睹，光是60s的连贯视频生成时长就不是Runway和Pika能够比拟的。而视频质量的断层式领先的原因则被业内人士认为是在核心技术上的力大砖飞。

博主“Daily News”展示的三种模型生成效果（图源：X）

国内深度学习专家李沐认为，Sora类似于视频生成界GPT2向GPT3升级的时刻，模型跟前作DiT比可能变化不大，但使用了几百倍的算力，属于是大力出奇迹。该模型基于的ViT、DALL·E、diffusionmethods、VAE也并非新技术，这种demo效果拉满的应用，相信学术界和开源界会很快跟进。

与Runway和Pika不同，Sora在扩散模型领域使用了此前在GPT上就十分好用的Transformer方案，将文本模型的强前后文理解能力用在扩散视频的“帧生成”上。

图源：Sora

简单来说，Sora并不是直接将文本转化成视频中的每个帧，而是通过处理每一个Space timepatches（时空补丁）来补全整个视频。

这类似于3D生成领域的分块式生成，Sora分析文本后将整个视频内容代表的时空中的关键元素切割为包括物体、动作、背景等在内的对应图像补丁，并通过内置的知识图谱，以物理世界的数据信息将这些补丁重新整合成充满噪点的画面。最后通过扩散模型将噪点图像细化，成为逐帧生成的视频。

图源：Sora

在时空信息的约束下，Sora生成的视频内容显然更加忠于指令，相当于Sora提前给视频打好了脚本，视频中生成的内容就像演员和布景一般严格按照脚本运行，这同样也是此前Runway和Pika等无法做到的。

而这些成果都离不开Sora背后的核心团队。OpenAI 研究人员 Jason Wei 在自曝一份比996更加紧凑的每日工作时间安排清单后，收获了一众惊叹，他表示，“OpenAl is nothing without its people.（没有员工的贡献，OpenAI什么都不是。）”

图源：X

根据此前的社交媒体消息，Sora团队成员构成十分年轻化，团队中甚至有00后的科研成员。这些参与者中，已知的核心成员包括研发负责人Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。

与算力一道，人才被视作AI发展的基石之一，此前被误传为Sora作者之一的CV大神谢赛宁同样认为人才是Sora这样复杂的系统诞生的三大核心因素，其余两个分别是数据和算力。

靠着足够惊人的演示视频+全球第三大独角兽背后的年轻团队，Sora赚足了流量，还未发布就已经成为了拳打Runway，脚踢pika的文字生成视频领域的唯一神，甚至还在中国国内创造了新的“AI变现渠道”。

在Sora还没有公测之时，以李一舟为代表的“AI讲师”们就已经大张旗鼓卖起了网课，势要让“家人们”都赶上利用Sora赚大钱的第一波风口。

图源：网络

只是李一舟早已被扒出并不是 AI 方面的专家，其卖课内容也基本都是最基础的常识，更多的是“强调AI的强大和重要性”以及“用Sora关键词引流变现、卖账号、卖生成视频、卖使用教程”等互联网讲师们的老一套变现操作。与此前的“教你如何用ChatGPT”一样，属于是吃OpenAI的次生流量割韭菜。

普通人对于“AI取代说”的恐惧无可厚非，但AI技术发展太快，今天刚刚学会用Runway，明天就又冒出了更加强大的Sora，与其将焦点放在如何追赶最新的AI技术上，不如更多地关注AI的出现对生产模式的改变，毕竟未来AI都将朝着傻瓜式好用的方向迈进，发掘AI能在何种领域如何更好地增值内容生产才是未来打工人们更加应该关心的。

AI“一键生成广告图图”工具Amazon Ad（图源：亚马逊）

这也是Sora引起热议的另一个原因，借助这项文本生成视频技术，人们看到了AGI改变内容创作流程的实例。

AI+XR打造智能硬件的“明日设备”

在这之前，AIGC已经突破了文本生成、图像生成的关卡，如今，公认的创意媒介的最后一道难关——视频的一键生成也被打通，有了ChatGPT的成功案例在前，市场普遍认为Sora同样也能成为下一个改变工作流程的AI模型，而不只是停留在理论。

在Sora发布之后，网上就有很多关于OpenAI下一步计划的猜测。AI内容创作者“Kwebbelkop”称，OpenAI将收集用户发布的Sora视频的数据来进行模型微调，从而让Sora变得更加强大。

此外，OpenAI还将收集这些视频的观看数据增强Sora的RLHF（强化学习自人类反馈算法），这意味着每个人都能通过Sora一键创造出社交媒体热门视频。基于此，OpenAI甚至还将有可能推出一个全新的、完全由AI生成内容构成的视频平台，并与YouTube、TikTok等展开竞争。

图源：X

不过，OpenAI的野心可能不止于此。变革内容生产一直是人们对于生成式AI的关注焦点，目前，OpenAI的人工智能蓝图已经包括文生文的ChatGPT、文生图的DALL·E 3、文生3D的Shap·E以及文生视频的Sora。

在传统的智能手机、PC平台，我们已经见识过ChatGPT在AI生成领域的统治力。但交互模式单一的传统硬件显然未能激发多模态AI的全部潜能，就和AI颠覆过去一样，电子硬件产品同样也需要加速更新换代，以适应未来潜在的交互需求。

或许正是出于对AI交互生态的探索，OpenAI在2024年开年最火的终端电子设备苹果Vision Pro推出后，紧急将ChatGPT上架visionOS应用商店。

ChatGPT在Vision Pro上的推出对于OpenAI是一个重要的里程碑，直接向外界展示了未来AI（尤其是多模态AI）可能的更自然、更直观、更沉浸的交互方式。

Vision Pro的眼动、手势追踪（图源：苹果）

可以说，苹果Vision Pro与ChatGPT的合作使得XR设备再次被寄予成为人工智能下一代计算终端新选择的厚望，毕竟其在推出短短一个月内对于工作体验的颠覆就已经让很多科技大佬都直呼“amazing”。

在苹果Vision Pro正式发售后，有不少社交媒体博主开始佩戴Vision Pro进行各项日常生活、工作场景体验，其中有不少开发者尝试用Vision Pro进行编码工作，并得到了值得参考的XR工作体验反馈。

图源：苹果

IT企业家Willem专门用博客记录了他的初次Vision Pro编码体验，他表示：“它不仅非常便携，还能为你的眼睛提供一个完整的虚拟世界！这简直就像我随身携带了个庞大的多显示器设置一样。”

Willem及其他对Vision Pro持有好评的体验者将Vision Pro的优势集中在“沉浸”二字上，既能有媲美真实的编码界面，又能几乎完全屏蔽外界干扰：“在 Vision Pro 里你几乎与环境融为一体。我喜欢在窗口周围走来走去，看一些代码或服务器输出，感受它是一台大型工作机器。某种程度上来说，我感觉就像站在一个大机房里，这与传统的桌面体验完全不同。”

沉浸式编码体验（图源：willem.com）

而当苹果的AI时代到来之后，沉浸式编码的体验将更加魔幻。

知名科技记者马克·古尔曼爆料称，苹果公司准备在iOS平台编程软件Xcode的下一次大版本更新中加入AI功能，以对标微软旗下的GitHub Copilot。

虽然消息表明了苹果该项功能更新意在为iOS 18、iPadOS 18和macOS 15创造尽可能多的人工智能新功能，但作为苹果苹果未来生产力闭环的重要组成部分，AI功能上线visionOS只是时间问题。

AI对编程效率的提升是显而易见的，根据Github官方的一篇博客，自发布以来，GitHub Copilot已帮助超过100万人提高了开发人员的工作效率，帮助开发人员将编程速度提高了55%。

图源：Github

而这不仅发生在程序员圈子中，几乎所有AI可以参与的办公场景中，工作效率都得到了大额提升。类似的例子有Adobe此前为Meta Quest Pro开发的一款3D建模程序“Substance 3D”，在虚拟世界中的3D建模已经完全退化掉了键盘鼠标，只需要简单的手势动作就能轻松捏出设计模型。

继ChatGPT之后，成熟后的Sora或是其他AI生成图像、模型、视频工具都将有可能以应用程序的形式加入visionOS生态。AI、Vision Pro两大科技热门的结合重塑办公、创作体验的模式已初见雏形。

图源：X

这一科技变革之路需要许许多多人才、企业的前赴后继，幸运的是，苹果并不是AI+XR这一想法的唯一践行者，就在Sora发布的同一时间节点，还有一件事也搅动了国内的AI市场。

2024年2月18日，星纪魅族对外宣布将停止传统智能手机新项目的研发，转而All in AI，全力投入“明日设备（AI For New Generations）”。虽然这一决定的原因被归结为“手机卖不动了”，但从其后续的AI转型计划来看，魅族更在意的或许是AI+硬件的市场新需求。

图源：星纪魅族

星纪魅族公布的AI战略规划的详细内容中，包括了打造AI Device产品、重构Flyme系统和建设AI生态。公司CEO沈子瑜在该次视频发布会中强调魅族将打造全新的AI设备，用AI原生设计重组产品形态，并用更强大的硬件算力支撑AI的全局调动。

对于沈子瑜口中的“明日设备”，有不少人猜测会是AI手机，毕竟打着AI终端名头的魅族21 Pro已经上市。但也有部分声音认为，魅族将取代传统手机形态的重任交给了XR眼镜。

去年，星纪魅族刚刚发布了搭载自家智能“FlymeAR”交互系统的MYVU AR眼镜，而从其刚刚发布的三年AI愿景来看，XR产品将在星纪魅族2025年的产品生态中占据举足轻重的地位。

图源：星纪魅族

以苹果Vision Pro及其传闻中的AR眼镜形态产品为开端，包括星纪魅族、三星、华为、小米、OPPO、 VIVO等传统手机厂商纷纷入局XR赛道，如今，星纪魅族All in AI，OPPO也专门成立了AI中心，将资源向AI集中，就像iPhone开创智能手机时代一样，AI+智能硬件的组合目前看来将是开启下一个智能计算时代的不二选择。

这一趋势同时也影响了头部的AI科技厂商们，除了之前的OpenAI筹资7万亿美元豪赌芯片帝国的消息外，行业顶部的AI生成技术公司Midjourney也被曝出正在开发硬件产品。

据称，Midjourney已经挖角了苹果Vision Pro的硬件工程经理Ahmad Abbas，以协助开发一个收集3D数据，管理3D模型的工具，甚至于Midjourney未来可能推出自己的VR头显。

领英界面显示Ahmad已加入Midjourney（图源：linkedin）

在这些头部科技企业看来，AI离不开硬件这一应用载体，消费硬件产品也需要AI的辅助重现智能手机时代的荣光。

如今，AI的蛋糕争夺战已经开始进入正赛，没有厂商愿意放弃成为下一个IPhone的的新机会，无论是苹果自家的Vision Pro、新形态的AI Pin还是手机厂商们设想的AI手机，都在探索与ChatGPT、Sora等这样的前沿模型融合的最佳模式，在AI生成模型踏入爆发阶段的2024，落伍是硬件厂商们难以接受的，对于AI“最佳载体冠名权”的你追我赶还将继续。

投稿/爆料：tougao@youxituoluo.com

稿件/商务合作：林南（微信 19250561593）六六（微信 13138755620）

加入行业交流群：林南（微信 19250561593）

版权申明：本文为VR陀螺原创，任何第三方未经授权不得转载。如需转载请联系微信：vrtuoluo233 申请授权，并在转载时保留转载来源、作者以及原文链接信息，不得擅自更改内容，违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处，如涉及版权问题，请联系本网站协商处理。