Eternal sunshine and the spotless mind – 永恒阳光下的洁净心灵
本文系投稿,作者:费越 博士
对Vision Pro的总体看法
Apple Vision Pro发布会后很多人的兴奋程度不亚于2007年人们看完iPhone 1代发布会后的兴奋程度。总的来说,Apple Vision Pro是一个非常非常苹果风格的产品。Vision Pro和其它XR头显所强调的东西完全不同:并没有强调沉浸式游戏,而是和苹果历史以来一贯所强调东西高度一致:那就是面向普通消费者,面向普通人。
因为Apple Vision Pro发布会上所强调的核心应用,给用户的核心价值有3个:1. Entertainment – 影音娱乐, 2. Socializing – 社交通讯,3. Productivity – 兼容大量已有的2D应用。
如果对比2007年iPhone 1代的发布,会发现惊人的类似。iPhone的3个核心价值主张是一摸一样的:1. iPod - 影音,2. Phone/Face Time - 通讯,3. Internet Browser - 兼容大量已有的应用 (在2007年的时候还没有App概念。一个一个的网站,比如Amazon, Facebook, 微博, 就是一个一个应用)。
所以,Vision Pro和iPhone 1发布会上的核心应用是一模一样的3个:
并且保持了苹果一贯的发布会上事不过三的原则,消费者的大脑无法记住超过3个重点。
除了上面3个核心卖点,Vision Pro和iPhone发布会上提及的第二级附属功能也是惊人的完全一致:1. 为此新平台专门开发的新应用, 2. 拍照和看照片(内容生产,UGC)
1.为此新平台专门开发的新应用。iPhone 1 对比 Vision Pro:
2. 拍照和看照片(内容生产,UGC):
把AVP发布会上对产品的所有价值主张和iPhone一代发布会做个对比:
它们是一模一样的。由此可见苹果对消费者核心需求的理解和实操保持了相当强的一贯性和一致性。因为普通人是普通的生活方式。人们希望能够轻松快乐地:娱乐,工作,沟通,创作。
苹果这次很踏实,并没有标新立异的对一个新硬件创造出一套新奇的需求体系。这是由于苹果对消费者最重要的,最本质需求的深刻理解:消费者是同样的消费者,不要试图用花活把消费者改造成适应新技术的新人,而是要让技术适应人。
有人这样类比:之前的VR头显的设计是满足一群奇怪的人 “能那种家里来了客人正在聊天,他自己却锁起门来玩10个小时游戏的那种怪人” , 而Vision Pro满足的你我他,所有正常人。
VR从游戏机开始?
过去的几年大部分VR公司都把产品形态收敛为游戏机,包括HTC、Oculus等。
这并没有错,因为VR的技术水平和体验只能满足游戏机的用户体验要求。
这和个人电脑发展历史非常相似:当电脑进入2C市场的时候,首先被做成的也是游戏机,1972年Atari,而2C的个人电脑形态1977年才出现,Apple II。
随身的移动电脑的发展也类似,首先出现的产品也是游戏机:2004年的PSP (PlayStation Portable), 同年Nokia发布了游戏机手机N-Gage(不知道有多少人记得),2005年的Nintendo DS。
2007年才出现的通用型的移动计算机:iPhone。
所以在技术水平达不到成为2C计算机形态的时候,往往首先能够满足游戏机形态。那么就先做游戏机是合理的选择,能够做出成功的产品,比如Oculus Quest 2。
· 为什么其它VR头显都是主攻游戏,而苹果并没有做游戏机?
因为苹果是一个2大C的公司,想要做新的计算平台服务大众消费者。本质问题是:能否先做游戏机,然后过度和升级成为计算平台型的产品?
从历史中看,做出了成功游戏机品的公司都并没有转化为做通用形计算机。比如Atari,Nintendo FC,SONY PlayStation… 以游戏做为出发点的设备并没有在未来成功演化为通用消费设备。
我认为VR也是这样,游戏机虽然从历史和市场角度是个好产品,但无法以此为基点演化为通用消费设备。因为设计一个通用消费设备需要全身心的投入,design from ground up,不做任何妥协 。就像油改电是无法做出好的电动车。做通用型计算平台比做游戏机更难,更需要时间和耐心,但回报也是巨大的。
其本质原因是什么?不知道。可能的原因是:要做一个成功产品,其组织管理,团队成员的能力,和文化一定是高度的适合这个产品。原因是,成功是极为困难的,成功的产品需要团队100%的投入和专业化。产品和团队是相互打造的,一个产品是公司人员,管理,文化的直接映像。同样的团队再开发一个完全不同类型的产品,团队的意愿很小,能成功的可能性很小。
有个说法是,对于创业团队 “you can pivot, but you can‘t hedge” :如果发现产品或商业模式的方向不对,那么全员转向新的产品和商业模式并100%的投入进去,是可以的;但绝不能脚踩两只船,同时平行做多个不同的东西投机。
Facebook的Oculus团队原本是个很纯粹的游戏团队,对于如何游戏化的设计整个硬件软件产品有丰富经验。Quest 1,2是专注而成功的。但Facebook的野心不满于此。后来混入了做互联网的人,和来自苹果的做2C消费电子产品经验丰富的人,其产生的Quest Pro是一个四不像产品。
为什么苹果Vision Pro这么重视VST?
苹果把VST的质量放在产品中非常高的优先级。在2018年就收购了做VST头显的公司VRVana (头显产品Totem)。
因为苹果对用户有比其它厂家更加深刻的洞察力。对于“VR难以被大众接受的最大原因是什么?”这个问题,通常的回答列表会是:
这些实际上都是错误答案。真正最重要的原因是:看不见真实世界的VR模式是和人类(任何动物)亿年进化出来的生物本能相矛盾的。用户心里永远会有不安全感,隐藏在内心深处。
uSens和VRVana都是在~2016年的时候把双目RGB相机VST定义到了2C的头显上,是世界上最早定义VST头显中的。因为当时同样认识到了VR的最大问题在哪里,并且认识到了VST能够开启的AR大门,实现让人获得把不可能变为可能的超群能力。
uSens的Impression Pi头显配置更接近Vision Pro:
苹果不做用户问卷,不请外部专家来做评审,因为最重要的原因往往隐藏在用户心里,用户自己都不知道,知道也会掩饰不说。所以这是靠问卷访谈得不到的。
苹果的洞察能力明显优于其它公司,不光从VST硬件和性能上的投入力度,从2个方面也能看出来:
尤其是第二点。因为苹果洞察到,哪些东西是用户一定要感觉自己有100%把控能力的。这些东西,如果用户不能100%把控,内心就会有极强的不安全感,那么产品就会出大问题。
VST就是这种用户从心理层面必须觉得自己有100%成功率的立即控制能力的, 否则用户就会产生极大不安全感。这种不安全感就是VR的最大障碍。所以加了硬件按钮。
就像手机的静音物理开关,Android手机都去掉了这个开关,而iPhone至今还保留了这个物理开关。苹果第一个摒弃了物理耳机插孔,但最后一个去掉静音开关。因为苹果不是靠复杂的功能和能力,而是重视人的心理状态。
Apple Vision Pro和Meta等公司头显的核心区别是什么?
有人开玩笑,说VR, AR设备是占领用户的脸 ,简直就像 Alien vs. Predator
苹果不提XR/MR/VR,回避了产品是不是“占据用户的脸”。Vision Pro这个产品的真正意义是:
Vision Pro这个硬件产品只是一个表象而已,这个产品实际上并不算完美,它不是苹果的目的,未来肯定会进一步演化。要看的是实物的本质:苹果的核心演进方向是 1. 占领用户的视觉,2. 占领整个空间世界, 3. 占领时间。
Vision这个名字取的不错,它实际上蕴含有几个意思:1)图像,视觉效果;2)视野,眼界;3)想象力,对未来的前瞻性;4)幻象,梦幻。所以,是个很好的产品名。
苹果把产品名定为Vision,把品类名定为Spatial Computing Device : 空间计算机。
苹果抓住的是1)人性化,人的感受和需求, 2)对未来的深刻理解。这是苹果和Meta等公司的最大区别。
其3D拍,3D看,就像电影《Eternal Sunshine of the Spotless Mind》中讲述的:“如果可以忘记,如果已经不能不忘,我仍不甘心,要将你藏在记忆的最深处,在必须遗忘的最后一刻,还要留下再次相见的暗语。”
uSens在2015~2018年也定义和研发了头显产品:Impression Pi。它的设计和定位与Apple Vision Pro非常类似。
对产品的命名,品类的命名方式也和苹果类似。uSens 把产品名定为Impression,把品类名定为Super Reality Device(超现实计算机)。Impress一词和Vision很类似,深层的意思是:1)外观,画面,视觉感受;2)和印象派画的本质一样,重要的是捕捉稍纵即逝的环境,创建深度、运动的感觉;3)一种印象,感受,和情感,一种内心深处的记忆和表达,而不是表面的图像而已。一个好的产品,从内到外应该是一个艺术品,给人带来的是情感,就像印象派画一样。
苹果和uSens的共同点是,认为这个新产品的本质是:
· Apple 和 Google 的区别是什么?
两家公司在文化上有本质性的巨大区别。从一个简单的例子就能看出,两家公司在AR方面都有多年的算法和应用生态的布局,Apple做了ARKit(ARKit也是Vison Pro产品里的核心视觉算法之一),Google做了对应的ARCore。
Apple对ARKit的概括语是: “Change the way you see the world, Realistic and immersive experience.” – 改变你看这个世界的方式,达到真实和沉浸的体验。
Google 对ARCore的概括语是 : “Make Physical world acquire Digital attributes, Make the world your digital canvas.” – 让物理世界获得数字属性,让世界成为你的画板。
能看出来,苹果只讲人,只讲体验。Google只讲物,只讲功能。这就是两家公司在文化上的本质区别。苹果是体验第一,艺术第一,完美第一。Google是功能第一,而体验和艺术感完全没有,所有东西都像儿童的卡通玩具。
当时uSens也对其产品和公司目标的概括语是:“Realize your dreams, make impossible possible. Make the digital world as real as possible, and close the gap between the two.” “让你实现梦想,把不可能变为可能。让数字世界和物理世界一样的真实,并且让两者融为一体。” 这个文化和苹果的更接近一些。
但是要注意到,上面三种对XR目标的描述都有重大缺陷:都没说出来这个东西有什么用?讲体验也好,讲功能也好,都是空洞的。对用户来说到底有什么用处,解决什么问题?谁都没说清楚,因为谁都没想清楚。这是XR的最大问题。它很酷,但它有用么?
· 改变人的生活方式 / Changing people’s Lifestyle 可以让一个新设备成立
实际上苹果对于一个新设备成不成立的评判标准是:这个设备是否能改变人的生活方式 (Change people’s Lifestyle)。如果能够给用户一个某些场景下更好,更舒适愉悦高效的生活方式,那么这个新产品就是成立的。
比如iPad,它对比iPhone没有任何新功能。但是它能满足一个新的生活方式:
Apple Vision Pro也是一样,能够在某些情景下让用户可以放松,安逸,享受,沉浸。这是现在任何一个设备都无法给人的生活方式。
· 创新点:3D大自然环境,多应用在3D空间中排布
这个设计,2004年Sun Microsystem和我的创业公司Infinite 3D同时提出和实现了,release了beta版。这两个产品的目的是实验,实验消费者的反应。Sun的系统,可以把Sun OS变为3D OS,所有已有2D应用都兼容。Infinite 3D系统把Windows变为3D OS,兼容所有已有2D应用。并且带有1)环视的3D大自然环境,2)也可以一起运行远程其它计算机上的应用,3)新的3D app的framework, 3D UI。当时这个系统,就是为了未来在真正的XR头显上运行的。当时选用的环视3D自然环境是祖国自豪的珠穆朗玛峰顶。
Sun Microsystem - Looking Glass
Infinite 3D
3D Launcher的设计,后来也出现在了2008年的Mac OS上:
这种空间计算,3D UI给用户带来的好处是:
那为什么没有把它放到uSens的头显和后来做的其它头显里?因为头显的分辨率一直不够高,无法让用户达到这个产品功能所宣称的要给用户带来的好处, 那么就不要上线这个功能。
而苹果Vision Pro的分辨率领先其它产品首先达到了足够的高度,终于可以让用户满意的得到我们所宣称的东西了。
如果对用户做了一个promise:这个产品功能有多好,有多么有用, 那么产品一定要deliver the promise,否则就不要上线这功能。如果欺骗用户,就是欺骗自己,产品一定会吃灰。不要抱侥幸心理。
手眼交互为什么这么神奇
1. 眼睛的运动比手更快,更准。
视觉信息占大脑处理信息的80%,所以眼睛的转动速度,精度,延迟对生存来说极为重要,眼睛也是距离大脑最近的器官。物理上讲,控制眼睛转动的肌肉和手臂连杆结构相比简单直接得多,转动惯量也小,所以和眼睛比手的寻址运动快得多。
并且眼睛是心灵的窗口,任何细微的思绪往往难以逃过在眼睛上的反映,更进一步的挖掘眼睛的图像可以做到对大脑思想的分析。
触摸屏交互:从大脑下达了命令到手运动到了目标位置有100ms以上的延迟,而触摸屏本身再加~80ms的延迟。而眼睛本身响应大脑的命令到运动到目标只有~50ms延迟,眼动系统~15ms延迟,远快于手部交互。
2. 因为眼睛的运动并不是用户的额外负担。
不管你用什么其它的交互方式,不管是鼠标,触摸屏,还是手势, 实际上你的眼睛反正都要先去看你想点击的UI控件, 然后再移动手。
手的动作是人要额外努力去做的动作,不是必须的行为;而眼睛的动作不是额外的,是下意识里就已经完成了。所以,用户从习惯了用手交互转到用眼手结合,会有前所未有的读心术的感受:“这个系统怎么会这么快?大脑想什么就能立刻实现什么?”。
实际上不是眼睛太神奇,而是手太慢。我们原先习惯适应了非常缓慢的手部寻址交互,而不觉得它慢。所以,这也印证了苹果经常说的:不要搞用户调研,不要问用户他有什么痛点,因为用户已经麻痹了。必须把新东西做好了,摆在用户面前,用户才会明白。
这个手眼交互方式和软硬件系统,2011年我在硅谷的松下研究中心(位置就在现在苹果总部旁边200米的地方)就已经实现了。并发现了这种手眼结合交互的神奇感受,这是最佳的交互方式。
当时眼动系统采用了Tobii和SMI的方案。后来Tobii于2014年上市,而2017年SMI被苹果收购,支撑了苹果的Vision Pro产品。
既然,手眼结合的交互不是新鲜事,为什么在其它头显没有采用?
1. 松下的模式是: 把研究结果放到“保险箱”里,等未来有客户有需求了就拿出来。但客户不懂人机交互,怎么知道自己有这个需求呢?但至少松下有专利保护,也不算白做了研究。
2. 这个交互方式的优秀性也有不少人直接凭空就能想到。比如国内造车新势力中的一家,2019年的时候其创始人就直接想到了在汽车中使用这个交互方式,并希望uSens能帮助其实现。对他的感悟力我感到钦佩。但需要眼动达到极高的精度和灵敏度,会让公司在投入的资金,和时间需要的等待方面望而却步。因为这是一个长期的,并需要冒险进行领先整个业界的投入,而不是简单购买一些模块拼凑出来。
3. 而苹果,收购了SMI之后能够内部和硬件,光学,传感器和算法等多部门合作,做垂直的整体优化。所以能够达到足够的精度满足产品需要。这就是下面要说的,苹果 “不做拼凑式创新”,因为这是不可能的。
4. 其它VR公司在做“游戏机”方向,所以成本控制极为严格。并且6DoF手柄和沉浸式游戏进行交互是重点问题,如何和UI改进交互不是重点要解决的问题。手-眼 交互方式不是万能的,并不适合沉浸式6DoF游戏
· 苹果的手势交互为什么这么好
苹果采用了红外相机并带有红外补光,这样图像的质量和稳定性更高,可以达到更鲁棒更精确的手势识别效果。
而这个硬件方案Leap Motion和uSens在~2013年就发明,并在~2018年通过深度学习的算法达到了非常好的产品级效果。
但现在的其它头显为什么都没有采用?比如,HTC Cosmos等用的是VST的双目RGB相机,Quest 2和Pro用的是SLAM的灰度相机。因为这些头显都在拼游戏机市场,陷入了成本内卷,为了最低的成本,让手势成为二等公民,复用专门为其他目的而已经放在了产品上的相机。
苹果追求极致的手势效果,所以采用了这个方案。说明产品经理,和上下全链路整合优化起到了关键作用。和眼动一样,特殊的硬件,加上算法,才能达到神奇的效果。
说个题外故事,2013年Leap Motion去硅谷某家大公司谈合作,大公司里的人对其嗤之以鼻:“你们只是两三个毛孩子而已, 我们有几百个算法方面的专家博士,你们的手势效果不过是骗人的障眼法而已,我们分分钟就能做出来。”
2016年uSens参加一个专家评审,当时uSens已经能够在高通800移动芯片上实时50fps运行,并且能够处理各种3D自然手势。专家也是很资深做得领先的大学教授,说:“你们是骗人的,我们最先进的学术状态也需要在台式机Nvidia的GPU上才能跑个30fps,而且无法覆盖各种自然手势。你们就是骗钱的,都是假的。”
为什么Leap和uSens能够做到别人不能相信的东西, 原因和苹果一样:产品思维。需要从相机硬件,到算法,到执行器做垂直的全链路优化,和全链路创新。比如,使用红外照明:让困难的手势识别任务变得简单而且更精确,用巧妙的方法获得优势,而不是只凭在模型上下蛮力。
Leap的CTO David Holtz后来做了Midjourney,也是一样,其效果令人惊叹“简直是不可能的”。他是如何做到的我想应该一样,创新:用各种巧妙的方式解决问题,而不光是蛮力。
苹果的员工对苹果的评价是喜忧参半:苹果的产品能力非常强。但苹果在research(前沿的科研)方面薄弱,和Google, Meta相比差很多。这个评价是中肯的。
苹果的核心到底是什么?和其它公司的最大不同点是什么?
苹果的特点,或者说秘诀,有3个:
1. 苹果从上到下一贯坚持的就是:“我们是一家消费电子公司,做面向大众的消费计算机产品”。这个定位在乔布斯重新上位之后明确了,并且毫不动摇。
2. 产品经理有绝对话语权。研发人员在努力创新,努力工作,打造极致的技术和产品。但做的东西什么时候能上线,他们永远不知道,有时候感觉永远在等待。只有产品经理能决定这个功能是否做得足够好,;这个功能是否和其它功能结合在一起给用户优秀的价值。只有满足这些了,功能才会上线。产品经理对体验和价值有极高的要求,和时间点的良好把控。
3. 对什么是创新的定义。
Tim Cook接受CG杂志的采访曾经说过:“Apple looks to make a significant contribution and own the primary technology when entering a market, as that is how innovation happens. Apple isn’t interested in simply putting together pieces of someone else’s technology.”
苹果如果要进入某个市场,那一定要做出重大贡献并拥有核心技术,因为这才是真正的创新。不会仅仅把别人的技术拼凑在一起,苹果对这样的做法不感兴趣。
· 苹果的定位是高端?是贵?
我觉得这是误区,没有把因果关系搞清楚。贵和高端只是表象和结果,而不是本质和原因。
乔布斯曾经在被采访的时候回答过:“苹果对产品的要求是:做一个产品,就要让这个产品好到自己会毫不犹豫的推荐给家人和朋友们。“ “而不要像有些公司,为了降低成本而降低质量和省去必要的功能。功能需要完整,苹果不能去卖那种缺失了功能的垃圾。“
所以苹果只是不想卖“垃圾”而已,造成的结果是产品看起来比较高端,比其它公司的产品贵。当然,各公司对什么是“垃圾”的衡量标准不同。
但我认为,最底线的要求是deliver the promise:设计的时候想要达到的产品价值和想向用户提供的功能,最终在产品里是否真达到了用户能够认可这设计价值的程度?
比如,Hololens的promise是,能够提升人的生产率,能够玩好玩的AR游戏。它Deliver了这个promise么?没有。
· 有人说,Vision Pro没什么,里面的所有功能在其它头显里都找得到…
明显的酸葡萄说法。在iPhone 1代推出之前Nokia已经推出了N95。N95的功能和配置应有尽有,没有什么功能是iPhone没有的。还有更好的相机硬件,卖更高的价格:
但相比iPhone,N95的每个app都丑陋,东拼西凑。整体的UI和交互缺乏美感,缺乏愉悦,使用不便。
所以,Vision Pro和其它XR产品的区别不在于功能,而是在于设计。而设计触及到的是人的灵魂。
最前面也做了对比, Vision Pro发布会上所重点宣导的所有功能点和iPhone 1发布会上的都甚至毫无区别。所以创新在于艺术,美感,情感,生活方式。
从深层次思考,Vision Pro卖的是:艺术,感情,“时空机”,让不可能变为可能…
苹果产品里的动画大量是经过精心设计的,非线性的。而Google没有仔细打磨,都是简单的线性动画。
这是我在2010年在松下硅谷研究院设计和实现了的3D UI系统,能看出其光影效果的使用,表达了轻松愉悦阳光, 而每个icon的动画,是拟人“走向前鞠躬”,给用户被尊重被服务的感受。
Apple Vision Pro的眼动设计包含了一个新设计:当用户注视某个UI控件一段时间后,控件会显示关于它的更多信息。
当时2010年做的3D UI也有被用户注视后,UI控件知道用户对它感兴趣,会自动显示关于它的更多信息。实际上其核心思想是:每个UI Element是“活的”,要赋予其生命,它需要会表达感情,它需要自己知道如何和用户互动。
· HCI的进化方向:智能的生成式的HCI
上面,在2010年的工作,已经认识到UI的发展方向是:UI(计算机)应该是不停的观察用户,自主的理解用户,自主的向用户表达。也就是:智能的,生成式的UI。
GPU/高性能计算,经过了3个时期,每个时期提高了100x的算力,来解决确实需要100x算力才能解决的问题:
1. 3D图形:
1998年至2012年是3D渲染蓬勃发展的时期,计算机可以做到把预建好的3D物体的模型变为很真实的图像。
2. 计算机视觉(判别式AI):
3D渲染的逆过程是计算机视觉:已知真实图像,想算出其背后的3D物体的模型。这个逆过程需要比正过程大100倍的算力。在~2012年之后变为现实,并蓬勃发展了10年。
3. 生成式AI (Generative AI):
判别式AI本质上是做选择题。而生成式AI是做作文题,绘画题。需要比简单的选择题高100倍的算力。
在2015年之后,Leap Motion和uSens都不约而同的开始采用深度学习方法的计算机视觉(判别式AI)解决3D手势识别问题,并在~2017年达到了很好的可商业化的效果。
而在2017年之后,uSens开始认识到,下一个时代是生成式AI的时代。在HCI方面,计算机将和人完全对等:表达能力上达到和人相同,可以有拟真的语音,3D面部形态,3D动作;理解力上达到和人相同:理解人的自然语言,理解人的举手投足表情目光所有细节表现。我们将告别鼠标-键盘-触摸屏 的阶段。人-机 完全对等:
苹果Vision Pro因为其内置的感知硬件,加上未来的算法完全可以达到这一点。但目前出于成熟度,和用户的接受过程考虑,并没有直接上升到这种交互方式。未来可能会演变到这一方式。
题外话,关于生成式AI和Leap Motion:
2019年之后uSens开始采用GAN的方式处理手部图像数据,生成手部图像数据,达到和真实图像的alignment,以假乱真。Leap Motion应该同期也开始研究这类生成式方法。2019年Leap Motion公司被收购后,美国公司把所有服务器都卖了,CTO David Holtz离开了公司。他继续在生成式AI方面研究,在2022年做了出大家现在都知道的MidJourney。
Vision Pro定价实在太高?Vision Pro会不会是一个叫好不叫座的产品?
实际上,花了如此高的成本,刚刚达到了MVP的最底线。实验刚刚能够“开启”。
最好的产品是既叫好又叫座,这极难做到,苹果的之前每个新产品都做到了。这次,苹果Vision Pro显然做到了叫好, 是否能做到叫座?
有人说Vision Pro没有解决任何实际问题和需求。我认为,不要从功能角度思考问题。如果只是从功能角度,那么iPhone和N95一样,可能还不如N95,为什么iPhone成功了?如果只是从功能角度,那么Vision Pro和iPhone是一样的,为什么Vision Pro不能成功?关键是体验上的提升,而不是功能上的。
但Vision Pro的问题是便携性的下降,使用场景的下降。所以它不会是一个叫座的产品。但是它会是一个分水岭的产品。
做一个类比:数字相机革命的过程。
一个重要的基石性产品是佳能D1s, 2002年发售,$7999。它是第一个能够从各方面(画质,对焦能力,测温能力,拍摄延迟,连拍速度,…)完全超越最先进的胶片相机的数码相机。
要完成从胶片相机,到数码相机的革命,不是有一堆低端的point and shot相机,想靠易用性来弥补劣质的像质就能完成的。这些相机给用户带来的是恶劣的感受,和慢慢的吃灰。
1Ds开始让最专业摄影师都认可:如果不考虑价格和重量,数码相机是可以完全超越胶片相机的。这是一个分水岭的历史性时刻。相当于MVP: 新的产品形态必须能够真正deliver the promise。
然后2003佳能推出300D , $899。它的画质和拍摄能力虽然不能超过最好的胶片相机,但是可以等同于大众摄影师手中的普通SLR胶片机。
刚开始的时候大众摄影师依然都是对数码相机还保持怀疑态度, 但是凡是看过身边朋友用300D拍出的图像,和看到它的价格,立刻怀疑全部打消,毫不犹豫的下手买一台。数码相机开始被所有的摄影者所接受。走过了MVP阶段,进入Scale-up阶段。
所以,对比佳能的这段历史, 苹果Vision Pro的做法也许并不是完全没有道理。
· Apple Vision Pro 会成功还是失败
苹果Vision Pro作为面向大众的AR Glass产品,刚刚达到了MVP的及格线 (MVP : Minimum Viable Product / 最简可行产品。) , 其用户体验刚刚能够达到人能接受的最低标准,或者说,刚刚能够deliver the promise。为什么这么说?举两个例子:
1)头戴式产品对人产生了不便和痛苦。产品带来的正向价值和美好体验必须要大于痛苦才算是“0”分, 达到了最低要求产品状态。苹果Vision Pro可能刚刚到达这条线。而其它产品根本没有达到。
2)宣称“能够在空间中放置多3D窗口,进行办公”。Vision Pro的分辨率,VST延迟, 刚刚达到能够做这件事的最低限。而其它宣称能做这个的产品根本没有达到能用。
如此先进,优秀,复杂的产品, 耗时7年,投入人力资金巨大, 才刚刚达到MVP?
我觉得是的。这是创新的智能设备和互联网应用的巨大区别。Meta是互联网基因,可能里面很多人对此无法理解。
到了MVP这一步, 整个故事才刚刚开始: 来验证验证整个产品的想法,里面所有hypothesis(假设)是否成立。来验证整个“AR, VR是否成立的实验”才刚刚开始。
在产品定义上,2016年uSens 的Impression Pi头显和Apple Vision Pro的相似度很高:
对于uSens没能支撑到完成类似的产品,我并不遗憾。非常感谢uSens的投资人,他们对产品形态有着同的理解,他们同样看到了“To大C的下沉浸式3D计算平台”应该是什么样子。但是在实践中才发现,要实现这个MVP所需要的人力物力和时间远远超过了最先的估计,不是创业公司在几年内能够完成的。即使Facebook/Meta,微软,做成这件事需要的时间和投入也都超出了他们的预想和承受能力。只有苹果才刚刚完成这个实验的初步搭建。
重要的不是苹果Vison Pro这款硬件产品的成功失败, 而是整个空间计算这个想法的成功失败。苹果终于走到了实验正式开启的这一天。让我们拭目以待实验的结果吧。
· Vision Pro是下一代计算平台的最佳形态么?
我觉得显然不是。
1. 价格和重量。同样以相机为对比:大众无法接受佳能1Ds,是佳能 300D真正让高质量数码相机进入大众时代。而且相机形态继续发展,现在已经进入了新的无反‘微单‘时代,才得以让数码相机继续scale up。
2. 使用时间和地点的覆盖能力。人对计算机的追求是:1)人的数字信息能力的提升,比如显示和交互能力越强越好, 2)设备和物理世界的交互能力越强越好,3)能够使用的时间和地点覆盖面越大越好,越灵活越好。
和已有的计算机(台式机,笔记本,手机)相比,Vision Pro在1)人的数字信息能力是颠覆性提高, 2)方面比手机并没有太大提高, 而在3)是巨大倒退:
所以,Vision Pro不是最终形态。我们拭目以待的是:
最难的阶段已经过去了,下一个阶段的机会不光属于苹果,也属于其它公司。有多种产品形态可以做;而且苹果因为一些执念,其Vision Pro产品设计有不少“不正确”的地方,也是机会。
· Apple vs Android,隐私
Vision Pro让计算机真正成为四维空间生物,计算机从未如此真切的感受这个世界,和感受人类。
但同时这类产品是危险的。原因是1.对人的影响力, 2.隐私。
1.对人的影响力
马斯克推特里的玩笑:”Apple Vision Pro提供的价值不就是幻觉么?$20的买致幻蘑菇就能做到。”
这并不完全是玩笑。强大的增强现实技术可以对人的心理产生巨大影响。善意的应用可以用此技术给人愉悦的心情,给人正能量,改善人的心理状态,让人更专注,等等。而恶意的内容,可以用此技术获利:比如让人沉迷于低效信息,改变人的购买行为,甚至给人不良心理状态。苹果的一贯作风,会对上线App Store的应用进行严格的管理,只有对人有益的,正面的内容才能上线。
而Android是自由派作风,硬件商和应用商店商完全以短期利益,盈利和内卷为第一目的。大量不良应用不被管理。Android阵营会抄袭Vision Pro,但按照这些厂商的一贯做法,这种硬件会比手机对用户产生更大的伤害。
2. 隐私
Vision Pro对人,对环境的观测能力相比手机有天翻地覆的提高, 能够几小时的全程观察到人的举手投足所有细节动作,面部表情,和眼睛观察世界和数字界面的所有过程。对物理世界也是全程的观察和识别。
苹果做了极高规格的隐私保护,这些信息苹果只在本机处理,并且应用无法获取(应用无法拿到相机图像。无法拿到眼动数据,只能知道“眼睛+手势”出发了哪个UI控件)
但这些信息具有极大商业价值,因为对用户的理解比手机提高了百倍。而Android阵营的特点是:OS设计对隐私保护不够强,硬件商会对OS底层进行改动,商店不对侵犯隐私的应用进行拦截,应用开发商之间的内卷(侵犯隐私获利方面的恶性竞争)。硬件商会利用这些信息,做新商业模式,推出表面上看极具价格优势的硬件。而更多的硬件商不得不加入同样商业模式应对价格战,陷入内卷。受害的是消费者。
值得担心的是,不受管控的类似Vision Pro的产品,会让普通用户 在1.精神影响,2.利用隐私信息的双重进攻下成为被精神控制的摇钱树。在这方面的能力,类Vision Pro产品比手机强百倍。
任何有突破性的重要技术都是双刃剑。
· 再次回到问题,Vision Pro这个产品会成功还是失败?
有的媒体看衰AVP,理由是:和以往的苹果的产品不同, AVP是在分割一个很小的,甚至是不存在的市场。以往的苹果产品都是在一个很大的市场里做创新,切个小蛋糕然后扩大。
比如比苹果iPhone一代的发布会,Steve Jobs明确指出:手机市场和PC电脑市场相比是一个大5倍的市场。iPhone试图革命这个已有市场,如果切出1%的蛋糕,就有1千万销量。
而VR,AR市场是很小,并且未被证明的市场。自从2014年已经发展了近10年才只有1千万台的销量。我觉得这些媒体的看法和担忧并不无道理。
iPhone发布会的最后一页:
这里Steve Jobs引用了加拿大”冰球大帝”Wayne Gretzky的名言:“我总是滑到冰球未来将到达的地方, 而不是滑到冰球现在的位置。” 这句话更适合拿出来给Vision Pro打打士气。
*声明:本文系用户投稿,非VR陀螺官方稿,谨代表作者个人观点立场,法律问题一切与VR陀螺无关。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息