文/VR陀螺
3月27日,VR陀螺 总经理兼主编 案山子 与 美国硅谷智能硬件公司Vigo Telenologies创始人 Jason 桂家勋 进行了一场深度连线直播。
Jason此前曾开发过一款智能眼镜Vue,产品于2016年上线Kickstarter,累计收获10410名支持者,众筹金额达到2215583美元,保持了很长一段时间的智能眼镜众筹记录。去年以来,Vigo着手于打造一款面向听障人士的AR眼镜Captify,产品即将在Kickstarter上线。
本次直播主题为【对话硅谷AI眼镜创业团队,细分品类与大消费产品的定义逻辑】,直播中深度介绍了Captify的产品思路以及出海方面的一些经验心得。以下是直播文字实录。(为照顾阅读,部分语序略有调整。)
案山子:大家晚上好,感谢各位的参与,欢迎来到本期节目。我们今天聚焦于AI眼镜,邀请到了来自硅谷创业公司Vigo Technologies的创始人Jason。稍后我们今天会聊到Jason的一些产品思路以及AI眼镜在海外如何落地。首先有请Jason做一个自我介绍。
Jason:大家好,我是Jason桂家勋,Vigo Technologies的创始人。我出生在深圳,5岁移居新西兰,后来在美国宾夕法尼亚大学完成了工程与商业双学位。2012年开始,我便投身于智能眼镜领域,到现在已经13年了。
我最早的创业想法是大学期间曾开发一款能够防止打瞌睡的眼镜,它能监测学生在课堂上的疲劳状态,并通过震动提醒保持清醒。当时这个原型产品在校内外得到了不少奖项,而教授、导师以及业内人士也非常认可,鼓励我们将其商业化。
那时候刚好是2012年,谷歌眼镜刚刚发布,市场对智能眼镜的兴趣开始上升。于是,毕业后我们几位合伙人来到了中国,并加入了全球硬件孵化器HAX。
起初,我们决定从耳机产品切入,而不是直接做智能眼镜。最早的Vigo产品是一款利用眼动追踪技术监测疲劳状态,并通过声音或震动提醒用户的耳机,主要面向职业卡车司机和交通运输行业。
Vigo耳机,图源:网络
2016年,我们着手于推出新一代智能眼镜,但起初依然专注于疲劳监测。我的合伙人提出,如果去掉疲劳监测功能,是否能拓展出更多应用场景?
于是,我们把这个想法放到Kickstarter上进行众筹,结果在45天内筹集了200多万美元,成为当时全球智能眼镜领域最大规模的众筹项目。虽说最近Halliday在众筹金额上超越了我们,但如果按照众筹人数来看,我们依旧是最高的。
那时候我们真正的挑战是硬件制造,因为当时智能眼镜的供应链几乎不存在,不知道该咨询眼镜厂还是电子厂,我们只能自己去探索合适的材料和制造工艺。最终,我们成为了第一家成功开发音频智能眼镜的公司。虽然现在关于眼镜的叫法五花八门,比如AI眼镜、AR眼镜、拍照眼镜,但从音频的角度来看,我们应该是最早的。
为了开发这款产品,我们在创新方面做出了很多突破,例如我们是最早采用TR-90材料的公司之一,而现在这已经成为行业主流;最初我们使用骨传导技术,但是我们发现它会夹头佩戴不舒适,于是我们改用了定向扬声器技术,这应该也是我们首创。
又比如佩戴检测功能——戴上开机,摘下关机,这一功能最早也是我们所实现的并申请了专利。另外,我们也是最早设计眼镜盒充电方案的公司之一,在2016年之前,智能眼镜行业还没有类似的设计。
智能音频眼镜Vue,图源:网络
如今,智能眼镜市场的竞争越来越激烈,因此我们觉得在这个赛道不应该直接对标现有的AI眼镜,而是选择专注于特定人群,因此我们推出了专门面向听障群体的Captify智能眼镜。相比普通消费者,听障人群对AR眼镜的需求更为迫切。虽然目前AR技术仍然有很多限制,比如体积较大、反光和透光问题等,但对于听障人士来说,AI语音转字幕的功能可以极大改善他们的沟通体验。
我的合伙人Tom本身就是一名听障人士,3岁就开始佩戴助听器。他之前在美国尝试创业,想开发一款帮助听障人群的智能眼镜,但由于硬件研发难度太高,未能成功落地。我们合作后,结合了Vigo之前在智能眼镜方面的经验,最终开发出了Caplify。
Caplify通过定向麦克风拾音技术,能将对话实时转换成字幕,并显示在眼镜镜片上。这里面涉及到两个核心技术:一是精准拾音,能够过滤背景噪音,确保字幕仅会显示对方讲话内容;二是优化显示效果,增强户外可视性,让字幕在各种光线条件下都能清晰呈现。
虽说看起来这个场景并不难,很多AR公司都能做,但里面其实对算法具有很高的挑战,比如我们除了能识别人声外,还能识别门铃、洗衣机、电器的提示声,这款产品中包含了很多这类细节。
目前,我们的策略是先从听障人群切入,我们先把这10万名用户服务好,然后再逐步扩展到更广泛的应用人群。我们希望通过精准定位需求,在智能眼镜市场建立更具竞争力的差异化产品。
面向听障群体的AR眼镜Captify,图源:网络
案山子:从你的介绍来看,你们可能是市场上最早一批涉足 AI 眼镜或者说智能眼镜的人,最初你们决定切入这个赛道,主要是出于什么考量呢?是因为你本身就有创业的想法、大学的经历还是身边有人有这样的需求?
Jason:我一直认为创业应该从自身需求出发。最开始做眼镜,是因为我自己也戴眼镜。虽然我度数只有一两百度,平时可以不戴,但开车或上课时需要佩戴。而我的合伙人,她如果不戴眼镜,基本上什么都看不清。我们另一位合伙人,他没有视光问题,但他喜欢把眼镜作为装饰。他喜欢通过眼镜来搭配服装。
可以说,我们的团队对眼镜的理解非常全面,我们知道眼镜的使用场景,无论是长时间佩戴,还是偶尔佩戴,都能针对不同人群设计产品。
最初我们进入智能眼镜领域,其实是做疲劳监测产品时逐步递进的结果。我们思考该如何更有效地监测疲劳状态,当时我们研究了很多方式,比如手环监测心率、体温,或者在胸口佩戴设备等。但后来发现,眼镜是最方便的形态。因为人体许多重要的生理信号都可以通过头部来监测,比如眼动、EEG、EMG等。
我们仔细想想,市面上有智能戒指、智能手环、智能皮带、智能鞋、智能衣服,它们所能监测的很多数据,其实在头部都可以获取,而且还能监测更多信息。因此,我们最初只是想用眼镜来做疲劳监测,后来才逐步发现,这个领域有更广阔的拓展空间。
案山子:当时Vue这款产品取得了很高的众筹金额,为什么后来没有进一步规模化,把产品推向更大的市场?
Jason:这是个很好的问题,背后涉及到市场的天花板到底有多高。当年我们是第一家实现了智能眼镜量产的公司。即便谷歌眼镜当时也只卖了1000台,而我们在众筹阶段的销量就达到了它的10倍,后续累计更是达到了100倍。
但如果回头看,过去十年,市场的发展情况并不尽如人意。比如,华为智能眼镜的销量大概是几十万台,而Bose更是直接砍掉了他们的音频眼镜项目。亚马逊的智能眼镜已经发展到第三代,但销量也不算理想。整体来看,音频眼镜始终没有达到像耳机、智能手表、智能手环那样的市场规模。
我们一直希望把产品做大,但大公司没能做到,小公司自然也不容易。原因在于,单纯的音频功能存在局限性。智能眼镜的音质很难比得上专业耳机,而大多数人并不会全天候使用耳机或打电话。所以,智能眼镜在音频上的价值有限,更多是作为一个辅助设备。
相比之下,我认为眼镜的独特价值在于视觉。人类的五官中,视觉是最重要的,你可以设想一番,如果必须失去视觉、听觉、嗅觉其中一个,相信大部分人都会选择保留视觉。因此,我们认为智能眼镜如果想要真正普及,必须结合视觉功能,比如第一视角拍摄或者显示增强,而不仅仅局限于音频。
案山子:刚刚你提到最早在2012年就有眼镜硬件的想法,到现在已经2025年了,这13年间,市场、技术和产品定位都发生了很多变化。你怎么看待这些变化?
Jason:这几年变化确实很大。最早做智能眼镜时,市面上没有专门的OEM/ODM工厂,我们只能找做耳机的厂家,尝试把耳机形态调整成眼镜镜腿。而现在,几乎每天都有新的OEM厂商找上我们,并表示能够提供智能眼镜方案,这说明市场已经成熟了。
此外,芯片技术也进步了很多。我们最早的时候,蓝牙双模芯片还没有普及,也没有TWS,最早的时候我们尝试过近磁场感应方案,后面我们通过两颗不同的芯片——高通的蓝牙芯片和Nordic的低功耗芯片——来完成数据传输,当时技术非常不成熟。但现在来看,任何智能眼镜都已经默认采用蓝牙和TWS技术。
软件方面的进步也很大,比如早在2016年,我们就已经在做AI眼镜了。当时的视频展示场景,和现在的AI眼镜(如李未可、界环等)几乎一模一样。区别在于,当时的AI只能依赖谷歌助手、Alexa或Siri,这些AI助手回答能力很有限,只能查询天气、设定闹钟。但现在,AI交互能力大幅提升,用户可以与眼镜进行更深入的对话,应用场景也更加丰富。其实严格来讲智能眼镜在硬件上的变化都是不大的,设备端进行拾音降噪,随后传输到手机上处理,只不过由于AI大模型能力的提升,这极大程度拓宽了应用的边界。
Captify在CES,图源:网络
案山子:你们在智能眼镜微型化、电路设计和供应链选择上有哪些经验可以分享?
Jason:Vue这款智能眼镜重量大概在20多g,这其实已经是一个不错的成绩。
当然市面上还有很多新技术出现,比如说现在最常规的方案是开模,然后把电路板放进去,但是这两年我接触到了一种注塑工艺,它能将电路板直接注塑进镜腿,而不是单独装入外壳。当然目前这个工艺还不太成熟,需要考虑温度、电路脱焊等问题,并且由于设备已经一体化,已经变得不可拆卸了。这是一种研究方向。
另外智能眼镜的舒适度,除了重量,还取决于重量分布,而后者是被很多人所忽视的。例如,前框的摄像头如果过重,会给鼻梁带来很大压力,鼻梁敏感度其实远高于耳朵。哪怕在鼻梁增加两克,可能很多人都会觉得很重,但是即便在耳朵处增加10g,很多人都不会有太大感觉。因此,未来的设计方向,可能会更注重人体工学,比如像Even Realities一样把电池等重物放到后部,形成杠杆效应,从而减轻鼻梁压力。
案山子:是否会担心进入行业过早所导致的额外风险问题?
Jason:我认为任何创新,当然不仅仅是眼镜行业,所有产品或创业项目都有两种路径可选:一种是成为创新者(Innovator),即行业引领者。这条路需要不断探索新的技术、方法和突破。另一种是成为跟随者(Follower)。跟随者并没有不好,他们的优势在于可以避开前人的坑,以更低的成本进入市场。例如,小米的模式并非完全原创,而是通过分析已有产品,研究如何优化供应链,降低成本,使产品更具竞争力。
总体而言,国内创业者更倾向于做跟随者,因为中国的供应链优势可以支撑低价竞争。而在硅谷或美国,创业者更愿意尝试创新。
创新确实非常难,需要大量研究和试验。正因如此,我们会持续关注各种新材料和技术,积极参加CES、光学展、材料展等行业展会。比如CES期间,我不仅会待在自己的展台,甚至几千个展商都会认真关注,上前了解他们的新进展,寻找潜在有价值的技术。
由于我们选择Innovator这条路径,这注定了我们在产品研发上的投入会非常高,比如研究材料、设计光学系统、优化声学组件等。这也是为什么我们选择欧美市场的原因:一方面,欧美消费者更愿意尝试新技术; 另一方面,欧美市场的定价更高,能够支撑高昂的研发成本。
我们的Vue系列智能眼镜,在美国的售价为200-300美金起,用户可以定制度数和更高级配置,最高甚至能卖到500-600美金。而在国内,音频眼镜的价格已经低至100元人民币,华强北和淘宝上有大量低价产品。
当市场进入价格战,创新空间就会被压缩。但由于我们采取高毛利策略,即便总销量不算最高,利润仍然优于很多厂商。比如我们Vue总共卖了不到10万台,但之前跟一些供应链的朋友聊过,结果发现他们音频眼镜可能有百万量级量,但毛利却比不上我一年的销量。
因此,关于创新者还是跟随者,这最终的选择取决于企业的定位,两种模式都可以成功,只是路径不同。
Vue,图源:网络
案山子:目前AI眼镜功能场景趋同,如何让用户感受到产品内在的价值?
Jason:这是一个很好的问题。用户为什么愿意支付更高的价格?每个品牌的答案不同,有些依靠品牌影响力,有些依靠渠道优势。但我认为,最关键的还是应用场景。
现在,耳机、眼镜、手表等设备结合AI已经成为行业趋势,虽然目前AI耳机、AI电脑还算一个时兴的观念,但AI未来很可能会像蓝牙、WiFi一样成为标配。反映在AI眼镜,它的关键不在于“有没有AI”,而是“AI能做什么”。
以 AI 录音笔为例,录音笔本身不是新概念,但结合AI后,它可以总结会议内容,并给用户提供会议帮助。这些产品由于提供了更具体的、高价值的功能,用户其实愿意花钱买单。
又比如我们的Captify AR眼镜,市场上其实已经出现价格低至1699人民币的AR眼镜,是不是价格越低越有竞争力呢?其实不一定。对欧美用户而言,他们更关注的是眼镜具体功能,而非价格。例如,我们的听障人士专用眼镜在北美的售价为500-600美金,同时还有月度订阅费用,但由于我们能解决具体需求,很多人还是愿意买单。
当然,这可能也是出海的好处之一,首先Captify在欧美卖5、600美金,这在大部分人的消费能力之内。其次,这些用户还可以用保险来买,欧美很多人有医疗保险,或者叫视觉保险,他们购买一副眼镜,可能保险会帮他们支付一半的钱。另外欧美地区用户已经对订阅费用习以为常,因而对AR眼镜的订阅使用也不会抗拒。
我了解到国内市场也有类似的AR听障产品,但它由于以上种种可能产品会相对局限。
案山子:Captify这款产品专门针对听障群体,背后做了哪些优化呢?
Jason:刚才提到,现在市面上其实有很多AR产品,价格低,海外用户也可以买到,所以有人会问,为什么我不买一个雷鸟或者Even Realities的眼镜给听障人士用?
我们认为如果想要服务好一个群体,它不是把一个通用的产品稍微改一改就可以实现的,而是需要深入了解这个人群。我如果不是碰到Tom的话,可能我也不会想着去做听障这个事情。
我这段时间跟很多听障人士沟通,我发现,他们其实有着不同的看法。比如有些人从小失聪,习惯于用手语交流,但他们并不会觉得有什么自卑,相反他们觉得会用手语是一件很酷的事情。我建议他们使用我们的产品,他们反而会觉得是一种侮辱。也有一些人慢慢失去听力之后,习惯于佩戴助听器,但是时常听错,会闹出一些笑话,他们反而不愿意去接触社交了。只有当你对用户群体足够了解,你才能开发出更好的产品。
再举个例子,我们发现听障人群其实80%以上的年龄都会偏大一些,这部分人对于智能设备的使用不太熟练。所以Captify做了一个非常简单的事情:按一个键它就直接开始转写,再按一次它就结束了。我们将切换语言这种低频场景放到APP里面,因为大部分人是没有经常切换语言需求的。
市面上同类型产品都做不到captify那么无脑,它们可能需要开机、滑动菜单、找到特定页面才能触发转写功能,而这对于很多用户来讲还是太复杂了。并且这些设备在转写过程中可能会夹杂通知播报、来电,或者不小心触发语音助手,这些都不利于我们的用户使用。
我们还发现市面上大部分AR眼镜,它的字都太小了。这对于年轻人来说可能问题不大,但是我们的用户人群往往需要非常大的字,因为他可能本来就带老花。所以我要考虑怎么把字体调大,如何在UI/UX方面做优化等。
再者,我们是一定要具备定向拾音的麦克风,我们目前用了两到三个麦克风,通过定向拾音的算法来尽量捕捉前面的人说话,并且过滤掉杂音。而其他产品在做降噪时更多倾向于过滤环境音而非人声。
还有一点,听障人群要看的不仅仅是文字的转写,有很多声音比如火警、孩子在哭、微波炉"叮"的一声、洗衣机洗完的提示音,这些声音其实都要做识别,我们会对这些场景做很多细化的工作。
我再举一个例子,目前所有的AR眼镜基本上都会把焦距定在大概4米的范围,因为4米是一个最舒适的范围,但是这对于听障人群来讲有些不一样,比如我跟你聊天只隔了一米,有时候听讲座距离演讲者有5米,看电影坐在最后一排可能距离有20米。如果AR眼镜焦距是固定的,那么用户需要在人脸跟文字间来回对焦,这个体验也不好。所以我们的眼镜通过一些思路实现了从1米到无限远的变焦,只有这样才能最好的去服务这个人群。
前面所说的这些事情,并不是说别人做不了,所有的这些他们其实都能做,但是如果真的想要认真服务好这些用户,还是要下大量的功夫。正因为我们专注,所以很多人还是乐于花五六百美金买我们的产品,因为它真的能解决生活上的问题,而不是花200美金买一个更便宜的但体验没那么好的产品。
Captify功能展示,图源:Captify
案山子:对于Captify,你觉得产品后续还有哪些能够继续改进的点?
Jason:目前我们对这部分人群也还在了解当中,他们有很多需求是值得被重视的。比如有用户反馈希望能对转写做一个用户的区分,这样在家里跟爱人、孩子、父母讲话时就能识别谁在讲话。
又比如通话转写,之前可能通过开免提的方式实现转写,未来能不能直接边通话边转写呢?虽然这听起来不难,实际上想要实现也没那么容易。因为通话时会走经典蓝牙通道,而转写可能还得走BLE通道,这需要芯片层面能够支持这两个通道同步传输声音。
又比如像前面所说的变焦,我们是基于双眼视差实现的,虽然听起来也不难,但实际上大部分市面上的硬件都是不支持,因为目前大部分的光机都是同一个VSP在处理,它相当于两个屏幕都连到同一台电脑上,都通过同一根线,这样的话两个屏幕展示的内容是一样的。背后需要从硬件层面上去做考虑,以让两边显示不一样。
总而言之,背后这些细化的需求其实不是现有的软硬件基础就能覆盖的,我们必须从一开始就收集这样的信息并且进行大量的调整。
我们Captify最近才开始陆续发货,但是我们很谨慎,会先从50台、100台的小规模发货,这也是考虑到需要收集更多反馈,确保产品在质量以及功能使用方面没有问题。
讲个题外话,之前我们Vue开卖时有用户询问怎么关机,结果我发现我们在说明书里面只写了长按开机,但没写长按关机,没写进去很多人就不知道怎么用了。类似这些事情,如果你不做产品研发的话,可能压根想不到。因而我们新产品发售时觉得还是有必要先进行小规模测试,然后再开始大范围铺货。我们得确保用户知道如何使用,如开关机、如何配对、如何确保APP常驻,杀后台后及时打开等,这些都需要炮筒。
在这里,其实HAX之前也给了我一个很有用的建议:初创型公司轻易不要上亚马逊,为什么呢?因为亚马逊客户如果对你的产品不满意,他可能就直接退货了,他跟平台联系而不会跟你联系,里面缺乏一个直接交流的渠道。
Captify的一些规格,图源:Captify
案山子:能否进一步讲解AR眼镜变焦的原理?
Jason:Captify是基于双眼视差原理所实现的,当然市面上也在探索一些其他方法,比如通过小马达改变光机的显示位置、镜片在通电状态下改变焦距等,但是这些目前都不算特别成熟,未来也有可能会出现更多方式。当然我认为对于未来的智能眼镜而言调焦也会是一个很重要的事情。
案山子:国内外AR眼镜近视解决方案有什么值得分享的?
Jason:对于Vue,有80%的客户都选了配度数,对于Captify,也有60-70%用户选了配度数。所以近视是非常值得重视的。当然,反过来我们也可以这么想:为什么大家愿意买这样的产品,其实也是因为大部分用户本来就戴眼镜,然后他也有这样的需求,才选择了使用这样的产品。
近视有很多方式可以解决,比如夹片、波导贴合镜片等。在这方面国内团队最大的一个优势是什么呢?由于眼镜最强的供应链在中国,然后电子供应链也是中国占优,所以中国其实最适合干这件事情。比如Vue,我们用户在网上下单的时候,他可以直接提交他的度数,他还可以在线验光。由于我们的镜片在镇江丹阳那边生产,电子框在深圳,两边结合到一起就可以发货给客户。所以这个周期非常快,成本非常低,时效也非常好。
这个在美国是非常难达到的,因为美国光是做一套镜片外发出去可能就得100美金成本,因为它最贵的是人工成本,但是国内的话人工相对便宜得多。
另外值得一提的是,之前我们需要通过借助OCR等方式来识别客户验光单,这些验光单都是眼科医生手写的,不过机器准确率不高,比如有些人2跟9写的很像,又或者7跟9写的很像,这时候就需要再通过人工去进一步核实。不过现在AI可以直接干这件事情,并且干得可能比人识别的还要准。
在隐私方面,美国有一个HIPAA,这是一个隐私保护法,验光数据也属于它们医疗保护信息之一,不能随便传输。智能眼镜在配光时,必须要客户从网页进入我们的符合HIPAA的在美国的服务器,然后这个数据再直接传到供应商的手里。他们不知道对应的人,只知道这个度数,只会获得一个编号,不知道是谁的度数。所以这样子能确保整个链条符合数据规范。这也是未来AI眼镜从业者出海时需要注意的地方。
案山子:在海外智能眼镜可能要归类为医疗器械类别,有些产品可以走保险等,里面有哪些值得分享的信息?
Jason: 由于我们之前做过Vue,因此在开发Captify时整个流程会顺得多,我们基本上几周内就能完成相关流程。如果没有经验,可能需要更长时间摸索。最近一些成功众筹的项目也在咨询我们如何申请保险报销等问题。这些流程需要一定时间和费用,比如在FDA注册大约要1万美元。此外,如果镜片的销售和生产地不在同一地点,两者也需要分别注册,这些成本都不低。
又比如,美国要求眼镜镜片必须通过落球测试,而国内没有这项要求。对于AR眼镜、光波导眼镜,甚至AI眼镜而言,如果涉及度数问题,也要纳入考量。这不仅会影响成本,还会限制可用的供应商,因为并非所有供应商都符合标准。这些都是合规过程中需要注意的事项。
在国内,合规问题往往是在产品做大之后才会被重视的东西,而在国外情况却不同。即便是小公司,也可能因为未合规而在海关被拦截,甚至面临法律问题,因此必须投入时间和精力去解决这些问题。当然得益于现在的AI,它其实能帮助我们解决很多法规问题,比如你可以直接问ChatGPT,如果要在美国销售产品,需要符合哪些法规?如果要出口到欧洲,需要满足哪些法律要求?这些都可以通过AI进行快速查询和解答。
图源:Captify
案山子:如何看待AI眼镜持续工作而产生的隐私问题?
Jason:关于隐私,美国在这方面还不是最严格的,欧洲才是。例如,Ray-Ban Meta可以直接在美国开卖,但在欧洲推广时却非常谨慎。这主要是因为欧洲的隐私保护法规更严格,例如GDPR规定,网站必须提供cookie声明等。这种对隐私的重视也影响到欧洲AI眼镜的发展。
当然,隐私问题不仅仅影响眼镜,耳机、手表、手机、智能音箱甚至自动驾驶汽车都涉及数据收集和隐私保护。未来,可能会有更完善的行业标准或法规。
目前,我们能做的就是在产品设计时尽量考虑隐私保护,例如区分国内外服务器,国内用户使用国内AI,海外用户使用海外AI,如Gemini、Claude等。此外,我们也收到过用户要求删除在App内所有数据的请求。因此,提供透明的数据处理声明、满足用户删除数据的需求,这些都很重要。欧美用户相对更重视隐私,这也是为什么在国外,摄像头的普及率远低于国内。
案山子:目前市场上的智能眼镜产品大致可分为三类:纯音频设备、带摄像头的音频设备,以及具备显示功能的设备。你认为哪类产品更符合大众消费市场?在产品定位上,你们是如何考虑的?
Jason:这就像汽车行业的不同车型——巴士不会取代轿车,SUV也有自己的市场。眼镜产品同样如此,会根据不同人群和需求形成多种形态。
例如,Ray-Ban Meta虽然功能更强,但不影响Vue受欢迎。这是因为许多用户的工作或生活环境不允许摄像头存在,例如工厂、金融交易、研发场所等。此外,也有用户的拍照需求不高,更倾向于轻便的眼镜。因此,未来不同产品形态会共存,而不会被某一种完全取代。
案山子: 目前Captify主要面向听障人群,你们是否考虑拓展到更广泛的消费市场?
Jason: 当然会考虑。我们从Vue再到Captify,就是在探索更广阔的市场。不过,我们不会直接迈向大众市场,因为目前技术尚未成熟,创业公司也无法推动整个行业快速进步。我们的策略是先从特定人群切入,优化产品,逐步拓展市场。
这也与手机的发展类似。早期的手机价格昂贵,主要服务商务人群,随着技术进步,才逐渐普及到大众。同样,AI眼镜目前仍有许多技术瓶颈,贸然推广到大众市场可能会失败,因此需要找到最初的核心用户群体。
创业公司很难一步登天。大厂一定会进入这个市场,我们要么避开直接竞争,要么找到细分市场。例如,Vue眼镜当初成功的关键在于,我们是第一家做这类产品的,并且市场尚未被大厂关注。
如果直接与大厂竞争,创业公司很难胜出。例如,苹果手表推出后,它直接或间接淘汰了许多小型智能手表公司。因此,我们必须找到市场空缺,确保创业公司能生存和发展。例如,大厂可能不愿意进入一年10万/50万台的市场,但对创业公司来说,这已经足够生存,甚至可能促成收购或并购。
案山子:Captify面向哪些国家销售?
Jason:其实我们对此并没有太多限制。之前的Vue除了中国以外我们都卖。我觉得听障类眼镜国内外打法其实不太一样,国内有亮亮视野等设备,国内可能需要走残联,但这个在欧洲是没有的,美国也是没有的。
美国其实最大的市场是VA(Veteran association),这是一个退役军人组织,这个群体非常庞大。可能由于战争训练等原因,他们或多或少都会有一些听力上的问题。所以每个市场特性还是挺不一样的,但我们现在主要会先从欧美市场跑起来。
如果再展开的话,我觉得眼镜这类产品一定要走线下。它跟智能音箱不一样,比如我看到你在用某某音箱我很喜欢我可以直接在网上买同款,但是眼镜不行。因为适合你的眼镜不一定适合我,每个人的脸型、舒适度感受还有喜欢的外形都不一样,所以一定要走线下。这也就注定眼镜没法大规模地在全世界每个国家都铺货。当然你可以线上买,但我们认为未来这类产品最大的销量还是得在线下,用户需要在线下体验佩戴、外观以及功能等。
案山子:能否再聊一聊智能眼镜渠道的问题?
Jason:数据上来看,美国只有5%的人在网上买眼镜,而国内有30%的人在线上买过眼镜。虽然在国内去一个线下店要容易很多,可能你下楼就有,而美国很多人得开几个小时的车才能找到一家眼镜店。
即便如此,美国却更依赖线下,里面有几个原因:一是因为保险,大部分人为大公司工作都会有视觉保险,可以去验光配镜,每年都有额度。美国是一年一次,加拿大是每两年一次,欧洲很多国家也是每两年一次。美国人可能每年都会去验光,就像年度体检一样。这些验光不需要去医院,是到眼科医生(optometrist)那里,他们不只是验光,还会检查白内障等其他眼部问题。
另外助听器也很有意思,国内戴助听器的人很少,而欧美50-60岁以上基本人手一副助听器。在美国它可能要卖2000-3000美金一副,而且保险还不包。所以我们的产品在欧美市场就有这个机会,它既可以在眼镜店里卖,也可以在助听器渠道里卖。
案山子:如何提升Captify这类产品的续航?
Jason:其实最主要的还是要研究怎么做减法,聚焦产品真正的用户群体。如果你想要做一个大而全的产品,那它就需要放很多东西,比如重力感器、多个麦克风,要不要显示?要不要摄像头?组件多了之后佩戴以及续航就下来了。
像Even Realities,我觉得他们其实有一件事情做得很好,他们专注于把显示做好,砍掉了喇叭。Ray-Ban Meta也不错,产品专注于把摄像头做好,这也是做减法。我们的Captify也是如此,我们不需要摄像头,专注于干好我们的视觉辅助,这样在续航方面能够有一定改善。
又比如一些骑行眼镜,大部分人其实不会一天骑十几个小时的车,我们只需要为他们解决一天中核心的三、四个小时需求就足够了。因而续航需要重视,但也没必要太过于焦虑,核心还是得回到应用层面。
观众提问:你觉得面对儿童市场的AI眼镜是否有需求?
Jason:我觉得如果有谁能够做出小天才手表版的AI眼镜,那真是发大财了。实际上我看到目前确实有好几家公司在做,展会上也看到一些展品,比如红外检测眼睛离作业本的距离、用眼时间等等。不过它们总体来看设计都有点奇怪。
如果回到小天才手表,我觉得它成功的核心其实并不是防丢、与父母联系,而是它就像是一个玩具,可以拍照与朋友聊天等,它服务了孩子,孩子也愿意去佩戴。我之所以说现在这类眼镜有点奇怪,是因为它很无聊,系统检测到孩子姿势有问题,就震动提醒,我不认为这会让他们乐于长时间佩戴。里面还缺乏一些黏性的应用。
观众提问:做好智能眼镜产品的难点在哪里?
Jason:其实刚才已经提到过,关键在于什么样的眼镜是用户真正愿意长期佩戴的。如果问问身边戴眼镜的朋友"你是怎么选购眼镜的?为什么选择这款?"就会发现三个最关键的因素:外观设计、佩戴舒适度和重量。这三个维度是所有消费者选购眼镜时最看重的。
但现在很多AI/AR眼镜厂商的思路是优先考虑如何堆砌功能,而不是从这三个基本需求出发。当年我们Vue之所以能成功,正是因为我们在屏幕和摄像头技术都不成熟时做了减法,重点打造了首款支持配度数的智能眼镜。虽然现在看起来很基础,但在我们之前竟然没有智能眼镜公司试图解决这个问题——近视人群不可能戴着隐形眼镜再戴智能眼镜,而视力正常的人也不会单纯为了功能去戴眼镜。
其次,消费者选择眼镜时最看重的仍然是款式、镜框设计和舒适度。这就带来一个产品设计难题:目前所有带摄像头的眼镜都把模组集成在前框,导致每推出一个新款式(圆形、方形、半框、无框甚至现在流行的五边形/六边形)都需要开新模具。我们正在探索将摄像头模组与镜框分离的方案,让前框可以自由更换,这样既保留了拍摄功能,又能满足个性化需求。
亚马逊有一款眼镜采用了可调节镜腿设计,这个设计十分有意思——通过特定部位的弹性调节确保镜框能稳固挂在耳朵上。说到底,好的智能眼镜首先必须是一副好眼镜:足够轻便、舒适、个性化,其次才是功能创新。如果连基础佩戴体验都做不好,用户为什么要放弃用手机来实现同样的功能?
案山子:Captify眼镜采用了离线还是网络转写方案?
Jason:目前软件方案是这样的:基础语音转写功能支持离线和在线自动切换,网络良好时使用在线模式,它的识别率更高,但像乘电梯这种无信号环境下会自动切换为离线模式。由于这是专门为听障人士设计的,保持全场景可用非常重要。相比之下,市面上其他产品(包括魅族的眼镜)基本都强制要求联网。补充一句,目前大多数手机都自带STT语音转写引擎,就算没有也能通过在手机运行Whisper等开源模型实现语音转写。
当然,更复杂的AI功能确实还需要依赖云端,比如连接ChatGPT、Gemini或国内的豆包。未来的方向可能是轻量级模型在手机端运行,复杂任务交给云端,但这需要手机厂商在本地化部署和能效比上的突破。短期内大模型都只能在手机或云端运行,眼镜端最多处理些离线语音转写,要实现真正的语义理解还不太现实。
图源:Captify
案山子:在适配手机的过程中安卓系统跟iOS系统都有哪些不同?
Jason:总体来看,iOS的条条框框会更多,当然你尽早跟苹果、亚马逊这些企业谈合作其实也是有好处的。我记得Vue当时接入亚马逊的Alexa,当时亚马逊参与一些展会时便展出了我们的产品,原因在于我们是首款接入了它们语音助手的眼镜设备。这也是我们当时没料到的好处。
有些产品如Ray-Ban Meta可能与苹果进行了深度合作,比如我之前一直很疑惑为什么它能够在APP被杀掉后台的情况下还能唤醒语音助手,同时还能自动弹出APP,这可能也是与苹果深度合作的结果。
案山子:如何看待VR、AR的开放操作系统?
Jason:我非常期待有这么一个操作系统出来,就像安卓出现后,很多手机只需要把手机做好就行,他们不用再操心背后的生态、APP的一些事情,这其实是一个共赢的事情。当然这个生态需要靠创业公司来做还是科技大厂来做,目前还不知道。可以肯定的是,操作系统的出现可以减少眼镜厂商的工作量,并且极大减少资源浪费现象。
案山子:公司未来还有哪些设想或者计划?
Jason:我们是一家硬件公司,其实也可以把我们称为platform agnostic,什么意思呢?我们可以把现有的诸如助听等软件做好,并且适配市面上满足需求的硬件。在这种语境下,我们也可以称为一家软件公司。我们可以利用原有的硬件、品牌、渠道以及对海外市场了解等优势,合作共赢。其实目前我们也在跟魅族探索如何进一步向听障群体推广我们的眼镜。
在这种情况下,我们存活的路径其实就会更多一些,相当于有很多这种不同的路线,另外我前面提到目前很多AR眼镜企业投了大量的钱研发,背后却在做同一件事情,这是没必要的,我倒不如专注于把我们核心的应用做好。
观众提问:企业是否有融资计划?
Jason:Captify现在还没有正式融资,但我们对此保持开放。另外由于Captify是一家全新的公司,如果要融资算是天使轮。目前已经有一些小额天使投资在洽谈了。
我认为在AR眼镜领域,随着后续更多大厂进入,找到自己能存活的立足点很重要,因而我觉得细分赛道可能更有机会,这是我们在市场中取胜的关键之一。
另外不排除我们这类公司会被收购,比如EssilorLuxottica已经收购了两家听障眼镜公司,这两家企业一家在以色列,一家在法国。今年EssilorLuxottica也在CES期间有相应的产品展出。
案山子:您认为听障人群市场规模大概有多大?
Jason:可以参考助听器市场,这已经是一个相对成熟的产品了,规模在几十亿到上百亿美元。助听器售价在2000-4000美元。我们的产品既面向戴眼镜人群,也面向听障人群,市场消费意愿很高。
关于潜在人群的具体转换率还不确定,但我相信里面具有很大的机会,至少说我把市场渠道铺起来了以后作为一家创业公司能每年出货几十万台,我觉得是没问题的。
观众提问:能否结合手表或手机的算力,减轻眼镜重量同时增强功能?
Jason:绝对可以。之前有个投资人问过我类似的问题:能否把算力放在眼镜盒里?我当时觉得想法新颖,但不太当回事,因为很多人其实并不愿意拿着眼镜盒出门。然而,就在不久后,Meta发布了Orion,这款眼镜依赖于一个手持设备当成算力中心,这种思路其实还是挺有意思的。
到了后面,可能我们每个地方都有类似的小算力中心,当然它可能是手机、手表、眼镜盒或者是别的。比如我开会时,它连上相应的单元,在车上,它又会连上相应的单元。这对于眼镜的功耗控制是十分重要的。
案山子:Captify开发过程中如何与听障社群深度合作?
Jason:我们的合伙人Tom本身就是听障人士,他本身在斯坦福医院面向听障儿童进行了大量的测试。美国也有一些这类专门面向听障用户的展会,这也是联结社群的一个重要方式。
另外,海外有一个叫Audiology center(听力学中心)的机构,我们可以跟这类机构合作,医师会对接客户并跟听障用户介绍Captify这类产品的存在,这种渠道也是国内所不具备的。
案山子:作为硅谷创业公司,当地有哪些独特的支持?
Jason:我觉得最主要的是湾区对创新的接受度和包容度。比如我们做Vue时,从研发到发货花了两年,当时上线Kickstarter每个月都会发Update介绍我们遇到的一些挑战,但是支持者们都乐于接受。如果在国内买一件东西两年才发货,这恐怕是不敢相信的。
海外用户对我们非常包容,他们就像是买一张电影票,乐于看到一件产品从无到有的过程。他们觉得支持你的一个想法,并且这件事情有意义,他们就愿意买单。这也就激励了我们大胆创新。
另外,在资本方面,我们发现国内资本普遍会以2、3年为一个周期,过了这个期限后希望能够退出或者有人接盘,但是在欧美的话,这个周期可能长达10-12年,因为很多长远的事业本身就需要更长的周期才能见到成效。这对于很多国内基金而言也是不可想象的。
比如说HAX之前投了一家3D电池打印公司,当时其实仍看不到这项技术的太多用途,但是五年、十年后再来回看,眼镜、戒指、耳机等开始逐渐成为了异形电池大派用场的地方。类似的技术它可能一个五年内都不一定能够见到回报,甚至永远也见不到回报。但是美国的投资人相对更敢去投这些项目,而国内会偏谨慎一些。
国内的企业在一些相对成熟的领域,可以做得非常快,非常好,比如deepseek之于ChatGPT,但是如果是AI的底层研究或者论文发表,大概率还是在硅谷才能找到,这背后可能要靠很多年的积累和砸很多的钱,硅谷相对来说更具备这种基因。
案山子:硅谷切入AI硬件赛道的企业多不多?
Jason:远没有中国多。美国硬件创业成本高、周期长,比如硅谷一个工程师可能需要10万美金,而国内可以雇好几个人了,加之工厂多在国内,这边效率会高得多。
另外,前些年美国也有一些很著名的硬件项目相继暴雷了,(比如Coolest Cooler保温箱、Lily无人机、Juicero juicer),这让投资人对硬件更加谨慎。但硅谷硬件公司退出机会较好,常被谷歌、苹果、Meta收购。在中国,除非成为小米生态链,否则很难存活。
案山子:感谢Jason的精彩分享!今天的直播到此结束,谢谢大家!
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息