2025未来商业生态链接大会暨第十届金陀螺奖颁奖典礼(以下简称“FBEC2025”) 于2025年12月5日在深圳湾万丽酒店盛大召开。本次大会由广东省游戏产业协会、深圳市互联网文化市场协会共同指导,陀螺科技主办,游戏陀螺、VR陀螺、陀螺财经、陀螺电竞、前方智能联合主办。
大会以“大道智简”为核心主题,聚焦游戏、XR、AI、电竞等前沿领域及行业热点议题,探讨新科技、新商业、新模式的未来价值共同探索技术本质,把握变革先机,让我们与所有探索者执简驭繁,共赴星海,破晓而行!
FBEC2025主会场C:镜观未来•2025全球AI眼镜技术产业趋势论坛,关注产品的差异化发展路径与技术融合,洞悉AI眼镜行业的前沿动态。现场邀请到腾讯混元 3D专家研究员 吴俊塔带来主题为“混元3D生成大模型:研发布局与应用”的精彩演讲。
吴俊塔认为:3D生成领域的技术范式将往更原生的方向发展。

以下为演讲实录(内容略有删减调整):
很高兴今天能在这里跟大家分享一下混元3D生成大模型的一些研发情况。
我下面的分享内容主要分为这几部分。第一部分会介绍一下混元3D生成大模型研发的背景以及研发布局;接下来会介绍一些实际的模型研发进展;最后一部分是对未来3D生成领域的展望。

先来了解一下什么是3D。3D模型在业界也称为3D资产,它具有可交互性,能够进行全景展示,有比较高的可控性。可以看左下角的鞋子模型,用户实际上可以通过鼠标拖拽的方式跟这个鞋子进行交互,能够360度环绕查看细节。如果是3D拟人模型,实际上还可以对它进行驱动,实现旋转、跳跃等复杂运动。
3D的应用场景比较广泛,比如游戏开发领域,主流3D游戏里的人物或者道具其实都是3D资产。另外AR、VR设备,其实也需要3D资产作为内容,所以在社交娱乐、AR、VR、线上展馆等场景都会使用到3D资产。
介绍了3D的应用场景,但实际上3D资产制作比较困难。传统3D制作管线要制作一个3D模型,需要经过很多环节和子项目,整个流程比较长,导致生产周期长、成本高,而且需要专业建模人士,门槛也比较高。
在这种情况下,目前AIGC能力的发展可以辅助3D资产生成,帮助提效。我们做了一些调研,用AIGC方式生成3D和通过人工制作3D资产相比,效率有明显提升。
在这个背景下,腾讯混元团队开始布局3D生成赛道。我们的目标是打造行业领先的3D生成技术,通过AI手段重塑3D管线的各个重要环节。具体布局内容分为以下几部分:首先围绕3D物体资产的生成,不断打磨能力、提升效果;在这个基础上,用AI覆盖3D管线更多环节,形成3D AI管线;除了物体资产生成,还布局3D世界模型,实现场景级别资产生成;最后把这些能力整合上线到混元3D创作引擎,对外提供能力与工具。混元3D创作引擎是业界首个一站式、低门槛的3D AI创作引擎,能够支持普通小白用户和专业设计师高效生产3D资产。

上面是背景和研发的整体概览,下面介绍研发的模型实际进展。首先是3D物体基础模型的研发,我们的基础架构经历了三代升级,混元3D是业界最早开始做3D原生大模型的团队之一。经历三代技术架构跃迁后,在2.5版本时,3D生成效果在业界已经可以达到商业化使用水准,能够生成精细的几何细节和逼真稳定的效果。在这个基础上,我们持续迭代,现在最新的是混元3D 3.0版本,它在2.5版本基础上进一步打磨了几何功能细节,对人物生成效果有重大优化升级。
可以看到,3.0版本的几何细节已经可以达到应用落地程度,我们也跟游戏业务、行业中的3D打印厂商合作,把技术运用到他们的管线里。
刚才提到要把整个3D制作管线用AI方式覆盖,制作管线里的概念设计、3D建模、纹理编辑等环节,我们都会通过AIGC方式赋能。比如草图生3D能力,用户只需简单文本或上传草绘图就能快速生成3D模型,辅助设计师验证概念。
另外,游戏设计师对3D资产要求严格,包括模型中线、面数等,需要达到灵活互通状态。混元3D针对这种应用场景研发了低多边形3D模型生成能力,能够满足美术级3D生成需求。
此外,我们还研发了3D组件化生成能力,只需输入图片就可以端到端生成可拆分的3D模型。举个应用场景例子,玩具厂商希望生成可拆卸3D模型用于组装,3D打印也需要这样的能力落到打印管线里。
我们也支持对已有3D模型进行二次创作和纹理编辑。上传已有3D资产后,通过文本控制或上传参考图,就能根据指令二次创作出新的3D模型。混元3D也研发了自动绑骨算法,能够高效驱动拟人3D模型,进行绑骨驱动。

整合上面这些管线级AI能力后,我们还推出了面向专业设计的“混元3D Studio”工具。
前面主要介绍的是3D生成模型的效果,除了物体生成,我们也在布局世界模型,做场景生成的升级。物体生成比较好理解,世界模型或者场景生成简单理解,就是物体生成加上背景生成。世界模型是目前学术界和工业界比较前沿的研究热点,对应的概念是空间智能,目前技术路线还未收敛。
业界主流的方案是通过3D生成技术方案和视频生成路线做世界模型。比如李飞飞老师的创业公司 World Labs 在做的3D场景生成技术路线,也有像谷歌Genie系列工作从视频生成技术路线做世界模型。
混元3D定义的世界模型是可交互的三维场景,我们要做可交互三维场景生成,采用3D+2D相结合的技术模型。结合方式主要以3D技术路线为主,辅助2D video diffusion解决方案。我们提出了层次化三维场景表达实现世界生成,并借助 2D video diffusion 技术实现场景新视角扩展。
我们在7月份推出了混元世界模型1.0,这个模型支持两大功能:一是文本或图片输入生成360度全景,这种能力在AR或VR设备里也是可以使用;二是可漫游的3D产品生成,通过文本或图片控制实现层次化3D场景生成,是可漫游的系列产品,具有360度沉浸式预览、可漫游的特性,生成的世界可以兼容现有3D管线,放到游戏管线里作为资产。

发布混元世界模型1.0后,我们也在持续迭代世界模型系列。比如10月份发布了1.1版本,支持秒级3D重建,复刻真实世界。现在也在研发实时交互的世界模型,并且即将推出,感兴趣的朋友可以关注一下。
最后一部分是个人和团队对于3D生成领域的一些展望。首先物体资产和世界模型的生成还有很多迭代工作需要继续完善。虽然目前达到了一些商业化拐点,但生成质量和人工建模质量还有不少差距,我们要尽量弥补这个差距。
从技术角度看,目前多模态生成领域的大趋势正从diffusion扩散生成为主导,渐渐往AR自回归生成方式转换。我们在图像和视频领域看到了自回归模型的潜力,所以展望3D生成领域后续也会往更原生的自回归方向转化。
世界模型的想象空间比较大。从应用领域角度看,世界模型可以生成虚拟世界,也能模拟真实世界。比如虚拟3D场景可用于游戏开发、社交娱乐;真实3D场景可用于数字孪生、具身智能。我们也展望世界模型后续会通向4D模态,不仅包含3D静态资产,还包含时序动态部分,支持人与场景交互、Agent在场景中交互,这部分和目前的VLA、具身智能也有紧密联系。
最后,混元3D在持续做开源工作。从开始布局3D赛道到现在,已经在开源社区发布了一系列模型,从开源项目主页的点赞数和 Hugging Face 的下载量可以看出来,混元3D得到了用户及社区的热烈反馈。
以上就是我演讲的全部内容,谢谢大家!
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
版权申明:本文为VR陀螺原创,任何第三方未经授权不得转载。如需转载请联系微信:vrtuoluo233 申请授权,并在转载时保留转载来源、作者以及原文链接信息,不得擅自更改内容,违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处,如涉及版权问题,请联系本网站协商处理。
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息