编译/VR陀螺
试想要求机器人“把椅子放在沙发和窗户之间,面向餐桌”,或让AR系统“将这个角色放置在门口看不见的位置”。对AI来说这些指令难在需要对物体、空间和用户意图进行深度推理。
Niantic Spatial携手沙特阿卜杜拉国王科技大学研究团队KAUST推出PlaceIt3D——这一全新基准测试、数据集及基线方法,旨在推动语言引导的3D物体放置技术发展。PlaceIt3D的核心任务是接收文本指令、3D环境及目标物体,并根据指令精准确定物体的定位与朝向。
大型语言模型(LLMs)正迅速从文本领域拓展至视觉、音频乃至3D等多模态领域。然而尽管它们在2D推理中表现卓越,向3D空间的迁移却困难重重。
PlaceIt3D开创性地建立了首个系统化训练与评估框架,将自然语言处理、3D感知与物理推理融合为统一任务,精准攻克这一前沿领域。
语言与3D放置的融合将开启跨行业的自然协作。随着大型3D场景和丰富模型的普及,PlaceIt3D能在以下应用场景将获得更广泛的应用:
随着机器人、AR眼镜和数字助手融入日常生活,遵循3D空间自然指令的能力将不可或缺。
PlaceIt3D标志着通用型3D大型语言模型(LLM)的初步进展——这类模型能同时理解语言、3D物体与3D空间。其基准方法PlaceWizard展示了当前技术可能性,团队表示,期待研究界在此基础上拓展3D推理的边界。借助全新数据集与基准测试,研究者现可直接针对这项挑战性任务进行模型训练与评估。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息