Open-Vocabulary and Referring Segmentation for 3D Scene Understanding

为什么重要

精确的 3D 场景理解是具身 Agent(Embodied Agent)在物理世界中执行任务的基础能力。传统 3D 分割方法受限于预定义类别,无法泛化到开放词汇描述的物体。本论文提出的开放词汇指代 3D 分割方法,首次在点云级别实现了"用自然语言描述目标 → 精准分割出对应区域"的端到端能力,Agent 可以通过"把红色的杯子拿起来"这样的自然语言指令准确定位和操作任意物体,大幅降低了人机交互的门槛。

关键要点

  1. 开放词汇 3D 指代分割的统一框架:将语言编码器、视觉-语言对齐模块和 3D 点云分割网络联合训练,支持任意自然语言描述(包括颜色、材质、位置关系等复合属性)作为输入,无需针对每个类别重新训练。

  2. 语言-3D 对齐的跨模态注意力机制:提出一种新颖的跨模态注意力模块,将 2D 图像-语言对齐知识蒸馏到 3D 点云表征中,在保持 3D 几何精度的同时继承 2D VLM 的丰富语义,显著优于仅使用 3D 几何特征的方法。

  3. 零样本泛化能力:在 ScanNet 和 S3DIS 等基准上,即便输入描述中包含训练集从未出现的物体(如"金色烛台"),模型仍能准确分割,展示了强大的零样本泛化能力。

  4. 对 Agent 系统的直接应用价值:该技术可与机械臂、无人机等具身 Agent 系统直接集成,使 Agent 能够在非结构化真实环境中理解和操作任意物体,是具身智能走向实用化的重要里程碑。

来源全文 | 原文