Open-Vocabulary and Referring Segmentation for 3D Scene Understanding

为什么重要

精确的 3D 场景理解是具身 Agent（Embodied Agent）在物理世界中执行任务的基础能力。传统 3D 分割方法受限于预定义类别，无法泛化到开放词汇描述的物体。本论文提出的开放词汇指代 3D 分割方法，首次在点云级别实现了"用自然语言描述目标 → 精准分割出对应区域"的端到端能力，Agent 可以通过"把红色的杯子拿起来"这样的自然语言指令准确定位和操作任意物体，大幅降低了人机交互的门槛。

关键要点

开放词汇 3D 指代分割的统一框架：将语言编码器、视觉-语言对齐模块和 3D 点云分割网络联合训练，支持任意自然语言描述（包括颜色、材质、位置关系等复合属性）作为输入，无需针对每个类别重新训练。
语言-3D 对齐的跨模态注意力机制：提出一种新颖的跨模态注意力模块，将 2D 图像-语言对齐知识蒸馏到 3D 点云表征中，在保持 3D 几何精度的同时继承 2D VLM 的丰富语义，显著优于仅使用 3D 几何特征的方法。
零样本泛化能力：在 ScanNet 和 S3DIS 等基准上，即便输入描述中包含训练集从未出现的物体（如"金色烛台"），模型仍能准确分割，展示了强大的零样本泛化能力。
对 Agent 系统的直接应用价值：该技术可与机械臂、无人机等具身 Agent 系统直接集成，使 Agent 能够在非结构化真实环境中理解和操作任意物体，是具身智能走向实用化的重要里程碑。

来源：全文 | 原文