城市规模的 3D 点云是表达精细复杂户外结构的一种有效方式。它涵盖了城市各个组成部分(包括汽车、街道和建筑物)的外观和几何特征,可用于实现自动驾驶汽车和无人机的用户交互导航等极具吸引力的应用。然而,与图像和室内场景中丰富的文本标注相比,户外场景文本标注的匮乏对实现这些应用构成了重大挑战。为了解决这个问题,我们引入了CityRefer 数据集,用于城市级视觉接地。该数据集包含 35,000 条 SensatUrban 城市场景中 3D 对象的自然语言描述,以及 5,000 个与 OpenStreetMap 同步的地标标签。为了确保数据集的质量和准确性,CityRefer 数据集中的所有描述和标签均经过人工验证。我们还开发了一个基线系统,该系统可以学习编码语言描述、3D 对象实例以及城市地标的地理信息,从而对 CityRefer 数据集进行视觉接地。据我们所知,CityRefer 数据集是用于定位特定 3D 对象的最大城市级视觉接地数据集。