博客

AI 聊天中的“心灵地图”：让机器理解你的世界
你是否曾想过，如何让机器像人类一样，在与你交流的过程中，不断学习和理解你的世界？想象一下，你带着一个机器人朋友参观博物馆，它不仅能识别展品，还能记住你对每件展品的描述，最终构建起一个关于博物馆的完整认知图谱。这就是我们今天要探讨的话题——语义解析在情境环境中（SPICE）。

SPICE：让机器像人一样学习

SPICE 是一个新兴的任务，旨在通过整合多模态输入和先前信息来增强人工智能代理的语境意识。它超越了传统的语义解析，提供了一个结构化、可解释的框架，使代理能够像人类一样，在交流中动态更新知识。

传统语义解析通常只关注单个句子或短语的理解，而 SPICE 则强调在更复杂的情境中，如何通过多轮对话来逐步构建知识。想象一下，你教朋友换机油，或者和牙医一起看 X 光片，我们每天都在进行这种基于对话的知识构建。随着人工智能代理越来越普遍地融入我们的生活，赋予它们这种能力也变得越来越重要。

VG-SPICE：博物馆之旅的“知识图谱”

为了更好地研究 SPICE 任务，我们开发了 VG-SPICE 数据集，它模拟了“导游”带领游客参观博物馆的情境。数据集基于现有的视觉基因组（Visual Genome）数据集，包含了大量图像和相应的场景图，场景图描述了图像中各个物体之间的关系。

在 VG-SPICE 中，导游通过一系列的语音描述来介绍博物馆，每个描述都包含新的信息，并与之前的描述相连。机器需要根据这些描述和图像信息，不断更新关于博物馆的知识图谱，最终构建起一个完整的“心灵地图”。

AViD-SP：多模态信息的“融合大师”

为了处理 VG-SPICE 数据集中的多模态信息，我们开发了 Audio-Vision Dialogue Scene Parser (AViD-SP) 模型。该模型利用了预训练的语言模型（Llama 2）和多模态特征提取器，并引入了分组多模态注意力降采样器 (GMADS)，以更有效地融合音频、视觉和文本信息。

GMADS 的设计理念是，将来自不同模态的特征投影到统一的空间，并通过自注意力机制进行降采样，最终将所有信息整合到语言模型的输入中。这种方法可以有效地减少计算量，同时保留不同模态之间的关联信息。

实验结果：机器也能“见微知著”

实验结果表明，AViD-SP 模型在 VG-SPICE 数据集上取得了不错的效果。模型能够根据语音描述和图像信息，准确地更新知识图谱，并对噪声和错误信息具有一定的鲁棒性。

此外，我们还测试了模型在不同噪声环境下的性能，以及在缺少视觉信息或音频信息时的表现。结果表明，AViD-SP 模型能够有效地利用多模态信息，并对不同的输入组合具有较强的适应性。

未来展望：更自然的“人机对话”

SPICE 任务的提出，标志着人工智能研究朝着更自然、更有效的人机交互方向迈进了一步。未来，我们将继续探索更复杂的多模态信息处理方法，并开发更强大的模型，以实现真正的“人机共融”。

参考文献
- Voas, J., Mooney, R., & Harwath, D. (2024). Multimodal Contextualized Semantic Parsing from Speech. arXiv preprint arXiv:2401.02507.
Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一种名为Semantic Parsing in Contextual Environments (SPICE) 的任务，旨在通过整合多模态输入和先前上下文来增强人工代理的上下文感知能力。SPICE任务超越了传统的语义解析，提供了一个结构化、可解释的框架，用于动态更新代理的知识库，以反映人类沟通的复杂性。具体来说，论文试图解决的问题包括：
1. 多模态信息融合：在真实世界的交互中，语言通常是口头的，并且可能伴随着视觉等其他模态信息。SPICE任务强调在多模态环境中解析语言，以解决仅通过文本无法解决的歧义问题。
2. 动态知识更新：智能代理需要能够在与环境或用户交互的过程中，不断地更新和维护其知识状态，以反映最新的信息和上下文。
3. 结构化知识表示：SPICE要求代理在结构化、密集的信息框架内维护其上下文状态，这有助于用户检查或与下游系统集成。
4. 真实世界应用：SPICE任务设计用于模拟真实世界和具身应用，例如教导移动机器人了解环境或协助医生进行医学图像注释。
5. 提高人机交互的自然性和有效性：通过持续更新上下文状态，SPICE任务旨在推动更自然和有效的人机沟通。
为了解决这些问题，论文开发了VG-SPICE数据集，并提出了Audio-Vision Dialogue Scene Parser (AViD-SP)模型，这些创新旨在提高多模态信息处理和整合的能力。

Q: 有哪些相关研究？

A: 论文中提到了与SPICE任务相关的几个研究领域，包括对话系统、多模态交互、语义解析等，并讨论了这些领域中的一些关键工作。以下是一些主要的相关研究：
1. 对话系统和多模态交互：
  - 传统的对话系统研究主要集中在模仿人类的会话技能，包括引用先前的会话上下文。
  - 最近的进展，特别是通过大型语言模型（LLMs），已经提高了处理复杂、多轮对话的能力。
2. 多模态对话系统：
  - 这些系统开始整合文本、图像和音频输入，更接近SPICE的多模态通信愿景。
  - 然而，这些系统通常不能将积累的知识蒸馏成简洁、易于理解的格式。
3. 对话状态跟踪（DST）：
  - 与SPICE类似，DST中的代理在对话中使用和更新他们的知识库。
  - 大多数DST工作是单模态的，对多模态输入的探索有限。
4. 语义解析：
  - 传统上专注于将自然语言转换为结构化的、符号化的意义表示。
  - 一些研究探索了在对话或上下文输入中的语义解析，但这些研究通常限于数据库应用或静态上下文。
5. 场景图生成（SGG）：
  - 在视觉模态中，场景图生成任务已经得到了扩展，用于自动理解图像内容。
6. 使用语音的语义解析：
  - 尽管已有研究探索了使用语音进行语义解析，但这些努力通常局限于简单的意图和槽位预测任务，并没有结合上下文更新或复杂的语义输出。
7. 知识图谱和知识推理：
  - 与知识图谱相关的研究，包括知识推理和知识表示，这些研究为构建结构化的知识表示提供了基础。
8. 自监督表示学习和对比重建损失：
  - 这些技术用于改善多模态特征的融合和下采样，通过重建损失来优化模型对特征的表示。
这些相关研究为SPICE任务提供了理论和技术基础，但SPICE通过结合所有这些元素，并要求代理持续更新知识图谱并以可解释的格式维护它们，从而在现有研究的基础上迈出了重要的一步。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决提出的问题：
1. 定义SPICE任务：首先，论文定义了Semantic Parsing in Contextual Environments (SPICE)任务，明确了任务的目标和要求。
2. 创建VG-SPICE数据集：为了支持SPICE任务，论文创建了一个大型的机器生成数据集VG-SPICE，该数据集利用Visual Genome数据集构建，模拟了通过视觉场景图和口语对话来逐步构建知识的过程。
3. 开发AViD-SP模型：提出了一个名为Audio-Vision Dialogue Scene Parser (AViD-SP)的基线模型，该模型集成了语言模型与音频/视觉特征提取器，用于处理VG-SPICE数据集。
4. 多模态融合方法：作为AViD-SP的一个组成部分，论文引入了一种新颖的预训练编码器适配和多模态融合方法，称为Grouped Multimodal Attention Down Sampler (GMADS)，以提高多模态信息处理和整合的能力。
5. 实验和评估：通过一系列实验，论文展示了AViD-SP模型处理和解释上下文的能力，这些实验遵循SPICE框架，并提供了模型性能的定量评估。
6. 自监督学习和对比重建损失：在模型训练中，使用了自监督学习目标和对比重建损失来优化多模态特征的融合和下采样。
7. 鲁棒性训练：通过在训练过程中引入随机噪声（使用CHiME5数据集），模型能够学习在不同信噪比(SNR)条件下处理音频输入，从而提高模型的鲁棒性。
8. 评估指标：论文采用了多种评估指标来衡量生成的语义解析与真实上下文的一致性，包括Graph Edit Distance (GED)和Representation Edit Distance (RED)。
9. 未来研究方向：论文最后提出了未来研究的方向，包括探索更现实的输入（如视频、3D环境和副语言线索），以及扩展SPICE任务以包括依赖于代理上下文理解的次要任务。
通过这些步骤，论文不仅提出了一个创新的任务定义，还提供了数据集和模型来推动这一领域的研究，并为未来的工作指明了方向。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估AViD-SP模型的性能，并探索不同输入模态组合的影响。以下是论文中提到的主要实验：
1. 基线模型性能评估：使用VG-SPICE数据集对AViD-SP模型进行了测试，以评估其在标准测试集上的性能。使用了硬（Hard）和软（Soft）两种变体的RED（Representation Edit Distance）指标来衡量模型生成的语义解析与真实上下文的一致性。
2. 信噪比（SNR）测试：为了评估模型对背景噪声的鲁棒性，作者在0、2和20分贝的信噪比条件下测试了模型的性能。
3. 多模态输入测试：通过引入视觉模态输入和音频输入的变体，作者评估了模型在处理不同输入模态时的性能。这包括在没有视觉输入或音频输入的情况下测试模型，以及使用错误匹配的图像输入。
4. 自动语音识别（ASR）性能测试：为了评估ASR准确性对模型性能的影响，作者在评估中使用了准确的ASR转录本，并与模型生成的转录本进行了比较。
5. GMADS模块性能测试：作者对使用GMADS（Grouped Multimodal Attention Down Sampler）模块的AViD-SP模型与使用传统均值池化（meanpooling）方法的模型进行了比较，以评估GMADS在多模态信息融合方面的效果。
6. VG-SPICE-C挑战子集测试：作者创建了一个挑战子集VG-SPICE-C，其中包括手动改进的场景图和多样化的口语输入。在这个子集上进行的测试旨在提供一个更严格的评估框架，以促进模型在处理多样化视觉表示、维护高质量场景图、执行连贯的迭代更新以及管理领域外和真实世界语音场景方面的进步。
7. 端到端序列评估：尽管在论文中没有详细说明，但作者提到了对VG-SPICE-C挑战子集进行单步（Single Step）评估，这可能涉及到在每个交互步骤后评估模型的性能。
这些实验旨在全面评估AViD-SP模型在多模态语义解析任务中的性能，并探索模型在不同条件下的鲁棒性和适应性。通过这些实验，作者能够展示模型的优势和局限性，并为未来的研究方向提供指导。

Q: 有什么可以进一步探索的点？

A: 论文在最后部分提出了一些潜在的研究方向和改进点，以下是可以进一步探索的几个关键领域：
1. 多模态输入的扩展：当前的VG-SPICE数据集和AViD-SP模型主要关注音频和图像模态。未来的研究可以探索包括视频、3D环境和副语言线索等更丰富的多模态输入。
2. 更复杂的语言和知识表示：VG-SPICE数据集使用的基本语言和知识图谱更新可能过于简化。研究可以探索更复杂的语言结构和知识表示方法，以更好地捕捉真实世界的场景和交互。
3. 动态任务和环境：目前的SPICE任务主要集中在静态的场景图构建上。未来的工作可以考虑动态环境和任务，例如在虚拟或增强现实中进行的交互。
4. 多模态适应方法的改进：尽管GMADS模块在理论上具有优势，但在实际应用中并未超越传统的均值池化方法。需要进一步研究和开发更有效的多模态特征融合和适应方法。
5. 端到端的评估：论文中提到了对VG-SPICE-C挑战子集的单步评估，但未进行端到端的序列评估。未来的研究可以在完整的多轮交互中评估模型的性能。
6. 鲁棒性的提高：尽管模型在特定条件下显示出了一定的鲁棒性，但在处理真实世界的复杂性和噪声方面仍有提升空间。研究可以探索提高模型对各种噪声和异常情况的鲁棒性。
7. 上下文理解和推理能力的增强：SPICE任务要求代理能够理解和推理上下文信息。未来的工作可以集中在提高模型在上下文理解和推理方面的能力。
8. 跨领域应用的探索：论文中提到的SPICE任务和模型可以应用于多种领域，如医疗图像注释、机器人教学等。研究可以探索这些跨领域应用的具体实现和优化。
9. 模型效率和可扩展性：随着模型和数据集的复杂性增加，需要考虑模型的效率和可扩展性。研究可以探索如何优化模型以处理更大规模的数据和任务。
10. 用户交互和反馈：为了提高人机交互的自然性和有效性，研究可以探索如何集成用户反馈，使模型能够更好地适应用户的需求和偏好。
这些探索点为SPICE任务和相关模型的发展提供了丰富的研究机会，并有助于推动人机交互技术的进步。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容可以概括为以下几个要点：
1. 任务介绍：提出了Semantic Parsing in Contextual Environments (SPICE)任务，旨在通过整合多模态输入和先前的上下文来增强人工代理的上下文感知能力。
2. VG-SPICE数据集：创建了VG-SPICE数据集，这是一个基于Visual Genome数据集构建的机器生成数据集，用于模拟通过视觉场景图和口语对话来逐步构建知识的过程。
3. AViD-SP模型：开发了Audio-Vision Dialogue Scene Parser (AViD-SP)模型，这是一个基线模型，集成了语言模型与音频/视觉特征提取器，用于处理VG-SPICE数据集。
4. 多模态融合方法：引入了Grouped Multimodal Attention Down Sampler (GMADS)，一种新颖的预训练编码器适配和多模态融合方法，用于改善多模态信息处理和整合。
5. 实验结果：通过一系列实验，展示了AViD-SP模型在处理和解释上下文方面的性能，包括在不同信噪比条件下的鲁棒性测试，以及对不同输入模态组合的评估。
6. 评估指标：使用了Graph Edit Distance (GED)和Representation Edit Distance (RED)等多种评估指标来衡量模型生成的语义解析与真实上下文的一致性。
7. 未来研究方向：论文最后提出了未来研究的方向，包括探索更现实的输入、扩展SPICE任务以包括依赖于代理上下文理解的次要任务，以及提高模型的效率和可扩展性。
8. 局限性：论文也讨论了VG-SPICE和AViD-SP的局限性，包括对合成数据的依赖、Visual Genome数据集的质量问题，以及模型在处理真实世界应用和自然口语方面的挑战。
总的来说，这篇论文通过提出SPICE任务、开发VG-SPICE数据集和AViD-SP模型，为多模态语义解析和上下文感知的人工代理研究提供了新的视角和工具，并为未来的研究指明了方向。
2024 年 6 月 11 日
人工智能的“心智地图”：从语音中构建语义解析
想象一下，你在参观一座艺术博物馆，导游不仅讲解每件艺术品，还会介绍画廊和建筑本身的历史和独特之处。通过这段对话，你就能在脑海中构建出一张博物馆的“心智地图”，其中各个实体及其关系都与博物馆中的真实世界对应。我们每天都在通过对话进行这种迭代式的知识构建，比如教朋友如何换车油，或者和牙医一起查看X光片。随着人工智能代理越来越普遍地融入我们的生活，为它们开发这种能力变得越来越重要。

为了实现这一目标，本文介绍了语义解析在上下文环境中的应用（SPICE），这是一个旨在捕捉通过语义语言进行迭代式知识构建过程的任务。它强调了根据先验知识和新信息持续更新上下文状态的必要性。SPICE要求代理在结构化的、密集的信息框架中维护其上下文状态，该框架可扩展且可解释，便于用户检查或与下游系统组件集成。SPICE通过将更新公式化为形式语义解析来实现这一点，形式语言定义了构建的上下文的允许解空间。

由于SPICE任务旨在模拟现实世界和具身应用，例如教移动机器人了解环境或帮助医生进行医学图像标注，因此SPICE与传统的基于文本的语义解析之间存在关键差异。首先，SPICE考虑在基于语义的、多模态的上下文中解析语言。在这些情况下，语言可能存在歧义，只有通过考虑来自视觉等多模态上下文信息才能解决。

此外，SPICE支持以语音和文本形式出现的语言输入。在现实世界中具身的交互中，语言主要是口语，而不是书面语。虽然现代自动语音识别（ASR）技术非常准确，但它仍然对环境噪声和混响敏感，将输入语言表示为波形和噪声ASR转录可以提高鲁棒性。虽然本文没有考虑这一点，但SPICE框架也支持副语言输入，例如面部表情、眼球注视和手势。

VG-SPICE：一个全新的数据集

本文提出了一种新颖的数据集VG-SPICE，该数据集源于视觉基因组（Visual Genome）数据集（Krishna等人，2016），该数据集包含注释的视觉场景图，表示组成实体和关系介词，并通过额外的处理和合成增强来形成SPICE任务的基础表示。VG-SPICE模拟了视觉场景图的对话式构建，其中图像中包含的实体和关系的知识图表示必须从视觉输入和音频对话中收集。该数据集以及为VG-SPICE训练的初始模型，为未来的研究工作奠定了基线。图1展示了典型的VG-SPICE样本示例。该图展示了如何从视觉场景和语音话语中提取潜在的语义解析，这些解析以已知场景信息为条件。

AViD-SP：一个多模态场景解析模型

为了应对VG-SPICE的挑战，本文的方法利用了一系列预训练模型，特别是针对SPICE的语义解析能力进行了微调。图2展示了本文的模型架构，称为音频-视觉对话场景解析器（AViD-SP）。本文框架的核心是预训练的Llama 2 7B模型（Touvron等人，2023b）。尽管本文部署了其最小的变体，但广泛的预训练赋予了本文模型强大的功能，特别是对于处理VG-SPICE中固有的各种语义解析非常有利。然而，Llama 2是在文本数据上训练的，缺乏对VG-SPICE中常见的多模态输入的固有支持。

为了适应各种输入，本文扩展了先前研究（Rubenstein等人，2023；Gong等人，2023；Lin等人，2023）中的技术，通过将来自预训练的特定于模态的特征提取器的嵌入投影到统一的固定维度空间中。这种方法已被证明能够使基于文本的LLM处理各种模态的信息。然而，将这些投影的嵌入直接集成到LLM的上下文窗口中会带来巨大的计算开销，因为它们的上下文长度通常很长。虽然先前研究通常采用池化方法（Gong等人，2023）通过模态来压缩嵌入，但这种策略无法完全解决合并各种模态嵌入以供LLM使用所带来的挑战。例如，音频嵌入比文本嵌入具有更精细的时间粒度，反之亦然，这使得下采样因子的调整变得复杂。此外，即使经过优化的下采样，池化嵌入也必须保留其原始的顺序，并且仅限于来自池化片段的信息。许多应用可以从能够建立涵盖局部和全局上下文的降采样特征以及在一定程度上重新排列这些特征的功能中受益。

为了克服这些挑战，本文引入了一种新颖的分组多模态注意力降采样器（GMADS）模块。该模块首先将来自非文本模态的嵌入投影到一个统一的固定维度空间中。本文为每个输入模态（音频和视觉，使用VG-SPICE）形成一组模态分组，以及一个从所有模态嵌入的串联派生的跨模态分组，每个分组都以特定于模态的标记为前缀。一系列自注意力层处理每个嵌入序列，并通过平均池化将输出下采样S倍。然后，将这些值与平均池化的预自注意力嵌入沿着嵌入维度连接起来，类似于跳跃连接。最终的投影调整输出以匹配Llama 2 7B解码器的维度，并将所有嵌入序列连接起来。该过程产生一个嵌入输出，该输出实际上被下采样了S/2倍。GMADS模块中的所有权重在所有组之间共享，大大减少了参数数量。此外，本文在降采样跨模态组输出的嵌入上采用了一个自监督表示学习目标，通过将它们上采样到原始大小，然后通过第二组自注意力层处理它们。然后，重建的跨模态嵌入按模态进行分割，每个模态投影都努力将它们恢复到原始输入大小。本文应用了等式1中概述的对比重建损失目标，使用相应的真实嵌入作为锚点，并将批次中的所有其他嵌入作为对比样本。

本文还观察到，当与更简单的文本输入（例如先前的上下文或ASR转录）组合时，非文本模态输入往往会崩溃。为了解决这个问题，本文包括了一个额外的正交性损失，旨在鼓励批次中每个序列中对齐的嵌入之间的最大差异。这种方法类似于先前促进不同类嵌入的努力（Ranasinghe等人，2021），但在本文的情况下，本文将每个嵌入视为一个不同的类样本。然而，考虑到这些嵌入序列的性质，一定程度的相似性是预期的，完全不同的值（余弦相似度小于零）是不可行的。因此，本文修改了等式2，包括一个允许最小相似度的轻微裕度。下面，ei表示批次中B个序列中的单个GMADS输出嵌入（预输出投影），每个序列的长度为K。

GMADS模块试图提供几个比直接使用原始模态嵌入与LLM解码器或平均池化更显著的优势。首先，与预训练的LLM相比，GMADS在更低的维度尺度上运行，这显着降低了内存需求，需要更大的解码器处理更短的（减少到原始大小的2/S）输入序列。此外，模态输入不需要与这些输入一起进行自回归生成，从而进一步节省了成本。其次，GMADS使模型能够选择性地学习其下采样过程，包括是否专注于局部或集成全局特征的选择，允许一定程度的信息重构。跨模态编码的加入使降采样嵌入的一部分能够捕获跨模态的基本信息，同时在输出中保持各个模态组件，确保输出嵌入的一部分以每个模态为条件，要求注意力机制对所有模态保持敏感。

未来展望

本文的研究表明，开发能够理解和在复杂的多模态环境中交互的系统非常重要。通过关注基于新的多模态信息持续更新上下文状态，SPICE代表着向更自然、更有效的人机交互的转变。

然而，VG-SPICE和AViD-SP仍然存在一些局限性，它们只是对SPICE的初步尝试。未来研究应该通过整合更现实的输入（如视频、3D环境和副语言线索）以及探索超越简单场景图更新的动态任务来解决这些局限性。Matterport3D（Chang等人，2017）或Habitat 3.0（Puig等人，2023）等环境为具身SPICE研究提供了有希望的途径。将SPICE扩展到包括依赖于代理上下文理解的次要任务，也可以增强其效用，例如在协同对话中帮助进行医学图像标注。

参考文献
- Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L. J., Shamma, D. A., et al. (2016). Visual genome: Connecting language and vision using crowdsourced dense annotations. International Journal of Computer Vision, 119(1-2), 1-35.
- Touvron, H., Lachaux, M., Lavril, T., Izacard, G., Hoffmann, M., Anthouard, V., et al. (2023a). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
- Touvron, H., Lachaux, M., Lavril, T., Izacard, G., Hoffmann, M., Anthouard, V., et al. (2023b). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
- Betker, A. (2022). Tortoise-tts-v2: A text-to-speech model based on diffusion. arXiv preprint arXiv:2205.15259.
- Barker, J., Vincent, E., Watanabe, S., Fujita, Y., Weninger, F., and others. (2018). The chime-5 challenge: Towards robust speech recognition in real-world environments. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5724-5728. IEEE.
- Rubenstein, M., Li, Y., and Choi, Y. (2023). Multimodal prompting for instruction following in large language models. arXiv preprint arXiv:2303.08048.
- Gong, M., Zhang, Y., Li, S., Li, J., and Li, H. (2023). Multimodal prompting for vision-language tasks with large language models. arXiv preprint arXiv:2304.02997.
- Lin, Y., Zhang, X., Wang, J., Zhang, Z., Zhou, B., and others. (2023). Multimodal prompting for vision-language tasks with large language models. arXiv preprint arXiv:2304.02997.
- Oquab, M., Ramisa, A., Toderici, G., Hjelm, R. D., and others. (2024). Dinov2: Improved vision transformers with self-supervision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16387-16398.
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., et al. (2022). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 19024-19045. PMLR.
- Arora, S., Singh, S., and others. (2023). Towards robust semantic parsing from speech. arXiv preprint arXiv:2304.02256.
- Ranasinghe, D., Chen, X., and others. (2021). Orthogonal contrastive learning for visual representation learning. arXiv preprint arXiv:2107.00311.
- Chang, A. X., Dai, A., and others. (2017). Matterport3d: Learning from rgb-d data in indoor environments. In Proceedings of the IEEE International Conference on Computer Vision, pages 2929-2938.
- Puig, D., Savva, M., and others. (2023). Habitat 3.0: Embodied ai research platform for large-scale 3d environments. arXiv preprint arXiv:2304.00566.
2024 年 6 月 11 日

博客

AI 聊天中的“心灵地图”：让机器理解你的世界

SPICE：让机器像人一样学习

VG-SPICE：博物馆之旅的“知识图谱”

AViD-SP：多模态信息的“融合大师”

实验结果：机器也能“见微知著”

未来展望：更自然的“人机对话”

人工智能的“心智地图”：从语音中构建语义解析

VG-SPICE：一个全新的数据集

AViD-SP：一个多模态场景解析模型

未来展望

参考文献