莫方教程网

专业程序员编程教程与实战案例分享

cvpr 2024|一种用于多模态重识别的全能框架


All in One Framework for Multimodal Re-identification in the Wild

研究背景

近年来,随着计算机视觉和人工智能技术的快速发展,跨模态和多模态重识别(ReID)任务取得了显著进展。然而,现有的方法大多局限于处理特定配对的模态,如RGB图像与红外(IR)图像、草图或文本之间的重识别,无法有效处理现实世界中不确定的模态输入。此外,大型预训练基础模型(foundation models)在多种视觉任务中表现出色,但在ReID任务中的应用仍处于起步阶段,尤其是其零样本学习能力尚未得到充分利用。

研究意义

本研究旨在解决跨模态和多模态ReID任务中的两个关键问题:1)如何提高模型的模态泛化能力,使其能够处理未见过的模态输入;2)如何有效利用大型预训练基础模型,提升ReID任务的零样本性能。通过提出一个名为“All-in-One”(AIO)的框架,本研究旨在实现一个能够同时处理RGB、IR、草图和文本四种常见模态的ReID系统,为复杂场景下的ReID任务提供新的解决方案。

文献综述

跨模态ReID

跨模态ReID考虑了在目标RGB图像不可用的情况下,利用非RGB模态(如IR、草图或文本描述)进行目标检索。现有方法大多局限于处理特定配对的模态,无法有效应对现实世界中不确定的模态输入。

多模态学习

多模态学习方法旨在利用不同模态的互补性来学习任务语义。近年来,多模态Transformer模型作为统一模型出现,通过令牌连接融合不同模态的输入。然而,大多数多模态学习方法假设训练或推理时模态的完整性,这在现实世界中并不总是成立。

基础模型

基础模型通过在大规模数据上进行预训练,能够适应各种下游任务。近年来,大型预训练基础模型在零样本性能方面表现出色,如CLIP和CoCa等模型。然而,在ReID任务中,现有大型预训练模型的零样本性能仍不理想。

具体方法

AIO框架概述

AIO框架主要由三个部分组成:1)一个多模态令牌化器,用于将不同模态的数据投影到统一嵌入空间;2)一个冻结的多模态编码器,用于提取跨模态的互补特征表示;3)多个跨模态头,用于学习跨模态关系。

多模态令牌化器

为了将不同模态的数据投影到统一空间,AIO设计了一个多模态令牌化器,包括针对RGB、IR、草图和文本模态的专用投影器。通过将这些模态的嵌入连接起来,并附加一个可学习的令牌和位置嵌入,生成多模态嵌入。

缺失模态合成

为了解决ReID中多模态数据不足的问题,特别是IR和草图模态的缺失,AIO引入了通道增强(CA)和Lineart作为增强方法,合成缺失的模态。通过合成数据,不仅扩大了多模态样本的规模,还有助于缓解模态间的差距。

多模态建模和绑定

通过冻结的多模态编码器提取的特征被送入多个跨模态头,包括常规分类头、视觉引导的掩码属性建模头和多模态特征绑定头。这些头分别用于学习身份不变表示、细粒度的RGB-文本关系和对齐不同模态的特征表示。


图1: 现有方法与AIO框架对比

  • 图1(a): 展示了现有ReID方法的局限性。这些方法通常独立学习跨模态ReID模型,无法处理现实世界中不确定的输入模态。
  • 图1(b): 提出了AIO框架,能够高效地处理多种模态的组合输入,解决了实际部署场景中固有的不确定性问题。

表1:AIO与现有方法在跨模态/多模态检索上的比较

  • 内容概述:表1比较了AIO框架与现有方法在跨模态/多模态检索任务上的能力。特别指出了每个方法在训练和推理时支持的模态数量。
  • 关键信息AIO:支持RGB、IR、Sketch、Text四种模态,在训练和推理时都能处理这些模态的组合,体现了其多模态处理能力。其他方法:如NFormer、DC-Former、AGW等,大多仅限于处理两种或三种模态,且通常在训练和推理时仅支持特定的模态配对,缺乏处理不确定模态输入的能力。



图2: AIO框架示意图

  • 图2: 展示了AIO框架的主要组成部分,包括多模态Tokenizer、冻结的多模态编码器、以及多个跨模态头(分类头、视觉引导的掩码属性建模头、多模态特征绑定头)。

公式1定义了共享参数空间θA,它是RGB(R)、红外(I)、草图(S)和文本(T)各模态参数空间的交集,且不为空。这表示存在一个共享的参数空间,可以提取各模态间的共享特征表示。

公式2描述了如何通过跨模态头Υ_{head}和模态特征z_{mod}来优化共享参数空间θA。这里,x是从任意模态X_{mod}中的输入,z_{mod}是经过冻结多模态编码器f处理后的特征,Υ_{head}oz_{mod}表示通过跨模态头对特征进行进一步处理。目标是找到最小化该处理结果的θA。

表2:不同模态的符号表示

  • 内容概述:表2定义了AIO框架中使用的不同模态的符号表示,包括原始模态和合成模态。
  • 关键信息原始模态:RGB(R)、IR(I)、Sketch(S)、Text(T)。合成模态:通过CA和Lineart方法合成的IR和Sketch图像,分别用X_I和X_S表示。掩码文本:用于Vision Guided Masked Attribute Modeling头的掩码文本,用X_M表示。

图3: 合成图像及特征分布

  • 图3(a)-(c): 展示了通过CA2]和Lineart53]方法合成的红外和草图图像。
  • 图3(d): 使用t-SNE可视化了RGB、真实红外、真实草图以及合成图像的特征分布,证明了合成图像在特征空间上与真实图像的对齐性。

公式3定义了多模态嵌入E_A的构造方式。它通过将学习到的多模态令牌z_A、来自RGB、红外、草图和文本模态的嵌入E_R, E_I, E_S, E_T,以及位置嵌入E_{P_{os}}进行拼接和元素级相加来得到。这里,E是多模态嵌入的维度,E_{P_{os}}是位置嵌入的维度。

表3:实验中使用的数据集统计

  • 内容概述:表3列出了用于训练和测试的数据集的统计信息,包括不同模态的图像和文本数量。
  • 关键信息训练集:SYNTH-PEDES(R-T对)、LLCM(R-I图像)、MaSk1K(R-S图像)。测试集:Market1501(R→R任务)、SYSU-MM01(I→R任务)、PKU-Sketch(S→R任务)、CUHK-PEDES(T→R任务)、Tri-CUHK-PEDES(T+S→R任务)。

公式4是分类头的损失函数L_{CE},采用交叉熵损失。其中,N是行人ID的数量,y是真实标签,Υ_{CE}是分类头,z_{mod}是来自任意模态的特征。该损失函数用于优化分类头,使其能够学习身份不变的特征表示。

公式5是视觉引导的掩码属性建模头的损失函数L_{VA}。其中,N_{A}是属性类的数量,M是被掩码的令牌数量,y是真实标签,Υ_{VA}是建模头,z_R是来自RGB图像的特征,z_m是被掩码令牌的特征。该损失函数通过掩码属性关键词来优化建模头,使其能够学习细粒度的RGB-文本关系。

公式6定义了多模态特征绑定损失L_{FB}。该损失函数旨在将所有模态的特征对齐到RGB模态的特征上。分子部分计算的是当前个体i的RGB特征z_{R_i}与其他模态特征z_{mod_i}(mod表示除RGB外的其他模态)之间的余弦相似度之和,并乘以一个指示函数\mathbf{1}{mod=R},确保只有RGB模态参与分母的计算。分母部分计算的是当前个体i的RGB特征与其他不同个体j的RGB特征z{R_j}之间的余弦相似度之和。τ是温度参数,用于控制softmax分布的平滑度。

公式7定义了整个AIO框架的损失函数L,它是分类头损失L_{CE}、视觉引导的掩码属性建模头损失L_{VA}和多模态特征绑定损失L_{FB}的加权和。α是一个固定权重,用于控制视觉引导的掩码属性建模头的重要性。

表4:每个交叉模态头的有效性

  • 内容概述:表4展示了在零样本设置下,添加不同交叉模态头对AIO框架性能的影响。
  • 关键信息基础模型:仅使用常规分类头时的性能。添加VA头:在T→R任务上性能显著提升,表明Vision Guided Masked Attribute Modeling头对文本到图像的跨模态检索特别有效。添加CE头:对R→R任务性能提升显著,因为常规分类头是身份不变特征学习的基础。添加FB头:改善了所有跨模态和多模态任务的性能,通过将不同模态的特征绑定到一起,增强了模态间的一致性。

表5:使用不同基础模型的AIO零样本性能

  • 内容概述:表5比较了使用不同预训练基础模型时,AIO框架在零样本跨模态检索任务上的性能。
  • 关键信息ViT*:使用原始ViT模型的tokenizer替换为AIO的tokenizer后的性能。Uni*:使用Uni-Perceiver v2模型作为基础编码器。CLIP*:使用CLIP模型的图像编码器作为基础编码器。LAION:使用在LAION-2B数据集上预训练的ViT模型作为基础编码器,也是AIO框架中使用的模型,表现出最佳性能。

这些表格提供了对AIO框架及其在不同设置下性能表现的深入理解,展示了其在处理多模态和跨模态检索任务上的优势和灵活性。

表6:Zero-shot performance with multimodal input on Tri-CUHK-PEDES

  • 目的:评估AIO框架在多种模态输入组合下的零样本性能。
  • 实验设置:使用Tri-CUHK-PEDES数据集,其中IR图像通过CA方法合成。
  • 结果解读:当输入模态为RGB+Text(R+T)时,Rank-1准确率为56.5%,显示出RGB和文本模态结合的有效性。随着输入模态的增加(如R+I, I+T, I+S等),性能有所提升,但提升幅度不大。当所有四种模态(R+I+S+T)作为输入时,Rank-1准确率达到58.6%,表明AIO框架能够有效处理多种模态的输入。

表7:Zero-shot performance on cross-modal retrieval

  • 目的:比较AIO框架与其他方法在跨模态检索任务上的零样本性能。
  • 实验设置:涉及多种跨模态检索任务,如R→R(RGB到RGB)、I→R(IR到RGB)等。
  • 结果解读:AIO框架在多数任务上表现出色,尤其是当目标模态为RGB时(如R→R任务,Rank-1准确率为79.6%)。相比其他方法,AIO在跨模态检索任务上展现出更强的泛化能力,能够处理未见过的模态组合。

表8:Zero-shot performance with multimodal input and generalized cross-modal on PKU-Sketch

  • 目的:评估AIO框架在PKU-Sketch数据集上的零样本性能,特别是多模态输入和广义跨模态检索任务。
  • 实验设置:涉及T→R(文本到RGB)、S→R(草图到RGB)以及多模态输入任务。
  • 结果解读:AIO框架在T→R和S→R任务上表现出色,Rank-1准确率分别为78.2%和69.8%。当使用多模态输入时(如R+S+T、R+I+S+T),性能进一步提升,Rank-1准确率分别达到93.6%和93.8%,表明多模态输入有助于提升检索性能。
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言

    滇ICP备2024046894号-1