All in One Framework for Multimodal Re-identification in the Wild

研究背景

近年来，随着计算机视觉和人工智能技术的快速发展，跨模态和多模态重识别（ReID）任务取得了显著进展。然而，现有的方法大多局限于处理特定配对的模态，如RGB图像与红外（IR）图像、草图或文本之间的重识别，无法有效处理现实世界中不确定的模态输入。此外，大型预训练基础模型（foundation models）在多种视觉任务中表现出色，但在ReID任务中的应用仍处于起步阶段，尤其是其零样本学习能力尚未得到充分利用。

研究意义

本研究旨在解决跨模态和多模态ReID任务中的两个关键问题：1）如何提高模型的模态泛化能力，使其能够处理未见过的模态输入；2）如何有效利用大型预训练基础模型，提升ReID任务的零样本性能。通过提出一个名为“All-in-One”（AIO）的框架，本研究旨在实现一个能够同时处理RGB、IR、草图和文本四种常见模态的ReID系统，为复杂场景下的ReID任务提供新的解决方案。

文献综述

跨模态ReID

跨模态ReID考虑了在目标RGB图像不可用的情况下，利用非RGB模态（如IR、草图或文本描述）进行目标检索。现有方法大多局限于处理特定配对的模态，无法有效应对现实世界中不确定的模态输入。

多模态学习

多模态学习方法旨在利用不同模态的互补性来学习任务语义。近年来，多模态Transformer模型作为统一模型出现，通过令牌连接融合不同模态的输入。然而，大多数多模态学习方法假设训练或推理时模态的完整性，这在现实世界中并不总是成立。

基础模型

基础模型通过在大规模数据上进行预训练，能够适应各种下游任务。近年来，大型预训练基础模型在零样本性能方面表现出色，如CLIP和CoCa等模型。然而，在ReID任务中，现有大型预训练模型的零样本性能仍不理想。

具体方法

AIO框架概述

AIO框架主要由三个部分组成：1）一个多模态令牌化器，用于将不同模态的数据投影到统一嵌入空间；2）一个冻结的多模态编码器，用于提取跨模态的互补特征表示；3）多个跨模态头，用于学习跨模态关系。

多模态令牌化器

为了将不同模态的数据投影到统一空间，AIO设计了一个多模态令牌化器，包括针对RGB、IR、草图和文本模态的专用投影器。通过将这些模态的嵌入连接起来，并附加一个可学习的令牌和位置嵌入，生成多模态嵌入。

缺失模态合成

为了解决ReID中多模态数据不足的问题，特别是IR和草图模态的缺失，AIO引入了通道增强（CA）和Lineart作为增强方法，合成缺失的模态。通过合成数据，不仅扩大了多模态样本的规模，还有助于缓解模态间的差距。

多模态建模和绑定

通过冻结的多模态编码器提取的特征被送入多个跨模态头，包括常规分类头、视觉引导的掩码属性建模头和多模态特征绑定头。这些头分别用于学习身份不变表示、细粒度的RGB-文本关系和对齐不同模态的特征表示。

图1: 现有方法与AIO框架对比

图1(a): 展示了现有ReID方法的局限性。这些方法通常独立学习跨模态ReID模型，无法处理现实世界中不确定的输入模态。
图1(b): 提出了AIO框架，能够高效地处理多种模态的组合输入，解决了实际部署场景中固有的不确定性问题。

表1：AIO与现有方法在跨模态/多模态检索上的比较

内容概述：表1比较了AIO框架与现有方法在跨模态/多模态检索任务上的能力。特别指出了每个方法在训练和推理时支持的模态数量。
关键信息：AIO：支持RGB、IR、Sketch、Text四种模态，在训练和推理时都能处理这些模态的组合，体现了其多模态处理能力。其他方法：如NFormer、DC-Former、AGW等，大多仅限于处理两种或三种模态，且通常在训练和推理时仅支持特定的模态配对，缺乏处理不确定模态输入的能力。

图2: AIO框架示意图

图2: 展示了AIO框架的主要组成部分，包括多模态Tokenizer、冻结的多模态编码器、以及多个跨模态头（分类头、视觉引导的掩码属性建模头、多模态特征绑定头）。

公式1定义了共享参数空间θA，它是RGB（R）、红外（I）、草图（S）和文本（T）各模态参数空间的交集，且不为空。这表示存在一个共享的参数空间，可以提取各模态间的共享特征表示。

公式2描述了如何通过跨模态头Υ_{head}和模态特征z_{mod}来优化共享参数空间θA。这里，x是从任意模态X_{mod}中的输入，z_{mod}是经过冻结多模态编码器f处理后的特征，Υ_{head}oz_{mod}表示通过跨模态头对特征进行进一步处理。目标是找到最小化该处理结果的θA。

表2：不同模态的符号表示

内容概述：表2定义了AIO框架中使用的不同模态的符号表示，包括原始模态和合成模态。
关键信息：原始模态：RGB(R)、IR(I)、Sketch(S)、Text(T)。合成模态：通过CA和Lineart方法合成的IR和Sketch图像，分别用X_I和X_S表示。掩码文本：用于Vision Guided Masked Attribute Modeling头的掩码文本，用X_M表示。

图3: 合成图像及特征分布

图3(a)-(c): 展示了通过CA2]和Lineart53]方法合成的红外和草图图像。
图3(d): 使用t-SNE可视化了RGB、真实红外、真实草图以及合成图像的特征分布，证明了合成图像在特征空间上与真实图像的对齐性。

公式3定义了多模态嵌入E_A的构造方式。它通过将学习到的多模态令牌z_A、来自RGB、红外、草图和文本模态的嵌入E_R, E_I, E_S, E_T，以及位置嵌入E_{P_{os}}进行拼接和元素级相加来得到。这里，E是多模态嵌入的维度，E_{P_{os}}是位置嵌入的维度。

表3：实验中使用的数据集统计

内容概述：表3列出了用于训练和测试的数据集的统计信息，包括不同模态的图像和文本数量。
关键信息：训练集：SYNTH-PEDES（R-T对）、LLCM（R-I图像）、MaSk1K（R-S图像）。测试集：Market1501（R→R任务）、SYSU-MM01（I→R任务）、PKU-Sketch（S→R任务）、CUHK-PEDES（T→R任务）、Tri-CUHK-PEDES（T+S→R任务）。

公式4是分类头的损失函数L_{CE}，采用交叉熵损失。其中，N是行人ID的数量，y是真实标签，Υ_{CE}是分类头，z_{mod}是来自任意模态的特征。该损失函数用于优化分类头，使其能够学习身份不变的特征表示。

公式5是视觉引导的掩码属性建模头的损失函数L_{VA}。其中，N_{A}是属性类的数量，M是被掩码的令牌数量，y是真实标签，Υ_{VA}是建模头，z_R是来自RGB图像的特征，z_m是被掩码令牌的特征。该损失函数通过掩码属性关键词来优化建模头，使其能够学习细粒度的RGB-文本关系。

公式6定义了多模态特征绑定损失L_{FB}。该损失函数旨在将所有模态的特征对齐到RGB模态的特征上。分子部分计算的是当前个体i的RGB特征z_{R_i}与其他模态特征z_{mod_i}（mod表示除RGB外的其他模态）之间的余弦相似度之和，并乘以一个指示函数\mathbf{1}{mod=R}，确保只有RGB模态参与分母的计算。分母部分计算的是当前个体i的RGB特征与其他不同个体j的RGB特征z{R_j}之间的余弦相似度之和。τ是温度参数，用于控制softmax分布的平滑度。

公式7定义了整个AIO框架的损失函数L，它是分类头损失L_{CE}、视觉引导的掩码属性建模头损失L_{VA}和多模态特征绑定损失L_{FB}的加权和。α是一个固定权重，用于控制视觉引导的掩码属性建模头的重要性。

表4：每个交叉模态头的有效性

内容概述：表4展示了在零样本设置下，添加不同交叉模态头对AIO框架性能的影响。
关键信息：基础模型：仅使用常规分类头时的性能。添加VA头：在T→R任务上性能显著提升，表明Vision Guided Masked Attribute Modeling头对文本到图像的跨模态检索特别有效。添加CE头：对R→R任务性能提升显著，因为常规分类头是身份不变特征学习的基础。添加FB头：改善了所有跨模态和多模态任务的性能，通过将不同模态的特征绑定到一起，增强了模态间的一致性。

表5：使用不同基础模型的AIO零样本性能

内容概述：表5比较了使用不同预训练基础模型时，AIO框架在零样本跨模态检索任务上的性能。
关键信息：ViT*：使用原始ViT模型的tokenizer替换为AIO的tokenizer后的性能。Uni*：使用Uni-Perceiver v2模型作为基础编码器。CLIP*：使用CLIP模型的图像编码器作为基础编码器。LAION：使用在LAION-2B数据集上预训练的ViT模型作为基础编码器，也是AIO框架中使用的模型，表现出最佳性能。

这些表格提供了对AIO框架及其在不同设置下性能表现的深入理解，展示了其在处理多模态和跨模态检索任务上的优势和灵活性。

表6：Zero-shot performance with multimodal input on Tri-CUHK-PEDES

目的：评估AIO框架在多种模态输入组合下的零样本性能。
实验设置：使用Tri-CUHK-PEDES数据集，其中IR图像通过CA方法合成。
结果解读：当输入模态为RGB+Text（R+T）时，Rank-1准确率为56.5%，显示出RGB和文本模态结合的有效性。随着输入模态的增加（如R+I, I+T, I+S等），性能有所提升，但提升幅度不大。当所有四种模态（R+I+S+T）作为输入时，Rank-1准确率达到58.6%，表明AIO框架能够有效处理多种模态的输入。

表7：Zero-shot performance on cross-modal retrieval

目的：比较AIO框架与其他方法在跨模态检索任务上的零样本性能。
实验设置：涉及多种跨模态检索任务，如R→R（RGB到RGB）、I→R（IR到RGB）等。
结果解读：AIO框架在多数任务上表现出色，尤其是当目标模态为RGB时（如R→R任务，Rank-1准确率为79.6%）。相比其他方法，AIO在跨模态检索任务上展现出更强的泛化能力，能够处理未见过的模态组合。

表8：Zero-shot performance with multimodal input and generalized cross-modal on PKU-Sketch

目的：评估AIO框架在PKU-Sketch数据集上的零样本性能，特别是多模态输入和广义跨模态检索任务。
实验设置：涉及T→R（文本到RGB）、S→R（草图到RGB）以及多模态输入任务。
结果解读：AIO框架在T→R和S→R任务上表现出色，Rank-1准确率分别为78.2%和69.8%。当使用多模态输入时（如R+S+T、R+I+S+T），性能进一步提升，Rank-1准确率分别达到93.6%和93.8%，表明多模态输入有助于提升检索性能。

莫方教程网

专业程序员编程教程与实战案例分享

cvpr 2024|一种用于多模态重识别的全能框架