Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for V-I Re-ID:如何有效利用生成嵌入？

文章目录

题目：Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification （多种嵌入扩展网络和低光交叉模态的可见-红外行人重识别）

期刊合集：最近五年，包含顶刊，顶会，学报>>网址
文章来源：CVPR 2023
官方代码：GitHub

研究背景

VIS 和 IR 图像之间存在额外的跨模态差异是跨模态行人重识别的巨大挑战。作者系统分析了以往研究，并总结相关的研究方法：第一，特征级方法，思路：将 VIS 和 IR 特征投影到一个共同的嵌入空间中，最小化模态差异。出现的问题：由于模态差异较大，难以将跨模态图像直接投影到公共特征空间中。第二，图像级方法，思路：通过使用Gans网络生成相反图像来减少模态差异。出现的问题：缺乏 VIS-IR 图像对，生成的跨模态图像通常伴随着一些噪声。

论文分析

在这里插入图片描述

网络框架

在这里插入图片描述
多样性嵌入的网络模型（DEMN），使用双流的 ResNet-50 网络，将 VIS-IR 特征输入到所提出的多元嵌入扩展(DEE)模块中，以生成更多嵌入，之后，使用了中心引导对挖掘(CPM)损失，使生成的嵌入尽可能多样化，以学习信息特征表示。

1、Diverse Embedding Expansion Module（多种嵌入扩展模块）

提出的DEE模块采用多分支卷积生成结构，生成更多的嵌入，以缓解训练数据不足的问题。
在这里插入图片描述
具体步骤：
如上图所示，对于DEE的每个分支，使用三个3×3的扩展卷积层，它们具有不同的扩展比(从上往下依次是1,2,3)，将特征映射的数量f减少到其自身大小的1/4，将得到的一个个小特征图组合成新的大特征图 F，再通过ReLU层来提高DEE的非线性表示能力。最后馈送到卷积层θ1×1（核大小为1×1），得到与 f 相同维度的嵌入特征，嵌入函数如下：
在这里插入图片描述
将所有生成的嵌入连接在一起，作为骨干网下一阶段的输入。

2、Center-Guided Pair Mining Loss（中心引导对挖掘损失）

作者认为，经过上面的操作，DEE模块只能使用多分支卷积块生成更多嵌入（只是有了更多的嵌入，但嵌入的内容或者是类型还没做要求），不能有效地获得多样化的嵌入。因此，需要利用以下三个属性来约束生成的嵌入尽可能多样化，以有效减少VIS和IR图像之间的模态差异： 一句话，既然都做了，那就得做好一点才行。

属性1：生成的嵌入应该尽可能多样化，以有效地学习信息特征表示。 推开同一模态生成的嵌入与原始嵌入之间的距离（模态都会成生成嵌入），以学习不同的特征并挖掘不同的跨模态线索。（同一模态学够了，再学也没用，已经提不高了，再找找其他模态的东西学习。）
属性2：生成的嵌入应该有助于减少VIS和IR图像之间的模态差异。 拉近由VIS模态生成的嵌入与原始IR嵌入之间的距离。同样的，拉近由IR模态生成的嵌入与原始VIS嵌入之间的距离。（你找我来，我找你，大家相互学，共同进步。）
属性3：类内距离应小于类间距离。 利用属性 2，会将生成的嵌入与原始嵌入之间的距离推近（不是我们所希望的），这可能导致不同类别的嵌入变得更近。因此，拉近距离的过程中，要保持类内距离小于类间距离。（把握好尺度关系，学了其他的东西，但是不能忘本，还是要精通自己的东西。）

这个过程就可以通过损失函数实现，结构和定义如下（图文并茂，很好理解）：
在这里插入图片描述

上述式子中的D(·，·)为两个嵌入之间的欧几里得距离，fv和fn是来自VIS和IR模态的原始嵌入，f ⁱ _v+是来自 VIS 模态的第 i 个分支生成的嵌入。
3个属性分别在公式中有所体现，这个就是为了将生成的嵌入（逗号后）拉向原始IR的嵌入（逗号前），以减小两者(括号里面的东西)之间的模态差异（属性1）。在这里插入图片描述将生成的嵌入（逗号后）推离VIS的嵌入（逗号前），使f_v+能够学习信息特征表示（属性2）。使类内距离小于类间距离（属性3）。
每个类使用c_n和c_v表示中心点的表示，让对应生成的嵌入中心更有判别性，同时使用了一个边际项α来平衡前面的三项，改造如下所示：

在这里插入图片描述

相似的，对于由 IR 生成的嵌入的类中心损失：

在这里插入图片描述
因此，最终 CPM 损失可表示为：

作者还做了一个工作：为了保证不同分支生成的嵌入能够捕获不同的信息特征表示，强制不同分支生成的不同嵌入正交，以最小化重叠元素（在生成嵌入后，做一次嵌入正交，以保证后续操作的有效性）。正交损耗表示为：
在这里插入图片描述
其中 m 和 n 分别是由原始嵌入生成的第 m 个和第 n 个嵌入。正交损失可以强制生成的嵌入学习更多信息的特征表示。

3、Multistage Feature Aggregation Block（多级特征聚合块）

不同层次的特征聚合已被证明有助于语义分割、分类和检测任务。为了聚合来自不同阶段的特征以挖掘不同的通道和空间特征表示，结合了一个有效的通道-空间多阶段特征聚合(MFA)块来聚合多阶段特征。（这里主要考虑主干网各阶段通道空间聚合块的两类源特征：阶段前的低级特征图和阶段后的高级特征图，聚合就是自注意力机制的使用）
在这里插入图片描述
首先，使用三个1×1卷积层ψ 1q， ψ 1v， ψ 1k将 f 转换为三个紧凑嵌入:ψ 1q (fh)， ψ 1v (fl)和ψ 1k (fl)。
1、通道聚合
通道的相似度矩阵Mc∈R C ’ ×C '计算如下（c 代表了是channel，借鉴自注意力机制）：

通过ψ1v (fl)和M^c的矩阵乘法来恢复通道维度，从而实现了通道的多级特征聚合。
在这里插入图片描述
2、空间聚合
然后，利用上述运算得到的 f ^c_h 和底层特征图 f _l 进行空间特征聚合操作，类似于通道多阶段特征聚合操作。

其中 ω ^s和ψ ² _v是两个1 × 1卷积层，M ^s是空间相似矩阵。

4、Multi-Loss Optimization（多重损失优化）

除了提出 L _cpm和L _ort外，文章还结合交叉熵损失L _ce和三重熵损失L _tri，通过最小化这四种损失L _total的总和，以端到端方式共同优化网络，总损失如下：
在这里插入图片描述

实验

实验细节：首先在训练阶段采用随机水平翻转和随机擦除操作，将所有输入图像的大小调整为3 × 384 × 144，初始学习率设置为1 × 10−2，通过预热策略（warm-up），10次后学习率增加到1 × 10−1。之后，在20 epoch将学习率衰减到1 × 10−2，在60 epoch和120 epoch分别进一步衰减到1 × 10−3和1 × 10−4，直到总共150 epoch。在每个小批中，随机选择6个身份的4张VIS图像和4张IR图像进行训练。训练采用SGD优化器，动量设置为0.9。特别地，对于RegDB数据集，删除了阶段4，并在阶段2之后将提出的DEE模块插入到DEEN中。

实验结果：
在这里插入图片描述

在这里插入图片描述
消融实验：总体的设置没做更改，只是删除了特定的模块。

超参数 λ1，λ2，α 设置。

可视化：
在这里插入图片描述