大多数现有的双模态（RGB-D 和 RGB-T）显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中，我们从全局信息对齐和转换的角度重新思考这些任务。具体来说，所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外，考虑到输入令牌数量的二次复杂度w.r.t，我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明，当配备所提出的组件时，这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点：

我们引入了transformer从序列到序列的角度重新思考双模态SOD建模，从而获得更好的可解释性。
我们构建了一个自顶向下的基于transformer的信息传播路径，通过视图混合注意块增强，可以对齐RGB和深度/热模态的特征，充分利用空间和通道视图之间的模态间和模态内信息。
我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作，提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下，可以进一步增强特征的局部性，并且可以充分感知和探索全局和局部上下文中的关键线索。
大量的实验表明，该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法：

3.1 网络的总体框架图：

3.2 Transformer-based Information Propagation Path (TIPP)

基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播，前三个CMUI模块（即CMUI1、CMUI2、CMUI3）都是有三个输入（RGB流、depth/thermal流，来自下一个CMUI的输出 ${f_{rgb-d/t}^{i+1}}$ ），但是最后一个CMUI4模块只有两个输入（即RGB流、depth/thermal流）

IMSA和CSSA两者的结构式相同的，但相较于自注意机制而言两者在FFN（前馈神经网络）和MHSA（多头注意力机制）两部分做出了改进。如下图所示：

其中如上两部分改进的原因：

Q1: MHSA计算复杂度较高

MHSA单头的计算公式：

Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ] $W^{^{o}}$ ， $W^{^{o}}$ 是一个输出投影层。

注意矩阵 $Q_{h}K_{h}^{T}$ 的点积运算具有输入序列长度的二次复杂度w.r.t，即N^2，这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

与MHSA相比，PTRE被应用于将矩阵运算从像素形式提高到逐块形式，从而将复杂度降低了p^2倍。这里，p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式，部分和总体图如下面两图：

Q2:目前的MHSA只考虑空间视图上的特征对齐，而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

具体做法如下，值得注意的是，计算空间和通道的Z值时，计算方式不一样。

$\Rightarrow$

交叉注意机制和自注意机制两者之间的区别就是，自注意机制的Q、K、V是同源的，即来自同一个X，而交叉注意机制的Q、K、V是不同源的，如在IMCA中Q来自rgb流，但是K和V来自d/t流。

d/t流与上述公式类似

4、实验：

二、代码复现

1、实验细节：

在AutoDL平台上租的服务器，服务器型号为：RTX A4000(16GB)，同时使用的相关配置为：PyTorch 1.11.0 Python 3.8(ubuntu20.04) Cuda 11.3

2、数据集：

并未采用论文里的数据集，而是采用rsdds_1500数据集和rsdds_113数据集

3、实验步骤：

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

由于datasets.py中有多个数据集的定义，我只更改了第一个数据集的内容，具体是（更改的地方标红）

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

由于使用的是ResNet101d训练模型，所以需要更改对应的./configs/rgbd-2dataset.py中的路径信息。

具体做法如下(由于数据集中图片较少，只进行了训练，没有测试，所以两者都是rsdds_113)：

data = dict(
    train=dict(
        name=[
            "rsdds_113",
        ],
        shape=dict(h=256, w=256),
    ),
    test=dict(
        name=[
            "rsdds_113"
        ],
        shape=dict(h=256, w=256),
    ),

3.4 将预训练模型从给出的网址上下载下来，上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

预训练模型网址：

Pre-trained parameters: Release All pretrained parameters. · lartpang/CAVER · GitHub

3.5 安装对应的module

3.6 在两个数据集上的训练结果

rsdds_113

rsdds_1500

三、BUGS

问题1：assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

解决办法：原来对应的datasets.py中的后缀suffix没有更改，原来对应的是如上图，但是我数据集里的三个文件夹中对应的图片格式与之不同，更改成对应的后缀即可，如下图：