最新DAU-FI Net,突破多类缺陷分割性能边界

作者:小张Tt | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf

添加微信:dddvision,备注:缺陷检测,拉你入群。文末附行业细分群

58ede876951a93d8c61f321d04d21504.jpeg

本文提出的DAU-FI Net架构通过整合多尺度空间-通道注意力机制和特征注入,解决了语义分割中多类别不平衡、样本有限的挑战。其核心是多尺度深度可分离卷积块,配合空间-通道压缩与激励(scSE)注意力单元,增强了物体定位的精度。通过添加注意力门连接编码器-解码器路径,进一步优化了分割效果。工程化特征使用Gabor滤波器进行纹理分析,Sobel和Canny滤波器进行边缘检测,受语义掩模指导的注入扩展了特征空间。实验证明了DAU-FI Net在污水管道和涵洞缺陷数据集以及基准数据集上的卓越表现,达到了95.6%和98.8%的交并比(IoU),分别超过先前方法8.9%和12.6%。该架构为解决具有挑战性的语义分割问题提供了鲁棒的解决方案,为基于深度学习的技术在基础设施检测领域的自动化提供了可靠性和效率。同时,像素级别的缺陷数据集也为未来研究提供了新的方向。

c0babf38990bbdc932b4256fdcf33276.png

读者理解:

  • DAU-FI Net 在多尺度空间通道注意力 (MSCA) 模块和特征注入 (FI) 模块两个方面都具有创新性。

  • MSCA 模块可以有效地捕捉不同尺度和通道之间的相互依赖关系,提高物体定位的精度。

  • FI 模块可以有效地扩展特征空间,提高分割性能。

  • DAU-FI Net 在两个数据集上都取得了 state-of-the-art 的结果,表明其具有良好的泛化能力。

1 引言

本文提出了一种新颖的双重注意力U-Net架构(DAU-FI Net),它集成了定制的多尺度空间-通道注意力机制,并巧妙地注入工程化图像特征,以增强在训练数据有限的多类别分割中的精度。它引入了一个双重注意力块,融合了多尺度卷积和同时进行的空间-通道压缩和激励建模,以捕获局部模式和全局上下文。我们在一个具有挑战性的现实世界污水管道-涵洞缺陷分割数据集上实现了最先进的性能,并且明确超越了先前方法,并在细胞核分割基准上验证了泛化能力。详细的消融研究分析了关键组件的渐进益处。我们提供了一个具有像素级注释的污水管道-涵洞缺陷数据集,涵盖了多种缺陷类型,以推进这一安全关键领域的未来研究。

d0a6a093e1ac8e24035415f3c91f0c91.png

2 方法

U-Net架构及其扩展:

文章首先回顾了全卷积网络(FCN)和U-Net等语义分割的基本概念。U-Net以其编码器-解码器结构和跳跃连接在语义分割中取得显著成果。文章指出U-Net在医学成像等领域表现出色,尤其是在处理数据稀缺情况下表现突出。

先前工作的基础:

在之前的工作中,作者们提出了改进的U-Net架构,引入了一个多尺度深度可分离卷积块,以捕获多尺度的特征信息。然而,这个模型仍需要应对多类别数据集、样本不平衡以及相似类别之间的挑战。

DAU-FI Net模型架构:

U-Net编码器-解码器骨干架构与注意力跳跃连接:DAU-FI Net采用了关注机制和跳跃连接,增强了分割的精度和重建保真度。特别是引入了注意力门,选择性地强调和抑制编码器特征图中的结构。

双重注意力块:核心是DAB,将多尺度深度可分离卷积块与修改后的空间通道压缩和激励(scSE)注意力机制相结合。这种融合机制极大地提高了分割的效果,有效地融合了局部模式、上下文关系和尺度动态。

战略性特征增强:通过引入手工设计的特征,如Gabor滤波器、边缘检测器、梯度方向直方图(HOG)和颜色/强度分析,扩展了模型的特征空间。这种特征融合能够有效地克服数据限制,提升了模型的分割性能。

特征融合:在特征融合方面,文章介绍了对这些工程特征进行提取和注入模型的方法,包括对特征注入位置和方式的深入研究,以优化模型的性能。

模型评估:

文章提出了一种针对污水管道和横管缺陷的数据集,并对模型进行了全面的评估和分析。作者们展示了模型在多类别分割任务上的优越性能,以及注意力机制和特征增强在提升模型性能方面的显著作用。

总的来说,这篇文章通过双重注意力机制和特征融合的创新方法,对于解决语义分割中的样本有限和多类别不平衡问题取得了显著进展,为在实际管道检测中提高分割准确性和性能提供了关键思路和方法。

9af44ec7289e7d964b53a27f30384f8b.png 4d387071b55a50e99138ffdc762a81d7.png a37fd2a25c33ffef33c6445ca422a99c.png

3 总结

该研究的结论突显了在多类别语义分割领域中的重要进展。DAU-FI Net架构作为该研究的核心,创新地融合了多尺度深度可分卷积与先进的并发空间通道压缩与激励注意力单元,有效地解决了有限训练数据下的分割挑战。在对污水管道和横管缺陷数据集以及基准数据集的严格测试中,DAU-FI Net表现出了稳健性,并通过消融研究证实了其关注机制和战略特征注入对提高性能的重要性。

该研究的方法不仅提升了分割的准确性,而且并未引入显著的计算负担。尤其值得注意的是,本研究彰显了如何将领域特定的工程化特征有效地融入深度学习框架,为数据稀缺情况下的应用提供了有益的见解。

通过对特征注入和空间通道注意力的创新方法,该研究为解决复杂分割任务提供了新的视角。使用污水管道和横管缺陷数据集的应用为未来研究探索开辟了新的方向。虽然在两个数据集上进行测试,但DAU-FI Net显示出在各种分割任务中的潜在潜力。

9d01dfddd215e73eca561afbfea44c15.png fae964a9fea9ad4559f1a803c1e2435f.png

下载

在公众号「3D视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

c0891b4af4da6f2925bf15038b4a2474.png
添加小助理微信:dddvisiona,加群+方向+学校|公司,拉你入群

bf25abb44f2ab6ecd85876863cadd6a2.jpeg6722565c682eabf31ea5b1ac0f14da2c.jpeg1607a23e28644b1ecebf0006975d0e36.jpeg376158244d40d5cb271d7549bf61ea5c.jpeg