电商企业网站建设frontpage做内部网站

张小明 2026/1/12 6:54:56
电商企业网站建设,frontpage做内部网站,好的网站建设公司哪家好,做影视网站存储视频会侵权吗论文阅读 | TIV 2024 | CDC-YOLOFusion#xff1a;利用跨尺度动态卷积融合实现可见光-红外目标检测1. 摘要引言2. 方法2.1 架构概述2.2. 跨模态数据交换#xff08;CDS#xff09;2.3 跨尺度动态卷积融合#xff08;CDCF#xff09;2.3.1 跨尺度特征增强模块利用跨尺度动态卷积融合实现可见光-红外目标检测1. 摘要引言2. 方法2.1 架构概述2.2. 跨模态数据交换CDS2.3 跨尺度动态卷积融合CDCF2.3.1 跨尺度特征增强模块CSFE2.3.2 双动态卷积融合模块DDCF2.4 跨模态核交互损失(K I KIKIL o s s LossLoss)3. 实验3.1 数据集3.2 设置3.3 实验结果3.4 与最先进方法的比较4. 结论题目CDC-YOLOFusion: Leveraging Cross-scale Dynamic Convolution Fusion for Visible-Infrared Object Detection期刊IEEE Transactions on Intelligent Vehicles TIV论文https://ieeexplore.ieee.org/document/10636773代码https://github.com/Morph-3800/CDC%20YOLOFusion年份20241. 摘要引言由于能够深入挖掘可见光和红外特征特征级融合方法在可见光 - 红外目标检测中表现出优异的性能。然而大多数现有的特征级融合方法利用多个具有固定参数的卷积层来提取双模态特征导致对多样化数据分布的适应性较低。本文提出了一种基于跨尺度动态卷积的 YOLO 融合CDC-YOLOFusion网络该网络引入了一种新颖的跨尺度动态卷积融合CDCF模块以自适应地提取和融合与数据分布相关的双模态特征。从技术上讲CDC-YOLOFusion 首先设计了一种新颖的数据增强策略 “跨模态数据交换CDS”用于在可见光和红外图像之间交换局部区域有效捕捉局部区域内的跨模态相关性。在此基础上所提出的 CDCF 通过引入差异注意力掩码利用跨尺度增强特征辅助动态卷积预测重点提取两种模态之间的差异特征。我们的 CDCF 在一种新颖的跨模态核交互损失的有效引导下旨在让学习到的核同时关注每种模态的共同显著特征和独特特征以生成全面的特征。在三个具有代表性的检测数据集上进行的大量实验表明CDCF 可以轻松嵌入到现有流水线中获得一致的性能提升。图1. 我们提出的CDCF模块见红色箭头与现有动态卷积方法[13]见蓝色箭头的比较。本文主要贡献总结如下提出用于可见光 - 红外目标检测的 “跨尺度动态卷积驱动 YOLO 融合CDC-YOLOFusion” 网络。该网络引入新颖的 “跨模态数据交换CDS” 技术实现双模态数据的有效交换生成能捕捉局部区域跨模态相关性的增强数据。设计 “跨尺度动态卷积融合CDCF” 模块利用跨尺度特征分别增强各模态动态卷积核的预测性能。所提差异注意力掩码可有效挖掘模态间的独特性促进互补特征提取从而获得更优的特征提取卷积核。设计 “跨模态核交互损失”有效引导 CDCF 模块的核学习过程。该损失函数在捕捉模态间共同显著特征的同时强调各模态的独特特征助力提取用于目标检测的显著双模态特征。2. 方法2.1 架构概述图2. 所提出的CDC-YOLOFusion的架构由四个部分组成跨模态数据交换CDS模块、特征提取骨干网络、跨尺度动态卷积融合CDCF模块和检测头。传统数据增强技术多关注单模态数据而CDS旨在提高模型对模态差异的理解促进跨模态相关性学习。其通过将红外图像中的局部块替换为可见光图像中的对应块生成含混合信息的图像输入特征提取分支。图 2 展示了我们提出的 CDC-YOLOFusion 的流程图它扩展了 YOLO v5 架构采用双分支 CSPDarknet 骨干网络分别提取多尺度的可见光和红外特征。值得注意的是我们引入了两个新颖的组件来提高检测性能首先我们引入了跨模态数据交换CDS模块用于预处理输入图像。CDS 促进有效的双模态数据交换和信息互补产生混合的双模态数据鼓励模型更好地探索跨模态特征。其次我们引入了跨尺度动态卷积融合CDCF模块来促进多尺度双模态特征融合。与传统的卷积操作不同CDCF 采用从输入数据中自适应学习的动态卷积核来捕捉更有价值的信息。此外我们设计了一种新颖的 “跨模态核交互” 损失通过利用双模态核的固有特征分布来引导双模态核的学习从而生成用于稳健特征提取的信息核。2.2. 跨模态数据交换CDS图3. 一个示例用于说明传统数据增强与我们的跨模态数据交换之间的差异。传统的数据增强技术如裁剪如图 3 所示广泛应用于目标检测任务有助于丰富训练数据集并增强模型的泛化能力。然而现有的增强方法主要关注单模态数据忽略了对跨模态增强技术的探索。相反深入研究跨模态增强策略有望有效揭示不同模态之间的相关性从而为特征提取网络提取稳健特征提供更好的指导。出于这一目的我们引入了跨模态数据交换CDS旨在提高模型对模态差异的理解并促进跨模态相关性的学习。图 3 展示了一个示例来说明 CDS 的效果其中红外图像中的一个局部块被可见光图像中的对应块替换从而生成一个混合信息的红外图像随后将其输入到相应的特征提取分支以探索跨模态特征提取。具体来说给定一对高度为 H、宽度为 W 的可见光 - 红外图像I v I_{v}Iv​、I i r ∈ R H × W I_{ir} \in \mathbb{R}^{H \times W}Iir​∈RH×W我们首先为它们分别构建两个交换掩码M v M_{v}Mv​、M i r ∈ R H × W M_{ir} \in \mathbb{R}^{H \times W}Mir​∈RH×W其中两个掩码中的每个初始元素都设置为 0。接下来我们将每个掩码划分为N × N N \times NN×N个局部区域并随机选择 N 个区域作为交换候选将交换候选中的元素重置为 1。因此它生成两个交换掩码来指导跨模态数据交换实现方式如下见图 3I m s w a p I m ⊙ M m I m ‾ ⊙ ( 1 − M m ) (1) I_{m}^{swap}I_{m} \odot M_{m}I_{\overline{m}} \odot\left(1-M_{m}\right) \tag{1}Imswap​Im​⊙Mm​Im​⊙(1−Mm​)(1)其中m mm、m ‾ ∈ { v , i r } \overline{m} \in\{v, ir\}m∈{v,ir}⊙ \odot⊙表示元素级乘法I m s w a p I_{m}^{swap}Imswap​表示通过 CDS 生成的图像。CDS 执行跨模态部分数据交换生成同时包含两种模态信息的混合图像。因此与通过破坏单模态数据进行的传统裁剪和马赛克数据增强操作相比CDS 提供了更丰富的训练数据同时有效保留了多模态图像的统一高级语义。它能够巧妙地捕捉局部区域内的跨模态相关性促进更丰富的跨模态互补细节的吸收。这反过来又增强了网络在训练过程中的鲁棒性。2.3 跨尺度动态卷积融合CDCF图4. 我们提出的跨尺度动态卷积融合CDCF模块的详细架构该模块由两个组件组成跨尺度特征增强CSFE模块和双动态卷积融合DDCF模块。我们引入了跨尺度动态卷积融合CDCF模块该模块通过利用每种模态数据的固有特征独立学习适用于该模态数据的自适应核。图 4 展示了我们提出的 CDCF 模块的架构它包括两个主要组件跨尺度特征增强CSFE模块和双动态卷积融合DDCF模块。2.3.1 跨尺度特征增强模块CSFE我们的方法没有直接拼接双模态特征而是引入了跨尺度特征增强CSFE模块来生成增强的可见光和红外特征用于预测动态卷积核。如图 4 所示当给定第 l 层的一对可见光和红外特征T v T_{v}Tv​、T i r ∈ R H × W × C T_{ir} \in \mathbb{R}^{H \times W \times C}Tir​∈RH×W×C以及 CDCF 生成的第( l − 1 ) (l-1)(l−1)层的融合特征T p ∈ R 2 H × 2 W × C / 2 T_{p} \in \mathbb{R}^{2H \times 2W \times C/2}Tp​∈R2H×2W×C/2时CSFE 首先使用 3×3 卷积核对T p T_{p}Tp​进行下采样以获得调整大小的融合特征T p ′ ∈ R H × W × C T_{p} \in \mathbb{R}^{H \times W \times C}Tp′​∈RH×W×C。由于T p T_{p}Tp​带来了更大尺度特征图提供的更丰富的特征有助于通过跨尺度特征融合来指导当前层特征的增强。然后我们分别对T v T_{v}Tv​、T i r T_{ir}Tir​和T p ′ T_{p}Tp′​采用 X 注意力和 Y 注意力机制。理论上X/Y 注意力旨在探索高度 / 宽度与通道之间的复杂相关性包括沿高度 / 宽度方向计算特征平均值公式如下T t x 1 H ∑ 0 ≤ i H T t ( i , w ) T t y 1 W ∑ 0 ≤ j W T t ( h , j ) (2) \begin{aligned} T_{t}^{x}\frac{1}{H} \sum_{0 \leq iH} T_{t}(i, w) \\ T_{t}^{y}\frac{1}{W} \sum_{0 \leq jW} T_{t}(h, j) \end{aligned} \tag{2}​Ttx​H1​0≤iH∑​Tt​(i,w)Tty​W1​0≤jW∑​Tt​(h,j)​(2)其中t ∈ { p ′ , i r , v } t \in\{p, ir, v\}t∈{p′,ir,v}w ∈ [ 1 , W ] w \in[1, W]w∈[1,W]h ∈ [ 1 , H ] h \in[1, H]h∈[1,H]T t ( i , j ) T_{t}(i, j)Tt​(i,j)表示位置[ i , j ] [i, j][i,j]处的特征向量。因此我们的方法为 X 注意力生成三个注意力特征图T v x T_{v}^{x}Tvx​、T i r x T_{ir}^{x}Tirx​、T p ′ x ∈ R H × 1 × C T_{p}^{x} \in \mathbb{R}^{H \times 1 \times C}Tp′x​∈RH×1×C为 Y 注意力生成T v y T_{v}^{y}Tvy​、T i r y T_{ir}^{y}Tiry​、T p ′ y ∈ R 1 × W × C T_{p}^{y} \in \mathbb{R}^{1 \times W \times C}Tp′y​∈R1×W×C。与常用的自注意力机制相比CSFE 中使用的跨尺度 X/Y 注意力能够更有效地探索相对位置信息和通道注意力信息之间的复杂相关性同时仅略微增加计算和参数开销在高度和宽度方向上产生显著的特征图作为预测动态卷积核的指导。接下来对于 X 注意力和 Y 注意力特征T t x T_{t}^{x}Ttx​和T t y T_{t}^{y}Tty​我们计算其 Gram 矩阵G t x ∈ R H × H G_{t}^{x} \in \mathbb{R}^{H \times H}Gtx​∈RH×H和G t y ∈ R W × W G_{t}^{y} \in \mathbb{R}^{W \times W}Gty​∈RW×W以获得特征图内的高度 / 宽度相关信息然后将它们分别与T t x T_{t}^{x}Ttx​和T t y T_{t}^{y}Tty​相乘丰富通道与高度 / 宽度之间的关系捕捉公式如下G t x T t x × ( T t x ) T , G t y T t y × ( T t y ) T T ^ t x G t x × T t x , T ^ t y G t y × T t y (3) \begin{gathered} G_{t}^{x}T_{t}^{x} \times\left(T_{t}^{x}\right)^{T}, G_{t}^{y}T_{t}^{y} \times\left(T_{t}^{y}\right)^{T} \\ \hat{T}_{t}^{x}G_{t}^{x} \times T_{t}^{x}, \hat{T}_{t}^{y}G_{t}^{y} \times T_{t}^{y} \end{gathered} \tag{3}Gtx​Ttx​×(Ttx​)T,Gty​Tty​×(Tty​)TT^tx​Gtx​×Ttx​,T^ty​Gty​×Tty​​(3)其中t ∈ { p ′ , i r , v } t \in\{p, ir, v\}t∈{p′,ir,v}T ^ t x ∈ R H × 1 × C \hat{T}_{t}^{x} \in \mathbb{R}^{H \times 1 \times C}T^tx​∈RH×1×C和T ^ t y ∈ R 1 × W × C \hat{T}_{t}^{y} \in \mathbb{R}^{1 \times W \times C}T^ty​∈R1×W×C分别表示 X 和 Y 方向上的相关性增强注意力图。之后我们利用跨尺度融合信息来增强每种模态表示为T ‾ m x C 1 ( [ T ^ m x , T ^ p ′ x ] ) T ‾ m y C 2 ( [ T ^ m y , T ^ p ′ y ] ) (4) \begin{aligned} \overline{T}_{m}^{x}C_{1}\left(\left[\hat{T}_{m}^{x}, \hat{T}_{p}^{x}\right]\right) \\ \overline{T}_{m}^{y}C_{2}\left(\left[\hat{T}_{m}^{y}, \hat{T}_{p}^{y}\right]\right) \end{aligned} \tag{4}​Tmx​C1​([T^mx​,T^p′x​])Tmy​C2​([T^my​,T^p′y​])​(4)其中m ∈ { i r , v } m \in\{ir, v\}m∈{ir,v}C 1 C_{1}C1​和C 2 C_{2}C2​是两个卷积层[] 表示拼接操作。T ‾ m x ∈ R H × 1 × C \overline{T}_{m}^{x} \in \mathbb{R}^{H \times 1 \times C}Tmx​∈RH×1×C和T ‾ m y ∈ R 1 × W × C \overline{T}_{m}^{y} \in \mathbb{R}^{1 \times W \times C}Tmy​∈R1×W×C分别是 X 和 Y 方向上的跨尺度增强单模态特征图。为了使T ‾ m x \overline{T}_{m}^{x}Tmx​和T ‾ m y \overline{T}_{m}^{y}Tmy​能够在两个方向上拼接以进行信息交互我们将T ‾ m x \overline{T}_{m}^{x}Tmx​重塑为T ‾ m x ′ ∈ R 1 × H × C \overline{T}_{m}^{x} \in \mathbb{R}^{1 \times H \times C}Tmx′​∈R1×H×C。然后我们将它们拼接以实现信息交互获得激活的注意力图A t t m ∈ R 1 × ( W H ) × C Att_{m} \in \mathbb{R}^{1 \times (WH) \times C}Attm​∈R1×(WH)×C表示宽度、高度和通道中的显著特征图A t t m [ A t t m x ′ , A t t m y ] g ( [ T ‾ m x ′ , T ‾ m y ] ) (5) Att_{m}\left[Att_{m}^{x}, Att_{m}^{y}\right]g\left(\left[\overline{T}_{m}^{x}, \overline{T}_{m}^{y}\right]\right) \tag{5}Attm​[Attmx′​,Attmy​]g([Tmx′​,Tmy​])(5)其中g ( ⋅ ) g(·)g(⋅)是由卷积层、批归一化层和激活函数组成的函数。A t t m x ′ ∈ R 1 × H × C Att_{m}^{x} \in \mathbb{R}^{1 \times H \times C}Attmx′​∈R1×H×C和A t t m y ∈ R 1 × W × C Att_{m}^{y} \in \mathbb{R}^{1 \times W \times C}Attmy​∈R1×W×C表示交互后宽度、高度和通道中的新显著特征图。然后我们将A t t m x ′ Att_{m}^{x}Attmx′​重塑为A t t m x ∈ R H × 1 × C Att_{m}^{x} \in \mathbb{R}^{H \times 1 \times C}Attmx​∈RH×1×C。最后这两个注意力图作用于输入特征T m T_{m}Tm​以获得增强特征E m E_{m}Em​表示为E m A t t m x ⊙ A t t m y ⊙ ( T m T p ′ ) T m (6) E_{m}Att_{m}^{x} \odot Att_{m}^{y} \odot\left(T_{m}T_{p}\right)T_{m} \tag{6}Em​Attmx​⊙Attmy​⊙(Tm​Tp′​)Tm​(6)2.3.2 双动态卷积融合模块DDCF给定一个高度为 H、宽度为 W、通道数为C i n C_{in}Cin​的输入特征x ∈ R H × W × C i n x \in \mathbb{R}^{H \times W \times C_{in}}x∈RH×W×Cin​以及 V 个卷积核K 1 , K 2 , . . . , K V K_{1}, K_{2}, ..., K_{V}K1​,K2​,...,KV​现有的动态卷积方法 [40] 从 X 中构建四个特征注意力掩码包括空间注意力掩码α s ∈ R V × k × k \alpha_{s} \in \mathbb{R}^{V \times k \times k}αs​∈RV×k×k、输入通道注意力掩码α c ∈ R V × C i n \alpha_{c} \in \mathbb{R}^{V \times C_{in}}αc​∈RV×Cin​、输出通道注意力掩码α f ∈ R V × C o u t \alpha_{f} \in \mathbb{R}^{V \times C_{out}}αf​∈RV×Cout​和核注意力掩码α w ∈ R V \alpha_{w} \in \mathbb{R}^{V}αw​∈RV公式如下α t ϕ t ( x ) (7) \alpha_{t}\phi_{t}(x) \tag{7}αt​ϕt​(x)(7)其中t ∈ { s , c , f , w } t \in\{s, c, f, w\}t∈{s,c,f,w}ϕ \phiϕ表示由全局平均池化层GAP、全连接层FC、ReLU 激活函数和头部分支组成的序列操作。然后将这些掩码应用于 V 个卷积核得到聚合的动态卷积核 K计算如下K α w 1 ⊙ α f 1 ⊙ α c 1 ⊙ α s 1 ⊙ K 1 ⋯ α w V ⊙ α f V ⊙ α c V ⊙ α s V ⊙ K V (8) \begin{gathered} K\alpha_{w_{1}} \odot \alpha_{f_{1}} \odot \alpha_{c_{1}} \odot \alpha_{s_{1}} \odot K_{1}\cdots \\ \alpha_{w_{V}} \odot \alpha_{f_{V}} \odot \alpha_{c_{V}} \odot \alpha_{s_{V}} \odot K_{V} \end{gathered} \tag{8}Kαw1​​⊙αf1​​⊙αc1​​⊙αs1​​⊙K1​⋯αwV​​⊙αfV​​⊙αcV​​⊙αsV​​⊙KV​​(8)其中α t v \alpha_{t_{v}}αtv​​表示α t \alpha_{t}αt​中的第 v 个元素。得到的动态卷积核K ∈ R k × k × C i n × C o u t K \in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}K∈Rk×k×Cin​×Cout​可以通过探索各种注意力维度动态适应特征 X从而帮助模型提取增强的目标检测特征。在此基础上我们的方法进一步深入研究可见光和红外特征之间的差异并引入特征差异注意力掩码α d \alpha_{d}αd​。这一添加使我们的卷积核能够更好地探索模态间的独特性并促进互补特征的提取。具体来说给定一对输入的可见光和红外特征( E v , E i r ) (E_{v}, E_{ir})(Ev​,Eir​)我们的方法首先采用模态差异提取网络生成差异注意力掩码α d v / i r ∈ R V × k × k \alpha_{d}^{v/ir} \in \mathbb{R}^{V \times k \times k}αdv/ir​∈RV×k×k表示为α d m σ ( h A ( E m − E m ‾ ) h M ( E m − E m ‾ ) ) (9) \alpha_{d}^{m}\sigma\left(h_{A}\left(E_{m}-E_{\overline{m}}\right)h_{M}\left(E_{m}-E_{\overline{m}}\right)\right) \tag{9}αdm​σ(hA​(Em​−Em​)hM​(Em​−Em​))(9)其中m mm、m ‾ ∈ { v , i r } \overline{m} \in\{v, ir\}m∈{v,ir}σ \sigmaσ表示s i g m o i d sigmoidsigmoid函数h A h_{A}hA​是由多层感知机MLP和全局最大池化层组成的网络h M h_{M}hM​是由 MLP 和全局平均池化层组成的网络MLP 是由 1×1 卷积、ReLU 激活函数和另一个 1×1 卷积组成的独特感知机网络。因此通过将掩码α d \alpha_{d}αd​纳入公式8我们得到依赖于模态的动态卷积核K m K^{m}Km如下K m α w 1 m ⊙ α f 1 m ⊙ α c 1 m ⊙ α s 1 m ⊙ α d 1 m ⊙ K 1 m ⋯ α w V m ⊙ α f V m ⊙ α c V m ⊙ α s V m ⊙ α d V m ⊙ K V m (10) \begin{array}{r} K^{m}\alpha_{w_{1}}^{m} \odot \alpha_{f_{1}}^{m} \odot \alpha_{c_{1}}^{m} \odot \alpha_{s_{1}}^{m} \odot \alpha_{d_{1}}^{m} \odot K_{1}^{m}\cdots \\ \alpha_{w_{V}}^{m} \odot \alpha_{f_{V}}^{m} \odot \alpha_{c_{V}}^{m} \odot \alpha_{s_{V}}^{m} \odot \alpha_{d_{V}}^{m} \odot K_{V}^{m} \end{array} \tag{10}Kmαw1​m​⊙αf1​m​⊙αc1​m​⊙αs1​m​⊙αd1​m​⊙K1m​⋯αwV​m​⊙αfV​m​⊙αcV​m​⊙αsV​m​⊙αdV​m​⊙KVm​​(10)其中α w v m \alpha_{w_{v}}^{m}αwv​m​、α f v m \alpha_{f_{v}}^{m}αfv​m​、α c v m \alpha_{c_{v}}^{m}αcv​m​、α s v m \alpha_{s_{v}}^{m}αsv​m​分别表示模态 m 上的核注意力掩码、输出通道注意力掩码、输入通道注意力掩码和空间注意力掩码中的第 v 个元素。具体来说我们的方法将公式6中的E m E_{m}Em​输入到公式7中以计算这些参数包括空间注意力掩码α s m ∈ R V × k × k \alpha_{s}^{m} \in \mathbb{R}^{V \times k \times k}αsm​∈RV×k×k、输入通道注意力掩码α c m ∈ R V × C i n \alpha_{c}^{m} \in \mathbb{R}^{V \times C_{in}}αcm​∈RV×Cin​、输出通道注意力掩码α f m ∈ R V × C o u t \alpha_{f}^{m} \in \mathbb{R}^{V \times C_{out}}αfm​∈RV×Cout​、核注意力掩码α w m ∈ R V \alpha_{w}^{m} \in \mathbb{R}^{V}αwm​∈RV和差异注意力掩码α d m ∈ R V × k × k \alpha_{d}^{m} \in \mathbb{R}^{V \times k \times k}αdm​∈RV×k×k上述注意力掩码沿第一维度分为 V 个子掩码即α s v m ∈ R K × K \alpha_{s_{v}}^{m} \in \mathbb{R}^{K \times K}αsv​m​∈RK×K、α c v m ∈ R C i n \alpha_{c_{v}}^{m} \in \mathbb{R}^{C_{in}}αcv​m​∈RCin​、α f v m ∈ R C o u t \alpha_{f_{v}}^{m} \in \mathbb{R}^{C_{out}}αfv​m​∈RCout​、α w v m ∈ R \alpha_{w_{v}}^{m} \in \mathbb{R}αwv​m​∈R和α d v m ∈ R K × K \alpha_{d_{v}}^{m} \in \mathbb{R}^{K \times K}αdv​m​∈RK×K。将来自五种注意力掩码的 V 个子掩码与 V 个卷积核聚合后我们得到如公式10所示的动态卷积核K m K^{m}Km。接下来我们将依赖于模态的动态卷积核K m K^{m}Km与相应的模态特征相乘得到增强特征F m E m ∗ K m (11) F_{m}E_{m} * K^{m} \tag{11}Fm​Em​∗Km(11)其中 * 表示卷积操作。最后我们对两个卷积结果F i r F_{ir}Fir​和F v F_{v}Fv​进行互补融合它们包含模态属性和模态间可变性确保融合结果F f F_{f}Ff​包含模态共性和独特可变性。具体公式如下G ^ i r , G ^ v S o f t m a x ( [ F i r , F v ] ) F f G ^ i r ⊙ F i r F i r G ^ v ⊙ F v F v (12) \begin{gathered} \hat{G}_{ir}, \hat{G}_{v}Softmax\left(\left[F_{ir}, F_{v}\right]\right) \\ F_{f}\hat{G}_{ir} \odot F_{ir}F_{ir}\hat{G}_{v} \odot F_{v}F_{v} \end{gathered} \tag{12}G^ir​,G^v​Softmax([Fir​,Fv​])Ff​G^ir​⊙Fir​Fir​G^v​⊙Fv​Fv​​(12)与从拼接的多模态特征生成动态卷积核相比我们的方法采用增强的单模态特征作为生成动态卷积核K v K_{v}Kv​和K i r K_{ir}Kir​的原始数据。这种方法最大限度地保留了不同模态输入数据中的独特特征使核能够专注于特定于模态的特征。此外差异特征注意力的引入使卷积核对模态间差异更加敏感使它们能够选择性地提取差异特征以进行互补融合。2.4 跨模态核交互损失(K I KIKIL o s s LossLoss)为了通过 CDCF 有效引导动态卷积核的生成我们的方法采用监督学习并引入了一种新颖的损失函数 “核交互损失K I KIKIL o s s LossLoss”。给定从不同模态中学习到的两个待学习核K v K_{v}Kv​和K i r K_{ir}Kir​我们的方法旨在开发能够捕捉两种模态的共同显著特征同时识别每种模态中独特显著特征的核函数。这使得能够准确识别双模态数据中的互补特征。基于这一思想我们的方法利用Jensen-ShannonJS散度来衡量分布之间的差异。JS 散度评估两个分布之间的相似性当它们相似时接近零不相似时达到 1。通过利用这一散度度量我们的方法计算K v K_{v}Kv​和K i r K_{ir}Kir​之间的 JS 值旨在最小化分布差异以便两个核都能有效捕捉两种模态的共同特征表示为L c D j s ( K v , K i r ) (13) \mathcal{L}_{c}D_{js}\left(K_{v}, K_{ir}\right) \tag{13}Lc​Djs​(Kv​,Kir​)(13)同时我们的方法旨在让K v K_{v}Kv​和K i r K_{ir}Kir​分别捕捉可见光和红外数据中的独特特征。我们使用两个核之间的差异来表示这种独特特征捕捉记为S v ∣ i r S_{v|ir}Sv∣ir​和S i r ∣ v S_{ir|v}Sir∣v​分别对应可见光和红外数据中的独特特征检测。这种关系表示为S v ∣ i r s i g n ( K v − K i r ) , S i r ∣ v s i g n ( K i r − K v ) (14) S_{v|ir}sign\left(K_{v}-K_{ir}\right), S_{ir|v}sign\left(K_{ir}-K_{v}\right) \tag{14}Sv∣ir​sign(Kv​−Kir​),Sir∣v​sign(Kir​−Kv​)(14)其中s i g n ( ⋅ ) sign(·)sign(⋅)是符号函数将所有负值设为零。因此我们的方法期望S v ∣ i r S_{v|ir}Sv∣ir​和S i r ∣ v S_{ir|v}Sir∣v​表现出具有高 JS 值的不同分布有效捕捉两种模态的独特特征。最终我们的核交互损失L K I L_{KI}LKI​公式如下L K I μ D j s ( K v , K i r ) − ( 1 − μ ) D j s ( S v ∣ i r , S i r ∣ v ) (15) \mathcal{L}_{KI}\mu D_{js}\left(K_{v}, K_{ir}\right)-(1-\mu) D_{js}\left(S_{v|ir}, S_{ir|v}\right) \tag{15}LKI​μDjs​(Kv​,Kir​)−(1−μ)Djs​(Sv∣ir​,Sir∣v​)(15)其中μ \muμ是平衡权重。L K I L_{KI}LKI​要求学习到的动态卷积核捕捉共同的显著特征同时关注每种模态的独特特征。这种双重关注有助于提取更全面的特征从而提高模型的目标检测性能。实现所提出的跨尺度动态卷积融合模块在各种特征尺度上运行生成多尺度融合特征这些特征被输入到预测头以产生最终的检测结果。在训练过程中我们使用由两个主要组件组成的复合损失函数目标检测损失包括边界框回归L b b o x L_{bbox}Lbbox​、目标分类L c l s L_{cls}Lcls​和目标置信度L o b j L_{obj}Lobj​和 CDCFM 中的 KI 损失L K I L_{KI}LKI​。最终的损失函数公式如下L λ L K I L b b o x L c l s L o b j (16) \mathcal{L}\lambda \mathcal{L}_{KI}\mathcal{L}_{bbox}\mathcal{L}_{cls}\mathcal{L}_{obj} \tag{16}LλLKI​Lbbox​Lcls​Lobj​(16)其中λ \lambdaλ是平衡权重。3. 实验3.1 数据集我们在VEDAI、FLIR和LLVIP上进行实验以评估我们的 CDC-YOLOFusion。VEDAI该航空数据集主要用于车辆检测存在小目标尺寸、多方向性、光照和阴影变化、镜面反射及遮挡等挑战。提供九类严格对齐的可见光和红外图像对含1250对两种分辨率1024×1024和512×512的图像对。我们使用更高分辨率其中1089对用于训练161对用于测试。FLIR为多光谱目标检测带来挑战涵盖白天和黑夜条件下的三类“人”“车”“自行车”。原始数据集图像对未对齐本研究使用[51]中的对齐版本含5142对可见光-红外图像对其中4129对用于训练1013对用于测试。LLVIP该大规模行人数据集在低光环境下拍摄多数图像处于极暗环境。所有可见光-红外图像对在空间和时间上严格对齐含15488对图像12025对用于训练其余3463对用于测试。3.2 设置我们的方法基于CSPDarknet53在YOLOv5架构上构建双分支特征提取骨干网络分别提取多尺度的可见光和红外特征。在CDCF模块中跨模态核交互损失L K I L_{KI}LKI​中参数μ 0.6 \mu0.6μ0.6。第一个CDCF层仅使用DDCF模块融合骨干网络特征从第二层开始CDCF在通过DDCF融合前使用CSFE增强特征。训练在NVIDIA GeForce RTX A6000上进行采用SGD优化器批处理大小设为8公式16中权重λ 0.5 \lambda0.5λ0.5初始学习率0.001权重衰减0.0005动量0.937。共训练500个epoch以确保模型良好收敛。3.3 实验结果消融实验检验CDS和CDCF模块的实用性设计四种实验设置见表1。第一种排除CDS和CDCF用“加法”融合原始对齐图像对训练骨干网络。第二种在CDC-YOLOFusion框架内用元素级加法替代CDCF进行特征融合。第三种使用CDCF模块但CDS数据交换概率为0。第四种同时使用CDS和CDCF。表1 CDC-YOLOFusion在FLIR数据集上不同组件的性能比较结果表明CDS能提升性能mAP从38.9%升至40.9%其局部区域交换策略帮助骨干网络学习跨模态相关性。单独使用CDCF可显著提升mAP4.9%归因于多尺度特征聚合和动态卷积机制在L K I L_{KI}LKI​指导下生成的卷积核专注于模态独特特征和共同特征。两者结合性能最佳mAP44.7%证明CDC-YOLOFusion有效性。CDS的评估评估CDS的图像处理策略及N × N N \times NN×N区域划分中N NN的影响见表2。当N 10 N10N10时CDS性能最佳mAP44.7%同N NN下比裁剪策略mAP高约0.5%说明CDS增强了模型对模态差异的理解。N 5 N5N5时交换区域过小难以提供足够跨模态知识N 15 N15N15时区域过大导致原始数据信息丢失过多。表2 FLIR数据集上CDS和裁剪策略在不同N NN下的性能比较此外评估CDS数据增强概率见表3概率为0.3时性能最佳。概率过高会破坏单模态信息过低则无法提供足够跨模态知识。表3 FLIR数据集上不同CDS触发概率的性能比较CDCF的评估评估CDCF中CSFE和DDCF的作用见表4。不使用DDCF时用元素级加法替代融合。使用DDCF时对比是否采用差异特征注意力α d \alpha_{d}αd​。表4 FLIR数据集上CDCF模块不同组件的性能比较结果显示单独使用CSFEmAP提升1.4%其跨尺度特征增强为动态卷积核生成提供丰富多尺度特征。单独使用DDCFmAP提升约2.5%利用模态信息生成动态卷积核可关注跨模态特征引入α d \alpha_{d}αd​可进一步提升mAP约0.5%增强捕捉模态间差异特征的能力。图5展示CDCF模块效果深红色表示显著特征蓝色为背景特征。骨干网络初始特征T i r T_{ir}Tir​和T v T_{v}Tv​差异明显CDCF生成的动态卷积核细化特征后F v F_{v}Fv​和F i r F_{ir}Fir​特征分布相似目标区域增强噪声被抑制融合特征F f F_{f}Ff​指导准确检测。CSFE中注意力机制评估比较X/Y注意力与自注意力见表5。X/Y注意力以更少参数153.6 M vs 204.2 M和更快测试速度65.1 ms vs 109.2 ms实现更高精度因其能以较低成本提供相对位置和通道信息。表5 FLIR数据集上CSFE模块中X/Y注意力与自注意力的效果比较DDCF中卷积核数量评估评估聚合卷积核数量V VV的影响见表6。V 4 V4V4时性能最佳V 4 V4V4时特征表示能力受限V 4 V4V4时精度稳定但参数增加。表6 FLIR数据集上DDCF模块不同核数量V VV的性能比较CDCF模块通用性评估将CDCF集成到三种骨干网络见表7与基线融合方法元素级加法相比在CFT、LRAF-Net和YOLO v5上分别获得2.9%、1.3%和4.9%的绝对增益证明其在CNN和Transformer-based骨干网络上的稳健性。表7 FLIR数据集上CDCF模块集成到不同骨干网络的性能比较KI损失的评估评估公式15中权重μ \muμ的影响见表8μ 0.6 \mu0.6μ0.6时性能最佳mAP44.7%。μ \muμ过小动态卷积核忽略共同特征μ \muμ过大忽略独特特征均导致性能下降。表8 公式15中不同μ \muμ值下DDCF模块在FLIR数据集上的性能趋势评估公式16中权重λ \lambdaλ的影响见表9λ 0.5 \lambda0.5λ0.5时性能最佳mAP44.7%。λ \lambdaλ过小引导卷积核能力弱λ \lambdaλ过大掩盖目标检测损失均导致性能下降。表9 公式16中不同λ \lambdaλ值下DDCF模块在FLIR数据集上的性能趋势3.4 与最先进方法的比较将CDC-YOLOFusion与单模态和多模态检测器在三个数据集上比较表10-12。单模态中红外检测器通常优于可见光检测器因夜间可见光失效而红外可提供目标特征。多模态方法因融合两种特征性能更优CDC-YOLOFusion表现最佳mAP提升约2%-3%原因在于CDS提供跨模态特征CDCF生成含模态特定和共同特征的动态卷积核KI损失约束提取共同和独特特征。表10 VEDAI数据集上的性能比较表11 FLIR数据集上的性能比较表12 LLVIP数据集上的性能比较表13比较模型参数和推理时间CDC-YOLOFusion在参数153.6 M和推理时间65.1 ms上平衡良好优于LRAF-Net等方法。表13 FLIR数据集上多模态检测方法的参数和测试时间比较图6-8展示检测结果示例CDC-YOLOFusion在小目标检测、易混淆目标识别、密集及遮挡场景中表现优异因CSFE利用跨尺度特征、CDS和DDCF提供模态相关信息、KI损失引导特征提取。4. 结论本文提出用于可见光-红外目标检测的CDC-YOLOFusion首次引入跨尺度动态卷积学习和有监督核学习提升性能。技术上采用跨模态数据交换生成含两种模态信息的混合图像促进检测。设计跨尺度动态卷积融合模块利用跨尺度特征生成有效卷积核在跨模态核交互损失监督下产生稳健融合特征支持精确检测。三个数据集上的大量实验证明CDC-YOLOFusion的有效性在可见光-红外目标检测中实现最先进性能。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

甘肃自助建站系统怎么用建站的目的

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!部分python代码n231 cp.call(get231, …

张小明 2026/1/11 15:15:03 网站建设

凤泉网站建设大连甘井子区教育局官网

当财税管理工具还困在 “冰冷数据” 与 “复杂操作” 的刻板印象中时,Taxr 的界面设计给出了 “专业与温度共生” 的新解法。作为深耕企业级 UX 领域的专业团队,北京兰亭妙微以行业观察者的视角拆解其设计逻辑:好的企业工具界面,从…

张小明 2026/1/4 8:29:59 网站建设

网站建设优化项目廊坊网站群发关键词

Linux系统中软件包管理、集群文件系统及Apache配置全解析 1. 共享库包确认 在系统中安装了旧版本的共享库包时,可通过以下命令确认该包是否包含所需的共享库文件: #rpm -q --provides openssl此命令会报告该RPM包提供的所有内容,其中包括包所提供的共享库文件的soname。…

张小明 2026/1/3 10:10:16 网站建设

网站后期维护内容企业设备管理系统

Transformer架构在车间复杂场景的关键行为识别中带来了多方面的改进,主要体现在以下几个方面: 1. 全局上下文建模能力 问题背景:车间场景通常包含多个工人、设备和交互行为,传统CNN或RNN难以有效捕捉长距离时空依赖。 Transformer…

张小明 2026/1/4 8:29:59 网站建设

上海企业网站制作费用中铁建设

FaceFusion项目 roadmap 公布:2025年将推出移动端APP 在短视频创作门槛不断降低、AI生成内容(AIGC)席卷社交平台的今天,一个技术问题正变得愈发尖锐:如何让用户在手机上也能完成高质量的人脸替换,而不必依赖…

张小明 2026/1/4 8:29:57 网站建设

丹阳做公司网站的苏州艺术家网站建设

对于一颗MEMS微振镜而言,通过AEC-Q100认证不只是获得一张“车规”标签,而是完成了一次从设计哲学、制造工艺到质量管理的系统性重塑,其严苛程度远超一般消费电子。为了让您清晰了解MEMS微振镜通过车规认证的全貌与难点,以下表格总…

张小明 2026/1/4 7:26:24 网站建设