TISR第六届解决方案

CVPR 2025 研讨会上举办的 第六届热成像超分辨率(TISR)挑战赛(PBVS 2025) 的结果、数据集以及获奖团队所采用的技术方案。

挑战赛概况

  • 背景:热成像超分辨率(TISR)在安防、监控、自动驾驶和工业检测等领域具有关键应用价值 。该挑战赛自2020年起每年举办,旨在推动该领域的技术进步 。
  • 规模:2025年的比赛吸引了更多参与者,Track 1 有128支队伍报名,Track 2 有86支队伍报名 。
  • 趋势:相比2024年,今年的结果显示出显著的性能提升,且Transformer混合架构成为主流创新方向 。

数据集

沿用了2024年引入的 CIDIS (Cross-spectral Image Dataset for Image Super-resolution) 数据集。

包含1000对精确配准的热成像(Thermal)和高分辨率可见光(RGB)图像 。

使用Basler相机拍摄可见光,FLIR TAU2相机拍摄热成像 。

700对用于训练,200对用于验证,100对用于测试 。

要依据 PSNR(峰值信噪比) 和 SSIM(结构相似性) 来决定排名 。

Tracks1

描述

仅利用低分辨率的热成像输入,将其分辨率放大 8倍 (x8)

PSNR SSIM
AiMF-SR [70.02M] 28.09 0.8421
InVilab[21.6M] 28.49 0.8437
TongJi-SR[27.73] 28.52 0.8466

AiMF-SR 团队

架构:基于 HMANet (Hybrid Multi-Axis Aggregation Network),特别是使用了 HMA-Medium 变体 。

核心组件:利用残差混合 Transformer 块 (RHTBs) 来增强全局特征表示 。

训练策略:先在 ImageNet 上预训练 (x4),然后在 DF2K 和 Urban100 数据集上微调,最后使用比赛数据进行 x8 训练 。

损失函数:结合了 L1 Loss、FFT Loss(频域损失)和 SSIM Loss,权重分别为 1.0, 0.05, 0.05 。实验在配备 80 GB 显存的 NVIDIA A100 GPU 上进行,训练历时约三天,批大小为 16。

InVilab Uantwerp 团队

架构:结合了 SR-FormerHAT (Hybrid Attention Transformer),并提出了一种新颖的 热梯度空间注意力 (TGSA) 模块 。

创新点 (TGSA):使用 Sobel 滤波器计算局部热梯度,生成空间注意力图,引导模型关注热图像中的边缘和热点区域 。

数据增强:使用了非常广泛的数据增强,包括通过 RGB-to-IR 转换生成的合成红外图像

后处理:使用了自集成技术(对旋转后的图像预测结果取平均)。

训练使用了四块 NVIDIA A100 GPU,模型采用 PyTorch 语言编写,并结合了 BasicSR 和 xFormers。

TongJi-SR 团队 (Track 1 冠军)

基于 DRCT (Dense Residual Connected Transformer) 架构,利用 Swin Transformer 进行全局空间建模 。

策略:使用了多尺度监督 (Multi-scale supervision) 和基于组合的数据增强 。

损失函数:MSE Loss (权重 1.0) + SSIM Loss (权重 0.02) 。

验证:使用了 5折交叉验证 (5-fold cross validation) 来选择最佳模型 。

训练在 NVIDIA 4090 GPU 上使用 PyTorch 进行。


TISR第六届解决方案
https://lijianxiong.space/2026/20260106/
作者
LJX
发布于
2026年1月6日
许可协议