Neural Blind Deconvolution Using Deep Priors
本文是2020年CVPR会议的开源论文《Neural Blind Deconvolution Using Deep Priors》,作者为Ren等人,提出了名为 SelfDeblur的神经盲解卷积方法,旨在解决图像去模糊( image deblurring)这一经典低层次视觉问题。
1. 研究目标与实际问题
1.1 研究目标
论文的目标是提出一种基于深度学习的盲解卷积(blind deconvolution)方法,用于从模糊图像中同时估计模糊核(blur kernel)和潜在清晰图像(latent clean image)。盲解卷积的数学模型为:
y = k ⊗ x + n \mathbf{y} = \mathbf{k} \otimes \mathbf{x} + \mathbf{n} y=k⊗x+n
其中, y \mathbf{y} y 是模糊图像, k \mathbf{k} k 是模糊核, x \mathbf{x} x 是潜在清晰图像, n \mathbf{n} n 是加性白高斯噪声(additive white Gaussian noise, AWGN), ⊗ \otimes ⊗ 表示二维卷积运算。目标是从单一模糊图像 y \mathbf{y} y 中恢复 k \mathbf{k} k 和 x \mathbf{x} x。
1.2 实际问题
盲解卷积是一个经典的病态问题(ill-posed problem),因为模糊核和清晰图像均未知,解空间具有高度不确定性。实际中,相机抖动(camera shake)或运动模糊会导致图像质量下降,影响摄影、监控、自动驾驶等领域的应用。传统方法依赖手工设计的先验(handcrafted priors),如总变差(total variation, TV)正则化,但这些先验不足以捕捉复杂图像和模糊核的特性,且容易陷入平凡解(trivial solution,如delta核)。
1.3 产业意义
盲解卷积在多个领域具有重要意义:
- 摄影与消费电子:提升智能手机或相机在低光或运动场景下的成像质量。
- 自动驾驶:处理因车辆运动或环境因素导致的模糊图像,提高感知系统可靠性。
- 医学影像:改善CT或MRI图像的清晰度,辅助诊断。
- 安防监控:增强模糊监控视频的细节,助力目标识别。
通过提出无需训练数据的“零样本”方法,SelfDeblur降低了对大规模标注数据集的依赖,为实时、轻量化的去模糊算法提供了可能性,具有显著的产业化潜力。
2. 新思路、方法与模型
2.1 核心创新:SelfDeblur方法
论文提出了SelfDeblur,一种基于深度图像先验(Deep Image Prior, DIP)和全衔接网络(Fully-Connected Network, FCN)的神经盲解卷积方法,旨在解决传统最大后验概率(Maximum a Posteriori, MAP)架和深度学习方法的局限性。其创新点包括:
- 深度先验建模:使用生成网络 G x \mathcal{G}_x Gx(基于不对称自编码器,asymmetric Autoencoder)和 G k \mathcal{G}_k Gk(基于FCN)分别捕获清晰图像和模糊核的统计特性,取代传统手工先验。
- “零样本”自监督学习:无需预训练,仅利用单幅模糊图像进行优化,称为零样本自监督学习(zero-shot self-supervised learning),降低数据依赖。
- 无约束优化:通过网络设计(如SoftMax非线性和Sigmoid非线性)自动满足模糊核的非负和归一化约束,以及图像像素范围约束,简化优化过程。
- 联合优化:提出联合优化(joint optimization)策略,相较于传统交替优化(alternating optimization),更能避免陷入鞍点(saddle points)或平凡解。
2.2 数学公式与模型推导
2.2.1 传统MAP框架
传统盲解卷积基于MAP框架,优化目标为:
( k , x ) = arg max x , k Pr ( k , x ∣ y ) = arg max x , k Pr ( y ∣ k , x ) Pr ( x ) Pr ( k ) (2) (\mathbf{k}, \mathbf{x}) = \arg \max_{\mathbf{x}, \mathbf{k}} \operatorname{Pr}(\mathbf{k}, \mathbf{x} \mid \mathbf{y}) = \arg \max_{\mathbf{x}, \mathbf{k}} \operatorname{Pr}(\mathbf{y} \mid \mathbf{k}, \mathbf{x}) \operatorname{Pr}(\mathbf{x}) \operatorname{Pr}(\mathbf{k}) \tag{2} (k,x)=argx,kmaxPr(k,x∣y)=argx,kmaxPr(y∣k,x)Pr(x)Pr(k)(2)
其中, Pr ( y ∣ k , x ) \operatorname{Pr}(\mathbf{y} \mid \mathbf{k}, \mathbf{x}) Pr(y∣k,x) 是似然项, Pr ( x ) \operatorname{Pr}(\mathbf{x}) Pr(x) 和 Pr ( k ) \operatorname{Pr}(\mathbf{k}) Pr(k) 是清晰图像和模糊核的先验。等价的优化形式为:
( x , k ) = arg min ( x , k ) ∥ k ⊗ x − y ∥ 2 + λ ϕ ( x ) + τ φ ( k ) (\mathbf{x}, \mathbf{k}) = \arg \min_{(\mathbf{x}, \mathbf{k})} \|\mathbf{k} \otimes \mathbf{x} - \mathbf{y}\|^2 + \lambda \phi(\mathbf{x}) + \tau \varphi(\mathbf{k}) (x,k)=arg(x,k)min∥k⊗x−y∥2+λϕ(x)+