本文是一篇利用含有可解释卷积核的多尺度卷积神经网络(DehazeNet)进行图像去雾的paper: DehazeNet: An End-to-End System for Single Image Haze Removal的笔记
之前也有一片利用多尺度CNN解决去雾的文章的笔记,见我之前的博客Single Image Dehazing via Multi-scale Convolutional Neural Networks
介绍
图像去雾在我的之前的博客中已经介绍过了,就不在多说.要说明的是,受到神经网络成功的影响,目前对用CNN获得透射图是一个很好的方向.
(当然,很多关于具体去雾的细节没有写,这个原因在于不同文章的主要trick不一样,等到读到相应的文章相应的trick在记录下来是个很好的办法.)
这篇文章所用的DehazeNet就是用CNN估计透射率的,其不同之处在于和传统的去去雾方法是有交叉的.
核心
传统的有代表性的先验
这里文章先介绍了一下传统方法的一些经典先验(prior),也就是人工特征:
- 暗通道先验(Dark Channel Prior, DCP)
- 最大对比度(Maximum Contrast, MC)
- 颜色耗散(Color Attenuation, CAP)
- 色调差异(Hue Disparity, HD)
以上人工特征都是基于图像统计或者物理观察得到的,之所以提到这些是因为DeHazeNet与这些先验是存在联系的.
DeHazeNet的提出
文章称这是一个”End-to-End”的系统,主要是可以构建从有雾图像到透射图的直接映射(和之前那篇在目的上基本差不多).
网络结构
整体网络见下:
- 整体结构
从图中可以看出,这个CNN其实层数不多:第一层的特征提取,第二层的多尺度映射.第三层池化层,最后一层是激活单元.不得不说很巧,用一个很小的网络就完成了很好的图像处理 - 精细结构
DeHazeNet创新的地方在于:- 创造性的把用在其他网络上面的Maxout层移植了过来,用来提取特征.而一般的做法是如果感觉一层提取特征不够有效的话就再加几层通过增加网络的深度来获取更高层的特征;但是DeHazeNet用Maxout层完成这个事情,虽然本质上来说Maxout也是一个简化的CNN,不过总归是有想法的
- 为了增强网络的鲁棒性,换言之为了应用图像的某些空间操作不变性质,网络选择了用三类卷积核的平均作为过渡,这样做的好处是可以处理一些传统方法处理不了的情况(后面会讲)
- 在网络最后的激活单元,为了防止网络遇到收敛困难和便于训练网络,最后采取了双边约束的BReLU激活函数,而不用ReLU,估计是训练过程中发现的问题然后改进的trick
DeHazeNet和传统特征的联系
作为文章的一个特点,DeHazeNet是和上面的几个先验有联系的,作者证明了卷积+Maxout等价于传统的特征提取;同时文章告诉我们,当卷积核是反向(Opposite)滤波器,通道的最大等价于通道的最小值,等价于暗通道先验(DCP);当卷积核是环形(Round)滤波器,等价于对比度提取,等价于最大对比度(MC);当卷积核同时包含反向(Opposite)滤波器和全通(All-pass)滤波器,等价于RGB到HSV颜色空间转换,即等价于颜色耗散先验(CAP)和色调差异先验(HD).因此原文中的卷积核选择的数量是4个.
后续工作
- 后面文章首先解释了为什么第一层卷积核只有4个:原因是他们尝试了很多其他结构发现都不如这个好
- 第二个事情是为什么要用多尺度卷积核:原因是这样可以利用鲁棒性来进行含有白色物体的图像的去雾.前面的传统方法的缺陷就在于他们面对含有白色物体的图片去雾效果就很差了,二DeHazeNet可以利用不同尺寸的卷积核的平均来处理这个问题
- 文章比较了自己和其他方法在MSE上面还有透射图的回归程度的误差;另外也比较了使用不同激活函数的差别
总结
这篇文献利用MsCNN进行了透射图的生成进而解决图像去雾问题,同时发现了特征图和传统物理先验之间存在的关系.有点有这么几个:
- 是利用CNN做去雾的几个有限尝试之一
- 效果很好,尤其是可以解决有天空或者有白色物体的图片的去雾
- 将神经网络与传统的解决的方法关联起来,这个很新颖,使问题的解决不会显得很突兀
- 网络很精巧,一个短短三层的神经网络就很好的解决了问题,这告诉我们不一定很深的网络才能解决问题
当然,缺点我认为在这样几个地方:
- 这个网络也许可以更深一点.文章虽然说改变每层卷积核数量效果不好,但是这不代表加深层数之后效果也不好,而作者显然没有进行尝试:要么是当时对深层网络没信心,要么是条件不允许.
- 上面的限制导致文章目前找到了4个关于卷积核到物理先验的映射,但是这样容易给别人引起误导,实际上我认为不可能只会有4个..更高层的特征应该我们还没发现,也许这些可能代表着其他先验.当然也有可能本身就不一定能和物理特征关联起来
- 这个网络同样也是通过求透射率来复原图像,人眼识别的时候不一定会这样做(不知道),也许存在一步到位的办法
这篇文章还是很经典的,很有学习价值的,我后面的思路有一些就是通过它启发的