[paper]End-to-End Training of Hybrid CNN-CRF Models for Stereo

最新推荐文章于 2021-06-18 09:32:50 发布

zhwli

最新推荐文章于 2021-06-18 09:32:50 发布

阅读量365

点赞数

分类专栏： CRF Stereo 深度学习 cnn

本文链接：https://blog.csdn.net/zhiwei2coder/article/details/78634775

版权

深度学习同时被 3 个专栏收录

17 篇文章

订阅专栏

Stereo

10 篇文章

订阅专栏

cnn

7 篇文章

订阅专栏

本文提出了一种结合卷积神经网络（CNN）和条件随机场（CRF）的混合模型用于立体匹配。使用浅层CNN进行特征计算，并通过Correlation层计算相似度。该模型无需后处理，在基准测试中表现出色。CRF模型的Unary损失项由CNN计算，Pairwise损失项通过对比敏感模型或Pair-wise CNN计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pre-learning

隐马尔科夫模型
Y={y1,y2,...,yn} 是一组随机变量， X={x1,x2,...,xn} 是其观测变量，我们假设Y具有马尔科夫性，则X，Y的联合概率为

P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)∏i=2nP(yi|yi−1)P(xi|yi)

为确定一个Hidden Markov Model，需要确定以下三组参数 [A,B,π]
- 状态转移概率 $A = [a_{ij}]_{NxN}$ 其中 $a i j = P (y t + 1 = s j | y t = s i), 1 \leq i, j \leq N$ $a_{ij} = P(y_{t+1} = s_j | y_t = s_i), 1\le i, j \le N$
  表示t时刻状态为 $s_i$ , t+1时刻状态为 $s_j$ 的概率
- 输出观测概率 $B$
- 初始状态概率 $\pi$
马尔科夫随机场
- 团，极大团
- 在马尔科夫随机场中，多个变量之间的联合概率能基于团分解为多个因子的乘积，每个因子仅与一个团相关。
  $P (X) = 1 Z \prod Q \in C ψ Q (X Q)$ $P(X) = \dfrac{1}{Z}\prod_{Q \in C} \psi_Q(X_Q)$
  其中 $X = \{x_1, x_2,...,x_n\}$ 是n个随机变量，其所有团构成集合C，与团 $Q \in C$ 对应的变量集合记为 $X_Q$
- -
条件随机场
马尔科夫随机场希望预测的是联合概率 $P(X, Y, O)$
而条件随机场希望预测条件概率 $P(Y|X, O)$
马尔科夫随机场是生成模型，而条件随机场是判别模型。
4.

Notation_paper

Contribution

Proposed hybrid CNN+CRF model for stereo match
Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
Using only shallow CNN and without post-processing, the model performs very well in benchmark.

model architecture

这是我们用来做stere match的模型结构。首先对左图中每个像素，我们用UnaryCNN 对其对应的image pairs $(I_0, I_1)$ 【这里是整张图】进行特征计算，然后用一个correlation层进行特征比较（相似度/cost计算），由此产生cost volume 作为CRF模型的unary(一元)损失项。而CRF的成对项(pairwise cost)损失则通过Contrast Sensitive model 或者Pair-wise CNN 进行计算。

Unary CNN

这里用3-7层，每层100个filters的CNN网络，对输入图片进行特征计算，其中第一层的filter size为3x3，其它层为2x2。同时我们用tanh作为激活函数，而不是用RELU，一方面tanh比较好训练，不需要插入复杂的BN层，其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 证明tanh比RELU更适合Patch Match的任务。

Correlation

这一步，我们通过以下公式计算分别从左右图中获取的特征 $\phi^0, \phi^1$ 的cross-correlation：

p i (k) = e < ϕ 0 i , ϕ 1 i + k > \sum j \in  e < ϕ 0 i , ϕ 1 i + j > \forall i \in Ω, \forall k \in 

$p_i(k) = \dfrac{e^{<\phi_i^0, \phi_{i+k}^1>}}{\sum_{j\in \mathcal L}e^{<\phi_i^0, \phi_{i+j}^1>}} \forall i \in \Omega, \forall k \in \mathcal L$ {#eq: (3)}

其中 $I^0, I^1$ 是左右整图， $i \in \Omega = dom I^0$ （dom = domain of function) 代表图片 $I^0$ , 则 $\phi_i^0, \phi_{i+k}^1$ 分别是左图i像素和右图i+k像素对应的feature. $x_i \in \mathcal L = \{0... L-1\}$ disparity的可能取值，也是Stereo match问题中，像素i对应的label。
这里的 $p_i(k)$ 是由一个softmax 分类器计算得到，可以用作模型认为i属于label k的概率/置信度，或者说 $I^0$ 中以i为中心的一个window和 $I^1$ 中以i+k为中心的window的匹配度。

CRF

CRF model:

m i n x \in  (f (x) : = \sum i \in  f i (x i) + \sum i, j \in ε f i, j (x i, x j))

$min_{x\in \mathcal X}\bigl(\ f(x): = \sum_{i \in \mathcal V}f_i(x_i) + \sum_{i,j \in \varepsilon} f_{i, j} (x_i,x_j)\ \bigr)$
其中，

 $\mathcal V$ 是所有CRF图模型中的节点，即所有像素的集合【和

Ω $\Omega$ 的区别？？】，

 $\mathcal {E}$ 是所有边的集合，

= $\mathcal X= \mathcal L^{\mathcal V}$ 是 标签所在的空间（space of labelings）。
unary 损失项

fi:→ $f_i: \mathcal L \to \mathcal R$ 为我们之前计算的匹配度的取负

fi(k)=−pi(k) $f_i(k) = -p_i(k)$ .
pair-wise 损失项则为

f i, j (x i, x j) = ω i j ρ (| x i - x j |, P 1, P 2)

$f_{i, j} (x_i,x_j) = \omega_{ij} \rho(|x_i - x_j|, P_1, P_2)\ \$
其中，

ωij $\omega_{ij}$ 可以人为设定（如下式）或者用学习得到的pair-wise CNN代替。

ω i j = e x p (- α | I i - I j | β), \forall i j \in 

$\omega_{ij} = exp(- \alpha|I_i - I_j|^\beta), \ \forall ij \in \mathcal{E}$

ρ (| x i - x j |) = ⎧ ⎩ ⎨ ⎪ ⎪ 0, P 1, P 2, if | x i - x j | = 0, if | x i - x j | = 1, o t h e r w i s e

$\rho(|x_i - x_j|) = \begin{cases} 0, & \text{if $|x_i - x_j| = 0$}, \\ P_1, & \text{if $|x_i - x_j| = 1$}, \\ P_2, & \text otherwise \end{cases}$

P1 $P_1$ 用来惩罚平滑表面的微小的视差值变化，

P2 $P_2$ 用来惩罚视差不连续区域较大的视差变化。 我们只用4-connected grid 上的pairwise-interaction，

Inference
直接求解上面的CRF模型是非常困难的，但是我们可以用一些算法求近似解。

Let $f$ denote the concatenated cost vector of $f_i$ and $f_{i, j}$ . Then we decompose f into horizontal and vertical chains: $f = f^1 + f^2$ , where $f^1$ includes all horizontal edges and all unary terms, $f^2$ all vertical edges and zeros unary terms.
The DUAL_MM of (#eq:3)