[paper]End-to-End Training of Hybrid CNN-CRF Models for Stereo

本文提出了一种结合卷积神经网络(CNN)和条件随机场(CRF)的混合模型用于立体匹配。使用浅层CNN进行特征计算,并通过Correlation层计算相似度。该模型无需后处理,在基准测试中表现出色。CRF模型的Unary损失项由CNN计算,Pairwise损失项通过对比敏感模型或Pair-wise CNN计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pre-learning

  1. 隐马尔科夫模型
    Y={y1,y2,...,yn} 是一组随机变量, X={x1,x2,...,xn} 是其观测变量,我们假设Y具有马尔科夫性,则X,Y的联合概率为
    P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)i=2nP(yi|yi1)P(xi|yi)

    为确定一个Hidden Markov Model,需要确定以下三组参数 [A,B,π]
    • 状态转移概率 A=[aij]NxN 其中
      aij=P(yt+1=sj|yt=si),1i,jN

      表示t时刻状态为 si , t+1时刻状态为 sj 的概率
    • 输出观测概率 B
    • 初始状态概率 π
  2. 马尔科夫随机场
    • 团,极大团
    • 在马尔科夫随机场中,多个变量之间的联合概率能基于团分解为多个因子的乘积,每个因子仅与一个团相关。
      P(X)=1ZQCψQ(XQ)

      其中 X={x1,x2,...,xn} 是n个随机变量,其所有团构成集合C,与团 QC 对应的变量集合记为 XQ
    • -
  3. 条件随机场
    马尔科夫随机场希望预测的是联合概率 P(X,Y,O)
    而条件随机场希望预测条件概率 P(Y|X,O)
    马尔科夫随机场是生成模型,而条件随机场是判别模型。
  4. 4.

Notation_paper

Contribution
  1. Proposed hybrid CNN+CRF model for stereo match
  2. Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
  3. Using only shallow CNN and without post-processing, the model performs very well in benchmark.

model architecture

这是我们用来做stere match的模型结构。首先对左图中每个像素,我们用UnaryCNN 对其对应的image pairs (I0,I1) 【这里是整张图】进行特征计算,然后用一个correlation层进行特征比较(相似度/cost计算),由此产生cost volume 作为CRF模型的unary(一元)损失项。而CRF的成对项(pairwise cost)损失则通过Contrast Sensitive model 或者Pair-wise CNN 进行计算。

Unary CNN

这里用3-7层,每层100个filters的CNN网络,对输入图片进行特征计算,其中第一层的filter size为3x3,其它层为2x2。同时我们用tanh作为激活函数,而不是用RELU,一方面tanh比较好训练,不需要插入复杂的BN层,其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 证明tanh比RELU更适合Patch Match的任务。

Correlation

这一步,我们通过以下公式计算分别从左右图中获取的特征 ϕ0,ϕ1 的cross-correlation:

pi(k)=e<ϕ0i,ϕ1i+k>je<ϕ0i,ϕ1i+j>iΩ,k
{#eq: (3)}

其中 I0,I1 是左右整图, iΩ=domI0 (dom = domain of function) 代表图片 I0 , 则 ϕ0i,ϕ1i+k 分别是左图i像素和右图i+k像素对应的feature. xi={0...L1} disparity的可能取值,也是Stereo match问题中,像素i对应的label。
这里的 pi(k) 是由一个softmax 分类器计算得到,可以用作模型认为i属于label k的概率/置信度,或者说 I0 中以i为中心的一个window和 I1 中以i+k为中心的window的匹配度。

CRF

CRF model:

minx( f(x):=ifi(xi)+i,jεfi,j(xi,xj) )

其中, 是所有CRF图模型中的节点,即所有像素的集合【和 Ω 的区别??】, 是所有边的集合, = 标签所在的空间(space of labelings)
unary 损失项 fi: 为我们之前计算的匹配度的取负 fi(k)=pi(k) .
pair-wise 损失项则为
fi,j(xi,xj)=ωijρ(|xixj|,P1,P2)  

其中, ωij 可以人为设定(如下式)或者用学习得到的pair-wise CNN代替。
ωij=exp(α|IiIj|β), ij

ρ(|xixj|)=0,P1,P2,if |xixj|=0,if |xixj|=1,otherwise

P1 用来惩罚平滑表面的微小的视差值变化, P2 用来惩罚视差不连续区域较大的视差变化。 我们只用4-connected grid 上的pairwise-interaction,

Inference
直接求解上面的CRF模型是非常困难的,但是我们可以用一些算法求近似解。

Let f denote the concatenated cost vector of fi and fi,j . Then we decompose f into horizontal and vertical chains: f=f1+f2 , where f1 includes all horizontal edges and all unary terms, f2 all vertical edges and zeros unary terms.
The DUAL_MM of (#eq:3)

maxλ(D(λ):=minx1(f1+λ)(x1)+minx2(f2λ)(x2))

### 关于Cadence 17.2版本中Pspice的教程 #### 安装指南 对于希望安装Cadence PSpice 17.2版本的用户来说,需注意几个关键步骤。当点击安装Cadence软件时,应指定添加安装包路径以及设定不含空格和汉字字符的安装路径[^1]。完成基础软件部署后,还需通过加入Hotfix文件的方式安装必要的更新补丁。最后,在一切设置妥当之后,务必记得重启计算机以使更改生效。 #### 绘制原理图 一旦上述准备工作就绪,则可以在重新启动后的环境中利用OrCAD Capture CIS工具着手绘制所需的电路原理图。此阶段涉及的具体操作包括但不限于元件的选择、放置及其间的连接构建等动作。 #### 创建自定义电路模块 针对那些想要进一步定制化工作流或者提高效率的技术人员而言,掌握如何基于个人需求创建专属的电路组件显得尤为重要。在Cadence PSpice环境下,这意呸着能够把一系列预设好的子电路打包成独立单元以便重复调用或分享给团队成员。具体实现过程涵盖了从草稿构思到最后成品导出的一系列环节[^2]。 #### 设计流程概览 在整个电子设计自动化领域里,由概念验证直至最终产品成型往往遵循一套既定的工作模式。对于采用Cadence平台开展工作的工程师们来讲,这套方法论通常始于案例研究进而过渡至详尽的设计实施;期间会经历诸如原理图表绘、错误检测修正、性能测试评估等多个重要节点直到所有目标达成为止[^3]。 #### 原理图设计概述 深入探讨一下项目结构的话就会发现,“Design Resources”部分主要负责存储整个项目的配置信息。“Outputs”则用于汇总各类中间产物或是终期报告文档。“Referenced Projects”允许设计师轻松关联其他辅助性的外部资料库从而促进跨部门协作交流活动顺利展开。值得注意的是如果当前任务涉及到仿真的话那么这里还会额外显示出专门用来支持此类作业的相关条目——即所谓的“PSpice Resources”。 ```python # Python代码示例仅作为装饰用途,并不实际参与解释说明逻辑 def example_function(): pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值