目录
1.从全连接到卷积
分类猫和狗的图片
- 使用一个相机采集图片(12000=12M像素)
- RGB图片有36000=36M像素
- 使用100大小的单隐藏层MLP,模型有36亿=3.6B元素
- 远多于世界上所有猫和狗总数
回顾:单隐藏测MLP(多层感知机=全连接层)
- 根据36M像素通过100的全连接层 参数就变为3.6B = 14GB
- 这样是太大的,不可能的
假设我们想从一张图片中找到某个物体。 合理的假设是:无论哪种方法找到这个物体,都应该和物体的位置无关。 理想情况下,我们的系统应该能够利用常识:猪通常不在天上飞,飞机通常不在水里游泳。
总结上面在图片中目标定位有两个原则
- 平移不变性(translation invariance):不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。
- 局部性(locality):神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这