技术分享会：CNN卷积神经网络

摄星智能 2021-08-16 14:03 抢发第一评

8月12日晚7:30，摄星智能第三次技术分享会，星衍研究院CV组图像处理算法工程师张连海，分享其对CNN（卷积神经网络）的感悟。

负责图像算法处理相关工作的张连海，分享其经验时强调学习要勤思考多问为什么，并以函数为切入点，通过函数的起源论述函数为何是多对一而非一对多。由于现场气氛相对严肃，张连海以函数的起源为引先后延伸出“决定论”，以及芝诺的乌龟、拉普拉斯兽、麦克斯韦妖、薛定谔的猫等物理学四大神兽，从而活跃现场的气氛。并通过抛骰子与蒸馒头的比喻，引入卷积的数学定义，结合图像处理中的滤波操作引出了CNN中的卷积。

（技术分享会现场）

为了让参会人员能更深入的理解CNN，张连海首先补充了线性回归和梯度下降的相关知识。表示梯度下降是常用的优化算法，而梯度下降在深度学习领域又有多种不同的形式，随后结合他的理解，用思维导图的方式论述了多种不同形式梯度下降之间的深层次关系。

对各种算法之间的深层次联系拥有一定的理解后，即可得知，哪种优化梯度下降的速度更快、哪种波动比较大、哪种容易陷入局部最优解、哪种容易陷入鞍点。随后以鞍点为引，论述了马鞍面的相关概念。（马鞍面又叫双曲抛物面，是一种形状类似于马鞍的曲面）并抛出了三角形的内角是否等于180°的问题。对于这一问题许多人表示，上学期间教师三令五申的表示三角形的内角和等于180°。

他解释初中到高中学的几何是欧氏几何，在欧氏几何体系下，三角形的内角和等于180°。而在非欧几何（罗氏几何与黎曼几何）体系下，三角形的内角和不等于180°。例如马鞍面证实了罗氏几何中三角形内角和小于180°的观点，并强调爱因斯坦相对论同样是以黎曼几何为基础构建。但是由于时间原因，三种几何的概念以及梯度下降的内容并未进一步展开。

讲解神经网络的发展时表示，早期的“感知器”算法模型，是模拟人的神经元的一种研究单个训练样本的二元分类器，是SVM和人工神经网络(ANN, Artificial Neural Networks)的基础。一个感知器接受几个输入，并产生一个二进制的输出。

感知器可以看作是根据权重来做出决定的一个设备/单元，给定一个比较适合的权重以及阈值后，感知器能够对数据进行判断的/分类预测。并以是否换工作为例，依次回答待遇是否提高、经济压力、新工作稳定性等问题。假如新工作，待遇不会提高、来自家庭的压力较大、新工作还不稳定。综合各问题的0/1输出后，最终输出oupput为1（即：不换）的结论。

通过例子生动描述感知器的判断逻辑之后，他表示多个感知器按一定的规律组合，就会形成多层感知机即人工神经网络。在感知器神经网络中，单个数据的微小变化，感知器0/1输出就会出现不变或输出完全翻转的情况，当翻转出现时后续环节的感知器可能发生复杂且无法预料的变化，进而导致神经网络难以得到最终的逼近结果。

在对多层感知机的原理及缺点加以论述之后，开始了S形感知器的讲解。S形感知器引入了非线性函数的激活函数，进而获得了网络非线性建模能力，深度神经网络更是具备分层的非线性映射学习能力，为了更形象的说明引入激活函数的必要性，通过构建神经网络结构动态图视频演示了引入激活函数前后的差异。

未引入激活函数的效果如上图，如图可知图片右侧的颜色是通过直线（即线性）划分，并未有效区分两种颜色的小球，直观的展示了多层感知机的缺陷。

引入激活函数的效果如上图，如图可知引入激活函数后，颜色分界更加明显，实现了两种颜色小球的区分，而这种能力就是激活函数带来的非线性的拟合能力。

多层S形感知器叠加而成的神经网络，拥有比多层感知器更高的准确率。多层神经网络所叠加的深度神经网络（DNN），准确性还可以进一步提升，但是各级数据紧密相连的深度神经网络随着层次与输入数据增加，深度神经网络的复杂度会几何式增长，计算量巨大，同时在DNN的求解中有可能存在两个问题：梯度消失和梯度爆炸。

此刻张连海正式引出了卷积神经网络(Convolutional Neural Networks，CNN)。CNN可以有效的降低反馈神经网络(传统神经网络)的复杂性，常见的CNN结构有LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等，LVSVRC2015冠军ResNet是AlexNet的20多倍，是VGGNet的8倍。从这些结构来讲CNN发展方向之一是层次的增加，通过这种方式可以利用增加的非线性得出目标函数的近似结构，进而得出更好的特征表达。

CNN具备比较多的层级结构，常见的CNN结构有：

1. Input Layer（数据输入层）：对输入的数据需要进行预处理，如调整输入图片的大小。

2. CONV Layer（卷积层）：卷积层是CNN网络的核心部分。卷积层的核心思想是：局部感知。局部感知与人脑的图片识别过程类似，局部的像素联系比较紧密，与其较远的像素相关性比较弱。所以每个神经元并无必要感知全局图像，每个神经元仅需对局部进行感知，而在更高层次对局部的信息进行综合操作结合得出全局信息。局部感知的实现过程是基于卷积核操作，而卷积操作又是共享参数的，因此CNN网络相对于DNN，在更有效提取特征的同时，还能大大降低参数和运算量。

3. ReLU Layer（激活函数层）：ReLU是一种激活函数，CNN网络使用ReLU作为激活函数层的代表。正如论述“S形感知器”时提及的激活函数可保证网络的非线性的拟合能力。

4. Pooling Layer（池化层）：池化层通过逐步减小表征的空间尺寸来减小参数量和网络中的计算。池化层在每个特征图上独立操作，使用池化层可以压缩数据和参数的量，减小过拟合。在池化层中，进行压缩减少特征数量的时候一般采用两种策略：第一种策略为Max Pooling（最大池化）：取窗口区域的最大值，最大池化方式是实际用的相对较多的池化方式。第二种策略为Average Pooling（平均池化）：即对窗口里的数据取平均值。

5. FC Layer（全连接层）：全连接层为通常CNN卷积神经网络的最后一层，全连接层中的神经元连接着之前层次的所有激活输出，会对所有局部判断进行汇总分析，进而判断图像所表达的含义。

6. BN Layer（Batch Normalization，批量归一化层）：部分CNN网络中是没有这一层，批量归一层通常被用在激活函数层之前，能够保证输出值的规律性（例如高斯分布），以便于在通过梯度下降方法，从而更有效的优化模型权重。

CNN网络的相关概念环节后为问答环节，张连海与杨录一同对参会人员提出的问题一一论述与讲解……在不知不觉中，摄星智能第三次技术分享会落下了帷幕。分享会结束之后，参会人员热烈讨论卷积神经网络，纷纷认为在本次技术分享会中受益匪浅，期待星衍研究院的下一次技术分享。

（讨论中的参会人员）

声明：该文章版权归原作者所有，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系。

您阅读这篇文章花了0秒

转发这篇文章只需要1秒钟哦