深度学习～卷积神经网络(CNN)概述

最新推荐文章于 2024-10-14 18:31:39 发布

天狼啸月1990

最新推荐文章于 2024-10-14 18:31:39 发布

阅读量2.7k 深度学习～Deep Learning 文章标签：神经网络卷积神经网络

本文链接：https://blog.csdn.net/qq_33419476/article/details/107077469

深度学习～Deep Learning 专栏收录该内容

17 篇文章 19 订阅

从结构的角度来看，卷积神经网络起初只能处理黑白或灰度图像，变种模型通过把红、绿、蓝3个颜色通道作为一个整体输入，已经直接处理彩色图像，有些还可以直接处理多帧图像甚至连续图像。同时，变种模型可以使用多个相邻的卷积层或多个相邻的池化层，也可以使用重叠池化和最大池化，还可以使用修正线性单元、渗漏修正线性单元(Leaky ReLu, LReLU)、参数修正线性单元(Parametric ReLU, PReLU)或指数线性单元(Exponential Linear Unit, ELU)取代sigmoid单元作为激活函数，也可以在输出层采用软最大函数softmax替代sigmoid函数产生伪概率。
从卷积核的角度看，卷积神经网络可以通过采用非常小的卷积核，比如1X1和3X3大小，被加深成一个更深的网络，比如16层或19层的VGGNet。卷积神经网络通过使用小卷积核在保持总体计算代价的条件下增加深度和宽度。并与摄入模块(inception module)进行集成，可以用来建立谷歌网络(GoogLeNet)。此外，卷积神经网络通过使用微型多层感知器代替卷积核，还可以被扩展成更复杂的网络，比如，网中网(Network In Network, NIN)
从区域的角度看，区域卷积神经网络(Region-based CNN, R-CNN)可以用来抽取区域卷积特征，并通过区域提议进行更加鲁棒的定位和分类。空间金字塔池化模型(Spatial Pyramid Pooling Net, SPPNet)可以克服其输入大小固定的缺点，办法是在最后一个卷积层和第一个全连接层之间插入一个空间金字塔池化层。为了获得实时性能极快的对象检测速度，可以把输入图像划分成许多网格，并通过单个网络构造的整体检测管道，直接从整幅图像预测对象的边框和类概率建立YOLO模型，只需看一遍图像就能知道对象的位置和类别。
从优化角度看，许多技术可以用来训练卷积神经网络，比如dropout丢弃输出，dropconnect丢弃连接，batch normalization块归一化。丢弃输出是一种减小过拟合的正则化技术，而丢弃连接是dropout的推广。块归一化(或批量归一化)则是按迷你块大小对某些层的输入进行归一化处理的方法。此外，残差网络(Redidual Network，ResNet)采用跨越2～3层的连接策略也是一种重要的优化技术，可以用来克服极深网络的训练困难。
从演变的角度看，现在卷积网络以LeNet为雏形，在经过AlexNet的历史突破之后，演化生成了许多不同的网络模型，主要包括：加深模型、跨连模型、应变模型、区域模型、分割模型、特殊模型和强化模型等。加深模型的代表是VGGNet-16、VGGNet-19和GoogLeNet；跨连模型的代表是HighwayNet、ResNet和DenseNet；应变模型的代表是SPPNet；区域模型的代表是R-CNN、Fast R-CNN、Faster R-CNN、YOLO和SSD；分割模型的代表是FCN、PSPNet和Mask R-CNN；特殊模型的代表是SiameseNet、SqueezeNet、DCGAN、NIN；强化模型的代表是DQN和AlphaGo。

1.2 卷积神经网络的应用和影响

在手写字符识别方面，MNIST数据集
在图像分类方面，ILSVRC-2012。AlexNet使用了dropout优化技术和ReLU激活函数。
在人脸验证方面，
在交通标志识别方面，GTSRB
在视频游戏方面，深度Q-网络智能体的机器玩家。
在视频分类方面，使用独立自空间分析(Independent Subspace Analysis, ISA)
在语音识别方面，TIMIT音素识别任务
在机器翻译方面，WMT
在围棋程序方面，AlphaGo利用深层网络和蒙特卡罗树搜索(Monte Carlo tree search)

1.3 卷积神经网络的缺陷和视图

1.3.1 缺陷：可能错分

对抗样本。对抗样本是一种含有人类不可感知的微小扰动的非随机图像。
欺骗图像。有些人类根本不可能识别的噪声图像，卷积神经网络以高于99%的置信度识别它为一个熟知的对象(比如数字)

1.3.2 解决方法：视图

采用可视化技术来分析其数据表达并解释其工作机理。常用的可视化技术，比如逆变换(inversion)、激活最大化(activatioin maximization)和卡通化(caricaturazation)，是以自然原像概念为基础的。

自然原像就是那些看起来具有显著自然特征的图像，就是平常普通照片。通常，一幅图像经过卷积神经网络提取特征后，随着层次的深入，可视化结果会变得越来越模糊和抽象。

卷积神经网络（Convolutional Neural Network，简化为ConvNet或CNN）是一种前馈神经网络，其中信息从输入到卷积运算符单向流动到输出[93]。

1.4 卷积神经网络的平台和工具

为了在解决各种实际问题中有效地利用深度学习模型，有很多开发平台和工具。

Theano, TensorFlow, Caffe, Caffe2, CNTK, MXNet, Torch, Deeplearning4J, keras

reference:

H. Cecotti and A. Graser, “Convolutional neural networks for p300 detection with application to brain-computer interfaces,”IEEE transactions on pattern analysis and machine intelligence, vol. 33, no. 3, pp. 433–445, 2010.
深度学习：卷积神经网络从入门到精通。李玉鑑，张婷

如图7所示，

这种卷积算子在CNN中至少包括三个堆叠层，包括卷积层convolutional layer，池化层pooling layer和完全连接层fully connected layer。卷积层对张量进行卷积，池化层简化了基础计算以减少数据量。完全连接的层将上一层中的每个神经元连接到一个新层，类似于传统的多层感知器神经网络。
具有堆叠层的CNN的本质是将输入数据减少到易于识别的地层，且损失最小，并且可以通过应用CNN捕获EEG模式的独特空间依赖性。例如，CNN已被用于从癫痫皮层内数据中自动提取信号特征[22]，并执行自动诊断以取代由专家进行的耗时的视力检查程序[23]。