CNN经典论文研读之VGG网络及其tensorflow实现-神经网络-技术-爱吧机器人网

CNN经典论文研读之VGG网络及其tensorflow实现

2018-08-17 数据科学家养成记浏览量：

在前两期的论文研读中，笔者和大家一起学习了 LeNet-5 和 AlexNet 这两个经典的卷积神经网络结构和基本实现方式。今天我们继续 CNN 经典论文研读之路——VGGNet。VGGNet 是牛津大学计算机视觉组（Visual Geometry Group）和谷歌 DeepMind 一起研究出来的深度卷积神经网络，因而冠名为 VGG。在2014年的 ILSVRC 中取得了第二名的成绩，可能你会问这么厉害的网络为什么不是第一名，因为当年实际提交 VGG 版本时作者并未作进一步的优化，而当年的第一名则是我们后面要继续研读的 Google Inception Net。

相较于之前的 LeNet-5 和 AlexNet，VGGNet 结构中大量使用 3x3 的卷积核和 2x2 的池化核，首次将卷积神经网络的卷积深度推向更深，最为典型的 VGGNet 是 VGG16 和 VGG19，其中的 16 的含义即网络中包含16个卷积层和全连接层， 19即即网络中包含19个卷积层和全连接层。VGGNet 的网络虽然开始加深但其结构并不复杂，但作者的实践却证明了卷积网络深度的重要性。深度卷积网络能够提取图像低层次、中层次和高层次的特征，因而网络结构需要的一定的深度来提取图像不同层次的特征。

VGG的网络结构

在论文中，作者使用了 A-E 五个不同深度水平的卷积网络进行试验，从A到E网络深度不断加深：

各结构网络所含训练参数：

其中 D 和 E 即我们常说的 VGG16 和 VGG19。可以看到 VGG16 网络需要训练的参数数量达到了 1.38 亿个，这个数量是巨大的。我们以 VGG16 为例简单探究一下它的网络结构。
VGG16 各层的结构和参数如下：
C1-1层是个卷积层，其输入输出结构如下：
输入： 224 x 224 x 3 滤波器大小： 3 x 3 x 3 滤波器个数：64
输出： 224 x 224 x 64
C1-2层是个卷积层，其输入输出结构如下：
输入： 224 x 224 x 3 滤波器大小： 3 x 3 x 3 滤波器个数：64
输出： 224 x 224 x 64
P1层是C1-2后面的池化层，其输入输出结构如下：
输入： 224 x 224 x 64 滤波器大小： 2 x 2 滤波器个数：64
输出： 112 x 112 x 64
C2-1层是个卷积层，其输入输出结构如下：
输入： 112 x 112 x 64 滤波器大小： 3 x 3 x 64 滤波器个数：128
输出： 112 x 112 x 128
C2-2层是个卷积层，其输入输出结构如下：
输入： 112 x 112 x 64  滤波器大小： 3 x 3 x 64 滤波器个数：128
输出： 112 x 112 x 128
P2层是C2-2后面的池化层，其输入输出结构如下：
输入： 112 x 112 x 128 滤波器大小： 2 x 2 滤波器个数：128
输出： 56 x 56 x 128

C3-1层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 128  滤波器大小： 3 x 3 x 128 滤波器个数：256
输出： 56 x 56 x 256
C3-2层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：256
输出： 56 x 56 x 256
C3-3层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：256
输出： 56 x 56 x 256
P3层是C3-3后面的池化层，其输入输出结构如下：
输入： 56 x 56 x 256 滤波器大小： 2 x 2 滤波器个数：256
输出： 28 x 28 x 256
C4-1层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
C4-2层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 512  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
C4-3层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 512  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
P4层是C4-3后面的池化层，其输入输出结构如下：
输入： 28 x 28 x 512 滤波器大小： 2 x 2 滤波器个数：512
输出： 14 x 14 x 512

C5-1层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
C5-2层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
C5-3层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
P5层是C5-3后面的池化层，其输入输出结构如下：
输入： 14 x 14 x 512 滤波器大小： 2 x 2 滤波器个数：512
输出： 7 x 7 x 512
F6层是个全连接层，其输入输出结构如下：
输入：4096
输出：4096
F7层是个全连接层，其输入输出结构如下：
输入：4096
输出：4096
F8层也是个全连接层，即输出层，其输入输出结构如下：
输入：4096
输出：1000
大致过程如 NG 老师的演示图：

从上述的 VGG 结构分析中，我们可以看到这种网络结构非常规整，2-2-3-3-3的卷积结构也非常利于编程实现。卷积层的滤波器数量的变化也存在明显的规律，由64到128再到256和512，每一次卷积都是像素成规律的减少和通道数成规律的增加。

VGG16 的简单实现

原本自己利用 Tensoflow 简单写了个 VGG16 的网络结构，但去谷歌一搜发现别人的代码写的实在太好了，以至于这里就不用自己代码展示 VGG16 了。编写的思路无非就是定义卷积过程、池化过程和全连接过程，然后将其封装到 VGG16 的模型函数中去，其中注意一些编写细节即可。
笔者自己写的部分代码截图：

GitHub 上大佬的开源实现：

https://gist.github.com/ksimonyan/211839e770f7b538e2d8#file-readme-md

参考资料：
https://www.coursera.org/learn/machine-learning
https://www.deeplearning.ai/
https://gist.github.com/ksimonyan/211839e770f7b538e2d8#file-readme-md
黄文坚 tensorflow实战

精选推荐

这些人型机器人是如此真实，你的肉眼几乎无法区分

[2017-09-03] 我们生活在一个区分现实与幻想变得越来越困难的世界。由于机器人技术的进步，创造人工的人类正在逐渐接近完美的最终目标。我们现在看到的机器人不再只是一块发光二极管，......

助力卷积神经网络时空特征学习史上最大行人重识别视频数据集被提出

[2017-12-25] 本文提出了一个大型的、长序列的、用于行人重识别的视频数据集，简称LVreID。与现有的同类数据集相比，该数据集具有以下特点：1）长序列：平均每段视频序列长为200帧，包含丰......

一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04] Context是指用来解释一段给定文本或语句的来源框架，我们可以翻译为上下文或语境。维基百科将context定义为：*在符号学、语言学、社会学和 ...

MIT最新“人机”互连系统让双腿机器人复制人体技能

[2019-11-01] MIT的小爱马仕想借用你的大脑，图片来自: João Ramos爱吧机器人网消息，麻省理工学院（MIT）的研究人员展示了一种新型遥操作系 ...

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

智能机器人困惑的时候知道该问什么问题

[2017-03-20] 照片：Nick Dentamaro 布朗大学上周，我们提到了麻省理工学院的一些研究，即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

研究人员融合人类与AI的创造力显著提高了深度学习的表现

[2019-10-12] 由加拿大人工智能领域研究主席、滑铁卢大学系统设计工程教授Alexander Wong领导的一个团队开发了一种新型紧凑型神经网络家族，可以在智能 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人（巨型机甲）

[2017-03-21] 近日，亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想，他控制了一个巨大的机甲机器人。据国外媒体Verge报道，前天（3月19日），贝 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

用中文传话游戏理解RNN

[2018-05-31] 循环神经网络（RNN）是人工神经网络中非常流行的一个版本，其可以很好地处理序列数据类型。该数据类型指的是将一组数据点以特定顺序排列，从而使相关的数据点一个挨着一个，具......

深度神经网络会产生人这样的智能吗？

[2016-11-20] 深度学习在近年的进展又一次点燃了各界对人工神经网络的热情。这一技术在图像识别、语音识别、棋类游戏等领域的成效出人意料，而且 ...

Hopfield神经网络模型

[2016-11-20] Hopfield网络是神经网络发展历史上的一个重要的里程碑。Hopfield 神经网络是1982年美国物理学家J Hopfield首先提出来的，属于 ...

神经网络和模糊逻辑的工作流

[2016-11-20] 行业观察神经网络和模糊逻辑的工作流 null 来源：神州数码erp　发布时间： 2009-10-14 9:06:01 关键词：工作流,协同,B2B,OA 　以下 ...

粒子群算法简介

[2016-11-20] 优化问题是工业设计中经常遇到的问题,许多问题最后都可以归结为优化问题为了解决各种各样的优化问题,人们提出了许多优 ...