我们建了个模型，搞定了 MNIST 数字识别任务

本文作者： AI研习社-译站

2018-07-09 10:19

导语：我们来给 MNIST 数字识别任务帮忙来了，别客气，叫我雷锋~

雷锋网(公众号：雷锋网)按：本文为雷锋字幕组编译的技术博客，原标题 A simple 2D CNN for MNIST digit recognition ，作者为 Sambit Mahapatra 。

翻译 | 王祎霍雷刚整理 | MY

对于图像分类任务，当前最先进的架构是卷积神经网络 (CNNs) 。无论是面部识别、自动驾驶还是目标检测，CNN 得到广泛使用。在本文中，针对著名的 MNIST 数字识别任务，我们设计了一个以 tensorflow 为后台技术、基于 keras 的简单 2D 卷积神经网络 (CNN) 模型。整个工作流程如下:

1. 准备数据

2. 创建模型并编译

3. 训练模型并评估

4. 将模型存盘以便下次使用

1. 准备数据

数据集就使用上文所提到的 MNIST 数据集。MNIST 数据集 ( Modified National Institute of Standards and Technoloy 数据集) 是一个大型的手写数字（0 到 9）数据集。该数据集包含大小为 28x28 的图片 7 万张，其中 6 万张训练图片、1 万张测试图片。第一步，加载数据集，这一步可以很容易地通过 keras api 来实现。

我们建了个模型，搞定了 MNIST 数字识别任务

其中，X_train 包含 6 万张大小为 28x28 的训练图片，y_train 包含这些图片对应的标签。与之类似，X_test 包含了 1 万张大小为 28x28 的测试图片，y_test 为其对应的标签。我们将一部分训练数据可视化一下，来对深度学习模型的目标有一个认识吧。

我们建了个模型，搞定了 MNIST 数字识别任务

如上所示，左上角图为「5」的图片数据被存在 X_train[0] 中，y_train[0] 中存储其对应的标签「5」。我们的深度学习模型应该能够仅仅通过手写图片预测实际写下的数字。现在为了准备数据，我们需要对这些图片做一些诸如调整大小、像素值归一化之类的处理。

我们建了个模型，搞定了 MNIST 数字识别任务

对图片数据做了必要的处理之后，需要将 y_train 和 y_test 标签数据进行转换，转换成分类的格式。例如，模型构建时，3 应该被转换成向量 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]。

我们建了个模型，搞定了 MNIST 数字识别任务

创建模型并编译

数据加载进模型之后，我们需要定义模型结构，并优化函数、损失函数和性能指标。

接下来定义的架构为 2 个卷积层，分别在每个卷积层后接续一个池化层，一个全连接层和一个 softmax 层。在每一层卷积层上都会使用多个滤波器来提取不同类型的特征。直观的解释是，第一个滤波器有助于检测图片中的直线，第二个滤波器有助于检测图片中的圆形，等等。关于每一层技术实现的解释，将会在后续的帖子中进行讲解。如果想要更好的理解每一层的含义，可以参考 http://cs231n.github.io/convolutional-networks/ 。

在最大池化和全连接层之后，在我们的模型中引入 dropout 来进行正则化，用以消除模型的过拟合问题。

我们建了个模型，搞定了 MNIST 数字识别任务