上QQ阅读APP看书,第一时间看更新
1.5 MNIST数据集简介
给计算机看的大量实例构成数据集。MNIST数据集是手写数字集,在图像分类中十分著名。深度学习三巨头之一Geoffrey Hinton称其为机器学习界的小白鼠,表明其基础和简单的特点。三巨头中的Yann LeCun,也是卷积神经网络之父,他在该数据集上首次实现了卷积神经网络,但由于该数据集很简单,不能充分发挥卷积神经网络的优势,被当时的支持向量机(SVM)盖过了风头。直到ImageNet数据库出现,才使卷积神经网络再度火起来。由此可见,MNIST作为入门数据集,是非常合适的。
MNIST来自美国国家标准与技术研究院,训练集由250个不同的人手写的数字构成,其中50%是高中学生,50%来自人口普查局的工作人员;测试集也是同样比例的手写数字。MNIST数据集可在http://yann.lecun.com/exdb/mnist/上进行下载,训练集包含60000个样本,测试集包含10000个样本。MNIST数据集中的每张图像都是灰度图像,由28×28个像素点构成,每个像素点用一个灰度值表示,如图1.1和图1.2所示。每张图像的标签就是手写数字的类别标签(整数0~9)。
图1.1 MNIST数据集0~9数字样本
图1.2 MNIST数据集数字7样本
其他知名数据库有CIFAR-10、CIFAR-100和ImageNet等,特别是ImageNet,推动了深度学习的发展。