微软研究团队在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中指出,他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。微软研究员表示:
想要了解此项技术背后原理的读者可阅读微软研究院去年发布的专题文章。该文章介绍了来自同一研究团队的研究成果,他们在保持准确性不变的条件下将深度学习目标检测系统加速了多达100倍。该团队的科研进展记录于题为“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”研究论文中。