约 60 年来,广大科学家和工程师一直在努力开发能让计算机查看和理解视觉数据的方法。相关实验始于 1959 年。当时,神经生理学家向一只猫展示了一系列图像,以期将其大脑中产生的反应关联起来。他们发现,猫首先会对硬边或线条做出反应;从科学层面来说,这意味着图像处理始于直边等简单形状。2
大约在同一时间,第一项计算机图像扫描技术已被开发出来,从而可让计算机对图像进行数字化并获取输出。到了 1963 年,该技术实现了另一里程碑;当时,计算机可将二维图像转换为三维形式。进入 1960 年代,AI 作为一个学术研究领域应运而生,它也标志着 AI 寻求解决人类视觉问题的开始。
1974 年,光学字符识别 (OCR) 技术面世,该技术可识别以任意字体或字型打印的文本。3同样,智能字符识别 (ICR) 可解密采用神经网络的手写文本。4从那时起,OCR 和 ICR 便已进入文件与发票处理、车牌识别、移动支付、机器转换和其他常见应用领域。
1982 年,神经科学家 David Marr 确立了视觉会分层工作的理论,并为计算机引入了一系列算法来检测边缘、拐角、曲线和类似的基本形状。与此同时,计算机科学家 Kunihiko Fukushima 开发出一种可识别不同模式的蜂窝网络。该网络被称为“神经认知机”(Neocognitron),并被包含在神经网络的卷积层中。
到了 2000 年,研究的重点转到了对象识别上;到了 2001 年,首个实时人脸识别应用程序诞生了。视觉数据集的标记和注释方式的标准化出现于 2000 年代。2010 年,ImageNet 数据集问世。它包含涉及一千个对象类的数百万张标记图像,并为眼下使用的 CNN 和深度学习模型打下了基础。2012 年,多伦多大学的一个团队使用 CNN 参加了某一图像识别竞赛。这一名为 AlexNet 的模型可大幅降低图像识别的错误率。实现此突破后,错误率更是继续下降到仅有几个百分点的水平。5