计算机视觉是一门“赋予机器自然视觉能力”的学科,即让机器理解图像内容。
发展历史
自20世纪50年代以来,计算机视觉的发展可以分为四个主要阶段。
发展历史
主要任务
目前,计算机视觉的研究重点是从单个或序列图像中深度学习、提取、分析、分类和理解有用信息。计算机视觉的核心任务是理解图像内容。我们来比较一下看图像的人和看图像的电脑的区别。
人类视觉一眼就能认出字母“A”,但对于计算机视觉来说,字母“A”只是一串数字,需要理解这串数字的特征表达和语义理解。因此,计算机视觉的两个核心问题是如何处理输入图像:特征表达和语义理解。
基于特征表达和语义理解,计算机视觉的常见任务包括图像分类、图像增强、图像生成、目标检测、目标定位、目标跟踪、语义分割、场景文本识别等。这里简单介绍几个。对性感兴趣的读者应该查阅相关文献进行深入研究。
图像分类(CIFAR10数据集)
图像分类是对输入图像的内容进行分类和描述。例如,输入一个图像来确定该图像属于集合{猫、狗、帽子、杯子}中每个标签的概率。
图像分类的主要难点:
视点变化:相机可以从多个角度显示同一个物体。
比例变化):对象可见的对象大小通常会发生变化。
变形:同一物体的形状会发生很大变化。
遮挡):对象可能会受到遮挡的影响。
光照条件:在像素级,光照影响很大。
背景杂乱):物体可能混入背景,难以识别。
类内变异:一类客体个体的外观差异很大。
图像分类的常用数据集:
通用图像分类发布的常用标准数据集包括CIFAR10、ImageNet、MNIST、COCO等。根据分类的对象,可以选择相应的数据集进行训练。
CIFAR10是一个更接近通用对象的彩色图像数据集,包含10类RGB彩色图像:飞机、汽车、鸟、猫、鹿、狗、青蛙、马和船。
CIFAR10数据集
t-indent: 2em;”>ImageNet是根据WordNet层次结构组织的图像数据集,目前该数据集主要应用于计算机视觉的图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)等。
MNIST是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。
图像分类常用方法:
Network in Network
GoogleNet(Inception v1)
BN-Inception
Inception v2&Inception v3
Inception v4,Inception-ResNet
VGGNet
ResNet
ResNeXt
DenseNet
……
目标检测
目标检测是检测图像内容中特定的物体目标,并获得该目标的类别信息和位置信息。
目标检测主要难点:
小目标识别:通常把宽高是原图像1/10以下的可视为小目标物体,由于尺寸小,可利用的有效特征有限,细节信息不全面,导致识别难度大。
检测的实时性:目标检测通常应用在对实时性要求较高的场景中,提高目标检测的实时性和精度至关重点。
小数据量训练的检测精度:目标检测场景中可训练数据集有限,如何在小数据量上对目标检测精度和速度提升也是核心点之一。
目标检测常用数据集:
PASCAL VOC
MS COCO
ImageNet
……
常用的目标检测方法:
R-CNN
Fast R-CNN
Faster R-CNN
FPN
YOLO
SSD
……
语义分割
语义分割是将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别。
视频加载中…
语义分割(来源:Cityscapes数据集)
语义分割的主要难点:
目标识别:同一目标在不同光照、视角、距离的条件下或者静止和运动时,拍摄的图像会明显不同,并且相邻目标之间也可能产生遮挡现象。
类别分类:同类目标之间存在相异性,而不同类目标之间存在相似性的问题。
背景干扰:实际场景中的背景是复杂的,对实现图像的语义分割造成很大的干扰。
语义分割常用数据集:
Pascal VOC:有20类目标,这些目标包括人类、机动车类以及其他类,可用于目标类别或背景的分割。
Cityscapes:50个城市的城市场景语义理解数据集。
Pascal Context:有400多类的室内和室外场景。
Stanford Background Dataset:至少有一个前景物体的一组户外场景。
COCO:包含一个训练数据集,一个验证数据集,一个用于研究者的测试数据集和一个用于挑战的测试数据集。
……
常用的语义分割方法:
FCN
SegNet
Dilated Convolutions
DeepLab (v1 & v2)
RefineNet
PSPNet
Large Kernel Matters
DeepLab v3
……
最后,引用默默的中心的一句话:“博观而约取,厚积而薄发”。