人工智能图像识别技术(人工智能行为包括

计算机视觉是一门“赋予机器自然视觉能力”的学科,即让机器理解图像内容。

发展历史

自20世纪50年代以来,计算机视觉的发展可以分为四个主要阶段。

发展历史

主要任务

目前,计算机视觉的研究重点是从单个或序列图像中深度学习、提取、分析、分类和理解有用信息。计算机视觉的核心任务是理解图像内容。我们来比较一下看图像的人和看图像的电脑的区别。

人类视觉一眼就能认出字母“A”,但对于计算机视觉来说,字母“A”只是一串数字,需要理解这串数字的特征表达和语义理解。因此,计算机视觉的两个核心问题是如何处理输入图像:特征表达和语义理解。

基于特征表达和语义理解,计算机视觉的常见任务包括图像分类、图像增强、图像生成、目标检测、目标定位、目标跟踪、语义分割、场景文本识别等。这里简单介绍几个。对性感兴趣的读者应该查阅相关文献进行深入研究。

图像分类

图像分类(CIFAR10数据集)

图像分类是对输入图像的内容进行分类和描述。例如,输入一个图像来确定该图像属于集合{猫、狗、帽子、杯子}中每个标签的概率。

图像分类的主要难点:

视点变化:相机可以从多个角度显示同一个物体。

比例变化):对象可见的对象大小通常会发生变化。

变形:同一物体的形状会发生很大变化。

遮挡):对象可能会受到遮挡的影响。

光照条件:在像素级,光照影响很大。

背景杂乱):物体可能混入背景,难以识别。

类内变异:一类客体个体的外观差异很大。

图像分类的常用数据集:

通用图像分类发布的常用标准数据集包括CIFAR10、ImageNet、MNIST、COCO等。根据分类的对象,可以选择相应的数据集进行训练。

CIFAR10是一个更接近通用对象的彩色图像数据集,包含10类RGB彩色图像:飞机、汽车、鸟、猫、鹿、狗、青蛙、马和船。

CIFAR10数据集

t-indent: 2em;”>ImageNet是根据WordNet层次结构组织的图像数据集,目前该数据集主要应用于计算机视觉的图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)等。

ImageNet数据集

MNIST是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。

MNIST数据集

图像分类常用方法:

Network in Network

GoogleNet(Inception v1)

BN-Inception

Inception v2&Inception v3

Inception v4,Inception-ResNet

VGGNet

ResNet

ResNeXt

DenseNet

……

目标检测

目标检测是检测图像内容中特定的物体目标,并获得该目标的类别信息和位置信息。

目标检测

目标检测主要难点:

小目标识别:通常把宽高是原图像1/10以下的可视为小目标物体,由于尺寸小,可利用的有效特征有限,细节信息不全面,导致识别难度大。

检测的实时性:目标检测通常应用在对实时性要求较高的场景中,提高目标检测的实时性和精度至关重点。

小数据量训练的检测精度:目标检测场景中可训练数据集有限,如何在小数据量上对目标检测精度和速度提升也是核心点之一。

目标检测常用数据集:

PASCAL VOC

MS COCO

ImageNet

……

常用的目标检测方法:

R-CNN

Fast R-CNN

Faster R-CNN

FPN

YOLO

SSD

……

语义分割

语义分割是将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别。

视频加载中…

语义分割(来源:Cityscapes数据集)

语义分割的主要难点:

目标识别:同一目标在不同光照、视角、距离的条件下或者静止和运动时,拍摄的图像会明显不同,并且相邻目标之间也可能产生遮挡现象。

类别分类:同类目标之间存在相异性,而不同类目标之间存在相似性的问题。

背景干扰:实际场景中的背景是复杂的,对实现图像的语义分割造成很大的干扰。

语义分割常用数据集:

Pascal VOC:有20类目标,这些目标包括人类、机动车类以及其他类,可用于目标类别或背景的分割。

Cityscapes:50个城市的城市场景语义理解数据集。

Pascal Context:有400多类的室内和室外场景。

Stanford Background Dataset:至少有一个前景物体的一组户外场景。

COCO:包含一个训练数据集,一个验证数据集,一个用于研究者的测试数据集和一个用于挑战的测试数据集。

……

常用的语义分割方法:

FCN

SegNet

Dilated Convolutions

DeepLab (v1 & v2)

RefineNet

PSPNet

Large Kernel Matters

DeepLab v3

……

最后,引用默默的中心的一句话:“博观而约取,厚积而薄发”。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注