如何进行数据标注（1）

现在网络上关于深度学习算法的文章很多，但深度学习其实是数据驱动型。很多时候数据足够好，能给算法开发提供很大的便利。

因此，本文主要讲解数据标注。文章共两个部分：（1）数据标注综述（2）数据标注实践要点

本文是第一部分：数据标注综述

1、数据标注的作用

数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法，也就是说，如果想实现人工智能，首先需要把人类理解和判断事物的能力教给计算机，让计算机学习到这种识别能力。

数据标注的过程是通过人工贴标的方式，为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签，然后让计算机不断地学习这些数据的特征，最终实现计算机能够自主识别。

2、数据标注的质量及标注流程

数据的高质量体现在两个方面：一个标注的数量多，二是标注的质量高。

图像标注的质量标准：图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素，标注的质量就越高，标注的难度也越大。如果图像标注要求的准确率为100%，标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。

语音标注的质量标准：语音标注时，语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧，很容易标注到下一个发音，造成噪声数据。

文本标注的质量标准：文本标注涉及到的任务较多，不同任务的质量标准不同。例如：分词标注的质量标准是标注好的分词与词典的词语一致，不存在歧义；情感标注的标注质量标准是对标注句子的情感分类级别正确。

多数投票算法（majority voting，MV）是常用的标注质量评估算法。MV 算法是由约翰逊提出的一种通用性强的质量控制算法。它将绝大多数用户选择的结果视为最终结果。其基本思想为：假设有

$m$ 个图像标注任务 $(t_1,t_2,...t_m)$ ，每个任务 $t_i$ 对应一个二元分类。为提高标注质量和标注可靠性，将需要标注的对象 $x_i$ 分配给 $N$ 个员工（一共 $M$ 个员工， $N≤M$ ）。每个工人的标注结果为 $y_i^j\in\left\{ 0,1 \right\}$ ，再根据 $(y_i^1,...y_i^N)$ 推断出 $x_i$ 的最终标签，其计算公式为：

$\hat{y_i}= \begin{cases}1, & \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}>\dfrac{1}{2}\\ random\ guess, & \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}=\dfrac{1}{2} \\ 0, & \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}<\dfrac{1}{2} \end{cases}$

图像数据的标注流程为：

（1）数据清洗：排除数据存在缺失值、噪声数据、重复数据等质量问题。

（2）数据标注：划分标注任务、制定标注规范。进行标注任务。

（3）标注检验：由标注审核员或机器质检机制，审核标注质量

3、常用的标注工具

知乎不能添加表格，点此处获取下载方式。点击标注工具的名称，即可获取下载地址。每个链接我都试了，如果连接不上可能是需要挂梯子。

Reference

[1]蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(02):302-320.

如何进行数据标注（1）

1、数据标注的作用

2、数据标注的质量及标注流程

3、常用的标注工具

Reference

Published by

风君子

发表回复取消回复

1、数据标注的作用

2、数据标注的质量及标注流程

3、常用的标注工具

Reference

Published by

风君子

发表回复 取消回复

发表回复取消回复