WenetSpeech数据集的处理和使用

WenetSpeech数据集

10000+小时的普通话语音数据集,使用地址:PPASR

WenetSpeech

WenetSpeech数据集 包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

  • 所有数据分为 3 类,如下表所示:
数据分类 时长(小时) 可信度 可用系统
强标签 10005 >=0.95 监督训练
弱标签 2478 [0.6, 0.95] 半监督或噪音训练
无标签 9952 / 无监督训练或预训练
总共 22435 / /
  • 领域、说话风格和场景将高标签分为 10 组,如下表所示:
领域 Youtube(小时) Podcast(小时) 全部(小时)
有声读物 0 250.9 250.9
现场解说 112.6 135.7 248.3
纪录片 386.7 90.5 477.2
戏剧 4338.2 0 4338.2
采访 324.2 614 938.2
新闻 0 868 868
阅读 0 1110.2 1110.2
讨论 204 90.7 294.7
综艺 603.3 224.5 827.8
其他 144 507.5 651.5
总共 6113 3892 10005
  • 3个子集,即S,M并且L对不同的数据规模建设ASR系统
训练数据 可信度 时长(小时)
L [0.95, 1.0] 10005
M 1.0 1000
S 1.0 100
  • 评估测试数据
评估数据 时长(小时) 来源 描述
DEV 20 互联网 专为一些需要在训练中设置交叉验证的语音工具而设计
TEST_NET 23 互联网 比赛测试
TEST_MEETING 15 会议 远场、对话、自发和会议数据集
  1. 本教程介绍如何使用该数据集训练语音识别模型,只是用强标签的数据,主要分三步。下载并解压WenetSpeech数据集,在官网 填写表单之后,会收到邮件,执行邮件上面的三个命令就可以下载并解压数据集了,注意这要500G的磁盘空间。

  2. 然后制作数据集,下载原始的数据是没有裁剪的,我们需要根据JSON标注文件裁剪并标注音频文件。在tools目录下执行create_wenetspeech_data.py程序就可以制作数据集了,注意此时需要3T的磁盘空间。--wenetspeech_json参数是指定WenetSpeech数据集的标注文件路径,具体根据读者下载的地址设置。

cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json
  1. 最后创建训练数据,跟普通使用一样,在项目根目录执行create_data.py就能过生成训练所需的数据列表,词汇表和均值标准差文件。这一步结束后就可以训练模型了,具体看训练模型
python create_data.py

项目地址:https://github.com/yeyupiaoling/PPASR

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注