ASR数据集

ASR数据集

OPENSLR提供的免费的语言和语音的数据,以及跟语音识别有关的软件.

免费的数据集

Librispeech

语言:English
大小:超过100G
时长:960 – 官方写的是1000小时
采样率:16kHz
Link:http://www.openslr.org/12

Tedlium3

语言:English
大小:54G
时长:452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample Encoding: 16-bit Signed Integer PCM
Link:https://www.openslr.org/51/

AISHELL

AISHELL1

语言:中文
时长:178小时
采样率: 16khz
精度:16bit
remark:400人录制,涉及智能家居、无人驾驶、工业生产等11个领域。
Link: https://www.openslr.org/33/

AISHELL2

语言:中文
时长:1000h
采样率: 16khz
精度:16bit
remark: 1911人录制,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
Link: http://www.aishelltech.com/aishell_2

THCHS-30

语言:中文
时长:30小时
采样率: 16khz
remark: 30人录制,清华大学30小时中文语音库。安静的办公室环境下,通过单个碳粒麦克风录取,文本选取自大容量的新闻。
Link: https://www.openslr.org/18/

ST-CMDS

语言:中文
时长:500小时
采样率: 16khz
remark: 855人录制,全称Free ST Chinese Mandarin Corpus。安静的室内环境下,通过单个碳粒麦克风录取,文本选取网络聊天智能音箱控制等。
Link: https://www.openslr.org/38/

HKUST

语言:中文
时长:200小时
采样率: 16khz
精度:16bit
remark: 中文电话数据集,电话对话,espnet,kaldi里面都有egs
Link: https://www.openslr.org/18/

Fisher English

语言:英文
时长:975小时
采样率: 未知
精度:未知
remark: 5850个对话,每个10分钟. 在kaldi的egs的aspire下面使用就是这个数据集
Link: https://catalog.ldc.upenn.edu/LDC2004T19

People’s Speech

语言:英文
时长:3万多小时
采样率: 未知
精度:未知
授权: CC-BY 或者 CC-BY-SA、
这个算是目前发现英文最大的数据集了,可以免费获取,关于授权,可以参看官网对授权方式的解释。
第一种授权只能1G多的数据,第二种授权可以拿到134G的数据
Link:https://mlcommons.org/en/peoples-speech/

AliMeeting

AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。
Link: https://www.openslr.org/119/

WenetSpeech

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括 2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音视频、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等 10 大场景
Link: http://www.openslr.org/121/

GigaSpeech

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。
Link:https://github.com/SpeechColab/GigaSpeech
Link:https://arxiv.org/abs/2106.06909

Multilingual LibriSpeech (MLS)

多语言的5万小时的语音数据,但是是没有标注的,因此不是监督学习的框架,适合self learning的,例如基于BERT或者wav2vec的ASR。
来自LibriVox的有声电子书,包括8个语言: English, German, Dutch, Spanish, French, Italian, Portuguese, Polish.
https://www.openslr.org/94/

Common Voice French

语种:法语
959小时的法语数据。Common Voice除了法语,还有很多别的语种,总共支持96个语种,总时长到20817小时。进到页面后,选择对应的语言,就可以看到数据集。
https://commonvoice.mozilla.org/en/datasets

收费的数据集

数据堂

https://www.datatang.com/dataset/speech
这个不只是中文的,还有其它语音的,比如西班牙,英语等

    分享到:

留言

你的邮箱是保密的 必填的信息用*表示