ASR数据集

OPENSLR提供的免费的语言和语音的数据，以及跟语音识别有关的软件．

免费的数据集

Librispeech

语言：English
大小：超过100G
时长：960 – 官方写的是1000小时
采样率：16kHz
Link：http://www.openslr.org/12

Tedlium3

语言：English
大小：54G
时长：452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample Encoding: 16-bit Signed Integer PCM
Link：https://www.openslr.org/51/

AISHELL

AISHELL1

语言：中文
时长：178小时
采样率: 16khz
精度：16bit
remark：400人录制，涉及智能家居、无人驾驶、工业生产等11个领域。
Link: https://www.openslr.org/33/

AISHELL2

语言：中文
时长：1000h
采样率: 16khz
精度：16bit
remark: 1911人录制，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
Link: http://www.aishelltech.com/aishell_2

THCHS-30

语言：中文
时长：30小时
采样率: 16khz
remark: 30人录制，清华大学30小时中文语音库。安静的办公室环境下，通过单个碳粒麦克风录取，文本选取自大容量的新闻。
Link: https://www.openslr.org/18/

ST-CMDS

语言：中文
时长：500小时
采样率: 16khz
remark: 855人录制，全称Free ST Chinese Mandarin Corpus。安静的室内环境下，通过单个碳粒麦克风录取，文本选取网络聊天智能音箱控制等。
Link: https://www.openslr.org/38/

HKUST

语言：中文
时长：200小时
采样率: 16khz
精度：16bit
remark: 中文电话数据集，电话对话，espnet，kaldi里面都有egs
Link: https://www.openslr.org/18/

Fisher English

语言：英文
时长：975小时
采样率: 未知
精度：未知
remark: 5850个对话，每个10分钟. 在kaldi的egs的aspire下面使用就是这个数据集
Link: https://catalog.ldc.upenn.edu/LDC2004T19

People’s Speech

语言：英文
时长：3万多小时
采样率: 未知
精度：未知
授权： CC-BY 或者 CC-BY-SA、
这个算是目前发现英文最大的数据集了，可以免费获取，关于授权，可以参看官网对授权方式的解释。
第一种授权只能1G多的数据，第二种授权可以拿到134G的数据
Link:https://mlcommons.org/en/peoples-speech/

AliMeeting

AliMeeting总共包含118.75小时的语音数据，包括104.75小时的训练集（Train）、4小时的验证集（Eval）和10小时的测试集（Test）。训练集和验证集分别包含212场和8场会议，其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人，并且参会的男女比例人数均衡。
Link: https://www.openslr.org/119/

WenetSpeech

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外，还包括 2400+ 小时弱标注数据和 22400+ 小时的总音频，覆盖各种互联网音视频、噪声背景条件、讲话方式，来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等 10 大场景
Link： http://www.openslr.org/121/

GigaSpeech

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频，适用于有监督训练任务；以及33000小时的总音频，适用于半监督和无监督训练任务。
Link：https://github.com/SpeechColab/GigaSpeech
Link：https://arxiv.org/abs/2106.06909

Multilingual LibriSpeech (MLS)

多语言的5万小时的语音数据，但是是没有标注的，因此不是监督学习的框架，适合self learning的，例如基于BERT或者wav2vec的ASR。
来自LibriVox的有声电子书，包括8个语言： English, German, Dutch, Spanish, French, Italian, Portuguese, Polish.
https://www.openslr.org/94/

Common Voice French

语种：法语
959小时的法语数据。Common Voice除了法语，还有很多别的语种，总共支持96个语种，总时长到20817小时。进到页面后，选择对应的语言，就可以看到数据集。
https://commonvoice.mozilla.org/en/datasets

收费的数据集

数据堂

https://www.datatang.com/dataset/speech
这个不只是中文的，还有其它语音的，比如西班牙，英语等

More from my site

分享到：