慧听中国人英文语音识别数据库-100小时
发布日期:2016-12-11
中国人英文语音语音识别数据库采集了200人的语音数据。所有发音人来自中国八个方言地区,朗读自然流利。每位发音人的录音数据为纯英文句,发音内容是日常口语。
序号 |
方言区 |
代表城市 |
人数比例 |
1 |
粤语 |
广州、珠海 |
12.5% |
2 |
闽语 |
厦门 |
12.5% |
3 |
中原官话(陕西话) |
西安 |
12.5% |
4 |
湘语 |
长沙 |
12.5% |
5 |
西南官话 |
成都 |
12.5% |
6 |
吴语 |
上海、合肥、扬州 |
12.5% |
7 |
赣语 |
南昌 |
12.5% |
8 |
中原官话 |
郑州 |
12.5% |
该数据库总有效时长100小时,数据采样率为16 kHz,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。
语音采集设备是Android智能手机。
录音环境分为三类:相对安静的室内、有背景噪声的室内、有背景噪声的室外。
全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。
该数据库能够反映中国各地大众水平英语发音的特点,数据标注质量高,可用于语音识别系统训练、测试、语音分析、教学研究等多种用途。
相关数据
-
评价:{{item.assess}}