慧听欧美多语种语音识别数据库-720小时
发布日期:2016-12-03
多语种语音识别数据库的采集工作在国外多个国家完成。所有发音人的母语均为对应录制语种,性别比例均衡,发音自然流利,年龄段是15~70岁。
具体录制语种、时长、人数信息如下:
序号 |
录制语种 |
每语种 累计时长 |
每语种 录制人数 |
1 |
美式英语 |
90小时 |
300人 |
2 |
英式英语 |
90小时 |
300人 |
3 |
法语 |
90小时 |
300人 |
4 |
德语 |
90小时 |
300人 |
5 |
意大利语 |
90小时 |
300人 |
6 |
欧洲西班牙语 |
90小时 |
300人 |
7 |
拉丁西班牙语 |
90小时 |
300人 |
8 |
巴西葡萄牙语 |
90小时 |
300人 |
合 计 |
720小时 |
2400人 |
录音的设备是高性能桌面麦克风与高端智能手机,在相对安静的室内使用这两种设备同步采集。
该数据库总有效时长为720小时。录音数据的规格是:手机数据16kHz、16bit、MONO,桌面麦克风数据44.1kHz、16bit、MONO,均以非压缩PCM格式存储。
全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5%。
该数据库包含语种多、在多个国家进行采集、录音人数多、年龄覆盖广泛、数据标注质量高,可用于多语种语音识别系统训练、测试、语音分析、各语种母语发音研究等多种用途。
相关数据
-
评价:{{item.assess}}