慧听台湾国语语音识别数据库75小时

发布日期:2015-09-01

 

慧听台湾国语语音数据库的采集工作在台湾完成。录制地区包括台北、台中、台南、台东、高雄、新北、新竹、彰化、淡水、桃园、嘉义、屏东等市区。

 

该数据库总有效时长75小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

 

已采集了100人的语音数据,所有发音人为当地台湾人,说台湾国语,发音自然流利。男女性别比接近1:1。

【该数据库目前正在扩大录制规模,录音人数还在不断增长】

 

语音采集设备是智能手机,采用基于Android系统的多种品牌型号手机进行录制;

录音环境有以室内为主。

 

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。

 

该数据库为典型的台湾国语语音,数据标注质量高,可用于语音识别系统训练、测试、语音分析、台湾国语研究等多种用途。

    • 新闻标题