[发明专利] 自适应语音识别方法、系统、设备及存储介质 – CN114141243A 全文链接一   全文链接二

 
基本信息
申请号
CN202111482304.2
申请日
20211206
公开(公告)号
CN114141243A
公开(公告)日
20220304
申请(专利权)人
中国科学技术大学
申请人地址
230026 安徽省合肥市包河区金寨路96号
发明人
郭武;丁枫林 专利类型 发明专利
摘要
本发明公开了一种自适应语音识别方法、系统、设备及存储介质,结合CTC端到端声学模型自身的特点,提出一种新的无辅助网络的语音识别模型的自适应方法,通过在训练损失函数中添加正则项来动态训练自适应模型,因此,不需要任何额外的自适应数据来微调模型参数。这种方式极大简化了说话人自适应的流程,同时没有增加任何的模型复杂度,可以提高端到端语音识别系统的识别准确率。
主权项
1.一种自适应语音识别方法,其特征在于,包括:训练阶段,将多个语音序列构成的训练数据输入至待训练的基于CTC的声学模型,通过基于CTC的声学模型对每一语音序列进行编码,并将编码获得的深度特征序列转换为概率分布序列;其中,转换过程中每一深度特征均通过声学模型的若干隐藏层进行激活,最后一个隐藏层输出的隐藏特征被转换为相应的概率分布;根据转换得到的概率分布序列与给定的真实分布序列的差异构建CTC损失函数,并且,对于语音序列对应的不同说话人,利用转换过程中,至少一个隐藏层输出的隐藏特征,构建说话人方差损失函数;结合两部分损失函数进行训练;之后,将待识别的语音序列输入至训练后的基于CTC的声学模型,获得的概率分布序列即为语音识别结果。

 

 
IPC信息
IPC主分类号
G10L15/18
G 物理

G10 乐器;声学

G10L 语言分析或合成;语言识别

G10L15/18 利用自然语言模型〔7〕

 

 
法律状态信息
法律状态公告日
20220304
法律状态
公开 法律状态信息
CN202111482304 20220304 公开 公开

 

 
代理信息
代理机构名称
北京凯特来知识产权代理有限公司 11260
代理人姓名
郑立明;韩珂