[发明专利] 一种面向文本的粤语识别模型及系统的训练、识别方法 – CN114065749A 全文链接一   全文链接二

 
基本信息
申请号
CN202111332368.4
申请日
20211111
公开(公告)号
CN114065749A
公开(公告)日
20220218
申请(专利权)人
中国科学院计算技术研究所
申请人地址
100190 北京市海淀区中关村科学院南路6号
发明人
王永庆;骆宣朴;史铂深;沈华伟;高金华;庞亮;程学旗 专利类型 发明专利
摘要
本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
主权项
1.一种面向文本的粤语识别模型的训练方法,所述方法包括:S1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集;S2、将粤语与普通话的共用词与现有中文停用词表组合构成改进停用词表;S3、采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,再以训练数据集中的语料为输入、以语料是否为粤语的识别结果为输出训练浅层网络至收敛。

 

 
IPC信息
IPC主分类号
G06F40/279
G 物理

G06 计算;推算;计数

G06F 电数字数据处理

 

 
法律状态信息
法律状态公告日
20220218
法律状态
公开 法律状态信息
CN202111332368 20220218 公开 公开

 

 
代理信息
代理机构名称
北京泛华伟业知识产权代理有限公司 11280
代理人姓名
王勇