[发明专利] 一种面向文本的粤语识别模型及系统的训练、识别方法 – CN114065749A 全文链接一 全文链接二
基本信息 | |||
---|---|---|---|
申请号
|
CN202111332368.4 |
申请日
|
20211111 |
公开(公告)号
|
CN114065749A |
公开(公告)日
|
20220218 |
申请(专利权)人
|
中国科学院计算技术研究所 | ||
申请人地址
|
100190 北京市海淀区中关村科学院南路6号
|
||
发明人
|
王永庆;骆宣朴;史铂深;沈华伟;高金华;庞亮;程学旗 | 专利类型 | 发明专利 |
摘要
|
本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。 | ||
主权项
|
1.一种面向文本的粤语识别模型的训练方法,所述方法包括:S1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集;S2、将粤语与普通话的共用词与现有中文停用词表组合构成改进停用词表;S3、采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,再以训练数据集中的语料为输入、以语料是否为粤语的识别结果为输出训练浅层网络至收敛。 |
IPC信息
|
|||
---|---|---|---|
IPC主分类号
|
G06F40/279 | ||
G 物理
G06 计算;推算;计数 G06F 电数字数据处理 |
法律状态信息
|
|||||
---|---|---|---|---|---|
法律状态公告日
|
20220218 |
法律状态
|
公开 | 法律状态信息 |
CN202111332368 20220218 公开 公开
|
代理信息
|
|||
---|---|---|---|
代理机构名称
|
北京泛华伟业知识产权代理有限公司 11280 |
代理人姓名
|
王勇 |