[发明专利] 一种基于词表示特征的命名实体识别方法及电子装置 – CN114077838A 全文链接一   全文链接二

 
基本信息
申请号
CN202010825717.5
申请日
20200817
公开(公告)号
CN114077838A
公开(公告)日
20220222
申请(专利权)人
国家计算机网络与信息安全管理中心;中国科学院信息工程研究所
申请人地址
100029 北京市朝阳区裕民路甲3号
发明人
孙立远;万欣欣;李欣;赵忠华;付培国;王禄恒;张磊;田正鑫;郝冰川 专利类型 发明专利
摘要
本发明提供一种基于词表示特征的命名实体识别方法及电子装置,包括:对待检测文本进行分词,获取各词语的基础特征;将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体。本发明采用了word2vec训练的词嵌入及LSTM训练的词表示,捕获了语句的长期依赖性,充分的利用了长距离上下文信息对命名实体进行识别,相对于传统模型有较好的改进,提高了微博命名实体的识别的准确率。
主权项
1.一种基于词表示特征的命名实体识别方法,其步骤包括:1)对待检测文本进行分词,获取各词语的基础特征;2)将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;3)根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;4)将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体;其中,通过以下步骤得到实体识别模型:a)采集若干样本文本,得到一语料库;b)获取语料库中每一样本文本的样本基础特征、样本词嵌入特征及样本词表示特征;c)将各样本文本的样本基础特征、样本词嵌入特征及样本词表示特征输入一级联条件随机场模型并进行训练,得到实体识别模型。

 

 
IPC信息
IPC主分类号
G06F40/295
G 物理

G06 计算;推算;计数

G06F 电数字数据处理

 

 
法律状态信息
法律状态公告日
20220222
法律状态
公开 法律状态信息
CN202010825717 20220222 公开 公开

 

 
代理信息
代理机构名称
北京君尚知识产权代理有限公司 11200
代理人姓名
余功勋