[发明专利] 一种基于词表示特征的命名实体识别方法及电子装置 – CN114077838A 全文链接一 全文链接二
基本信息 | |||
---|---|---|---|
申请号
|
CN202010825717.5 |
申请日
|
20200817 |
公开(公告)号
|
CN114077838A |
公开(公告)日
|
20220222 |
申请(专利权)人
|
国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 | ||
申请人地址
|
100029 北京市朝阳区裕民路甲3号
|
||
发明人
|
孙立远;万欣欣;李欣;赵忠华;付培国;王禄恒;张磊;田正鑫;郝冰川 | 专利类型 | 发明专利 |
摘要
|
本发明提供一种基于词表示特征的命名实体识别方法及电子装置,包括:对待检测文本进行分词,获取各词语的基础特征;将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体。本发明采用了word2vec训练的词嵌入及LSTM训练的词表示,捕获了语句的长期依赖性,充分的利用了长距离上下文信息对命名实体进行识别,相对于传统模型有较好的改进,提高了微博命名实体的识别的准确率。 | ||
主权项
|
1.一种基于词表示特征的命名实体识别方法,其步骤包括:1)对待检测文本进行分词,获取各词语的基础特征;2)将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;3)根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;4)将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体;其中,通过以下步骤得到实体识别模型:a)采集若干样本文本,得到一语料库;b)获取语料库中每一样本文本的样本基础特征、样本词嵌入特征及样本词表示特征;c)将各样本文本的样本基础特征、样本词嵌入特征及样本词表示特征输入一级联条件随机场模型并进行训练,得到实体识别模型。 |
IPC信息
|
|||
---|---|---|---|
IPC主分类号
|
G06F40/295 | ||
G 物理
G06 计算;推算;计数 G06F 电数字数据处理 |
法律状态信息
|
|||||
---|---|---|---|---|---|
法律状态公告日
|
20220222 |
法律状态
|
公开 | 法律状态信息 |
CN202010825717 20220222 公开 公开
|
代理信息
|
|||
---|---|---|---|
代理机构名称
|
北京君尚知识产权代理有限公司 11200 |
代理人姓名
|
余功勋 |