[发明专利] 双语篇章可比语料构建方法 – CN114118096A 全文链接一   全文链接二

 
基本信息
申请号
CN202111434929.1
申请日
20211129
公开(公告)号
CN114118096A
公开(公告)日
20220301
申请(专利权)人
中科合肥技术创新工程院
申请人地址
230088 安徽省合肥市习友路2666号
发明人
吕飞;朱泽德;王卫;陈晓虎;郑守国 专利类型 发明专利
摘要
本发明特别涉及一种双语篇章可比语料构建方法,包括如下步骤:A、利用深度学习建立每种语言词汇间的语义关系;B、利用现有有限双语语料训练产生跨语言主题分布,对语料覆盖的不同语言词汇进行主题标注;C、利用未登陆词汇与覆盖词汇之间的语义关系,通过知识迁移分析未登录词汇的主题分布,构建多语言词汇统一的语义空间;D、构建具有较强泛化能力的跨语言主题向量;E、利用跨语言主题向量相似度筛选双语篇章,构建可比语料库。通过将单语词向量反映的语义关系、双语词汇对齐关系以及双语词向量融入跨语言主题,可提升跨语言主题模型对开放域文本信息的泛化能力,提高了可比语料构建的准确性。
主权项
1.一种双语篇章可比语料构建方法,其特征在于:包括如下步骤:A、利用深度学习在大规模的源语言和目标语言单语语料分别产生不同语言的单语词向量,建立每种语言词汇间的语义关系;B、利用现有有限双语语料训练产生跨语言主题分布,对语料覆盖的不同语言词汇进行主题标注;C、利用未登陆词汇与覆盖词汇之间的语义关系,通过知识迁移分析未登录词汇的主题分布,构建多语言词汇统一的语义空间;D、通过双语词汇对齐关系、未登录词汇主题分布和双语词向量融入跨语言主题模型,构建具有较强泛化能力的跨语言主题向量;E、利用跨语言主题向量相似度筛选双语篇章,构建可比语料库。

 

 
IPC信息
IPC主分类号
G06F40/30
G 物理

G06 计算;推算;计数

G06F 电数字数据处理

 

 
法律状态信息
法律状态公告日
20220301
法律状态
公开 法律状态信息
CN202111434929 20220301 公开 公开

 

 
代理信息
代理机构名称
北京中济纬天专利代理有限公司 11429
代理人姓名
刘涛