[发明专利] 行为克隆方法、电子设备、存储介质和程序产品 – CN114139674A 全文链接一   全文链接二

 
基本信息
申请号
CN202111341447.1
申请日
20211112
公开(公告)号
CN114139674A
公开(公告)日
20220304
申请(专利权)人
中国科学院自动化研究所;国网浙江省电力有限公司
申请人地址
100190 北京市海淀区中关村东路95号
发明人
黄梓铭;李小双;王晓;王飞跃 专利类型 发明专利
摘要
本发明提供一种行为克隆方法、电子设备、存储介质和程序产品,行为克隆方法,包括:确定当前状态向量序列和上一时刻决策序列,上一时刻决策序列包括上一时刻状态向量序列和上一时刻状态向量序列对应的动作向量;将当前状态向量序列和上一时刻决策序列输入行为克隆模型中,得到行为克隆模型输出的当前状态向量序列对应的预测动作向量;行为克隆模型基于当前状态向量序列与上一时刻状态向量序列的关联性,对当前状态向量序列进行预测动作向量的预测;行为克隆模型是基于相邻时刻的样本决策序列训练得到的。本申请旨在解决现有技术中行为克隆方法只能建立单个状态到动作的映射的关系,导致传统的行为克隆方法的学习性能较低的缺陷。
主权项
1.一种行为克隆方法,其特征在于,包括:确定当前状态向量序列和上一时刻决策序列,所述上一时刻决策序列包括上一时刻状态向量序列和所述上一时刻状态向量序列对应的动作向量;将所述当前状态向量序列和所述上一时刻决策序列输入行为克隆模型中,得到所述行为克隆模型输出的当前状态向量序列对应的预测动作向量;所述行为克隆模型基于所述当前状态向量序列与所述上一时刻状态向量序列的关联性,对所述当前状态向量序列进行预测动作向量的预测;所述行为克隆模型是基于相邻时刻的样本决策序列训练得到的。

 

 
IPC信息
IPC主分类号
G06N3/00
G 物理

G06 计算;推算;计数

G06N 基于特定计算模型的计算机系统

G06N3/00 基于生物学模型的计算机系统(仿真生物的功能方面的模拟计算机入G06G7/60)〔7〕

 

 
法律状态信息
法律状态公告日
20220304
法律状态
公开 法律状态信息
CN202111341447 20220304 公开 公开

 

 
代理信息
代理机构名称
北京路浩知识产权代理有限公司 11002
代理人姓名
王宇杨