[发明专利] 基于深度强化学习的实时集中式无线网络调度方法和设备 – CN114189937A 全文链接一   全文链接二

 
基本信息
申请号
CN202111327752.5
申请日
20211110
公开(公告)号
CN114189937A
公开(公告)日
20220315
申请(专利权)人
中国科学院计算技术研究所
申请人地址
100080 北京市海淀区中关村科学院南路6号
发明人
王琪;何晨涛;黄建辉;徐勇军 专利类型 发明专利
摘要
本发明提出一种基于深度强化学习的实时集中式无线网络调度方法和系统,包括:获取由一个接入点和多个用户节点互连组成的无线网络,在每个时隙,接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前时隙的环境状态,接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将环境状态和环境特征信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;接入点执行调度决策后,收到网络环境的反馈;将交互信息和环境状态和环境特征信息作为经验,存储至子区域;从经验回放池中抽取经验,以训练更新当前决策模型。本发明训练时间不会随数据流数量增加而快速增长,能够快速的收敛到最优实时吞吐量。
主权项
1.一种基于深度强化学习的实时集中式无线网络调度方法,其特征在于,包括:步骤1、获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;步骤2、该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at;步骤3、该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;步骤4、从该经验回放池中抽取经验,以训练更新当前该决策模型。

 

 
IPC信息
IPC主分类号
H04W72/04
H 电学

H04 电通信技术

H04W 无线通信网络〔2009.01〕

 

 
法律状态信息
法律状态公告日
20220315
法律状态
公开 法律状态信息
CN202111327752 20220315 公开 公开

 

 
代理信息
代理机构名称
北京律诚同业知识产权代理有限公司 11006
代理人姓名
祁建国