[发明专利] 一种集成GBDT与神经网络的网络异常检测方法 – CN114169390A 全文链接一   全文链接二

 
基本信息
申请号
CN202111231657.5
申请日
20211022
公开(公告)号
CN114169390A
公开(公告)日
20220311
申请(专利权)人
中国科学院信息工程研究所
申请人地址
100093 北京市海淀区闵庄路甲89号
发明人
周舟;李仁杰;刘庆云;杨嵘;杨威;李舒 专利类型 发明专利
摘要
本发明公开一种集成GBDT与神经网络的网络异常检测方法,属于网络信息安全和机器学习的交叉技术领域。为了克服网络异常检测任务中传统机器学习算法和深度学习算法在处理表格数据上的不足,本发明选用专为表格数据设计的TabTransformer结构,同时为了应对网络异常检测中的类别不平衡问题,本发明采取了代价敏感的思想,引入了专门针对不平衡问题设计的Focal Loss损失函数,采取自适应学习策略,从参数搜索空间中自动选取Focal Loss的最佳参数。本发明既适用于二分类问题又适用于多分类问题。
主权项
1.一种集成GBDT与神经网络的网络异常检测方法,其特征在于,包括以下步骤:1)制作标注有正常流量和异常流量的训练数据,该训练数据包括离散型的类别特征和连续型的数值特征,类别特征包括协议类型、端口号和应用层协议,数值特征包括流持续时间、上下行包数和上下行字节数;2)对训练数据进行预处理:删除数据中IP地址字段,将类别特征编码为可识别的数字形式,将数值特征按照标准化操作进行缩放;3)将训练数据的类别特征输入到神经网络模型TabTransformer中进行学习,得到模型的原始输出;将数值特征输入到梯度提升决策树GBDT中进行建模学习,得到一个初步训练好的GBDT模型;使用GBDT2NN技术将预训练好的GBDT模型表示为神经网络,将GBDT模型与TabTransformer模型融合为一个分类模型,将该神经网络的原始输出与TabTransformer模型的输出加权求和形成模型的整体输出值,之后经过激活函数得到分类模型给出的整体预测结果;4)利用预处理过的训练数据对分类模型进行训练,采用FocalLoss作为损失函数指导训练过程,并通过自适应学习的方式进行多轮学习搜索最佳参数,得到训练好的分类模型;5)接受待分类的网络流量数据进行所述预处理,然后输入到所述训练好的分类模型中进行分类,检测网络异常。

 

 
IPC信息
IPC主分类号
G06K9/62
G 物理

G06 计算;推算;计数

G06K 数据识别;数据表示;记录载体;记录载体的处理

G06K9/62 应用电子设备进行识别的方法或装置(学习机入G06F15/18;数字相关性法入G06F17/15;模拟相关性入G06G7/19)〔3〕

 

 
法律状态信息
法律状态公告日
20220311
法律状态
公开 法律状态信息
CN202111231657 20220311 公开 公开

 

 
代理信息
代理机构名称
北京君尚知识产权代理有限公司 11200
代理人姓名
李文涛