[发明专利] 基于MMS_ResNet_1d模型的ERα拮抗剂的ADMET性质预测方法 – CN114093414A 全文链接一   全文链接二

 
基本信息
申请号
CN202111388314.X
申请日
20211122
公开(公告)号
CN114093414A
公开(公告)日
20220225
申请(专利权)人
中国科学院合肥物质科学研究院
申请人地址
230031 安徽省合肥市蜀山区蜀山湖路350号
发明人
王玉成;冯志宏;叶晓东;王芸;汪鸣明;赵娜娜;张石川;占文锋 专利类型 发明专利
摘要
本发明公开了一种基于MMS_ResNet_1d模型的ERα拮抗剂的ADMET性质预测方法,分别以ERα拮抗剂化合物的n种ADMET性质为因变量、以对应化合物的m个分子描述符信息为自变量创建原始数据,搭建Micro_Multi_Scale_resnet_1d深度学习模型迭代训练后得到最优模型参数,用于预测ADMET性质的属性。本发明能够更加快速有效地对药物性质进行统计建模和预测,提高预测的准确性,从而在药物开发的早期能减少药理上不合适的化合物数量,节约时间和成本。
主权项
1.一种基于MMS_ResNet_1d模型的ERα拮抗剂的ADMET性质预测方法,其特征在于,包括以下步骤:S1:收集一系列作用于靶标ERα的拮抗剂化合物的n种ADMET性质以及m个分子结构描述符;以靶标ERα的拮抗剂化合物的m个分子描述符作为m个自变量,对m个自变量分别进行数据标准化操作后,得到特征数据记为:X=[x1,x2,…,xi,…,xm],xi表示第i个分子描述符的值;以二分类标准分别标定ERα拮抗剂化合物的n种ADMET性质,从而得到ERα拮抗剂化合物的总标签,并通过独热编码进行表示,记为因变量Y=[y1,y2,…,yj,…,yn],其中,yj为第j种性质的标签,取值为0时表示负类,取值为1时表示正类;将特征数据X和因变量Y组合为数据集并划分为训练集Dtrain和验证集Dval;S2:搭建由一个数据输入模块、h个分支模块和一个输出融合模块组成的MMS_ResNet_1d多尺度分类模型;S2.1:所述数据输入模块依次包括一个卷积层Conv1d、一个批归一化层BatchNorm1d、一个激活函数层ReLU和一个最大池化层MaxPool1d,设置输入数据的通道数为m,并将所述训练集Dtrain按照每批次的大小为bs输入所述数据输入模块中,并输出中间特征X′;S2.2:第a个支模块Routea由g个残差块 叠加后连接一个自适应池化层组成,且第b个残差块Rb由前处理单元P_conv经断连机制与Shortcut单元连接而成;设置第b个残差块Rb的内置参数为strideb,a∈[1,h];S2.2.1:所述第b个残差块Rb的前处理单元P_conv依次包括一个卷积层Conv1db1、一个前批归一化层BN1d、一个ReLu激活函数层、一个卷积层Conv1db2、一个后批归一化层BN1d,其中,卷积层Conv1db1的卷积核大小为kab、步长为sab、填充大小为 卷积层Conv1db2的卷积核大小为kab、步长为1、填充大小为S2 .2 .2:所述残差块的Shortcut单元包含一个卷积核大小为1且步长为2的卷积层Conv1d和一个批归一化层BN1d;S2.2.3:所述中间特征X′并行输入h个分支模块的第1个残差块R1中,经过第a个分支模块Routea的第1个残差块R1中的前处理单元P_conv和Shortcut单元的处理后,输出卷积块映射值p_outb和直连块映射值s_outb,并由断连机制判断第1个残差块R1的内置参数为stride1是否为“1”,若是,则将残差映射值out1=p_out1+s_out1作为第1个残差块R1的输出,否则,将残差映射值out1=p_out1+out0作为第1个残差块R1的输出,当b=1时,out0=X′;当b=2,3,…,g时,第b‑1个残差块Rb 1输出残差映射值out 作为第b个残差块R‑ b‑1 b的输入,并经过第b个残差块Rb的处理后输出残差映射值outb,从而由第g个残差块Rb的输出残差映射值outg;S2.2.4:最后一个残差块Rg输出的残差映射值outg经自适应池化层处理后得到单尺度映射值Outa并作为第a个分支模块Routea的输出;从而得到h个分支模块输出的多尺度映射值S2.3:所述输出融合模块依次包括一个融合层Cat、一个展平层Flatten和一个全连接层Fc,其中,所述融合层Cat将 按第二个维度进行拼接后再经过展平层Flatten和全连接层Fc的处理,最终输出神经元映射值记为l=[l1,…lj,…ln],其中,lj代表全连接层第j个神经元输出的映射值;S3:训练和选择模型:S3.1:初始化学习率为lr、当前迭代次数为epoch、最优分类准确率为ACCmax、学习率调整迭代值t=0,设置调整周期阈值为tmax;S3.2:利用式(1)构建二分类交叉熵损失L,:式(1)中:σ(lj)代表将第j个神经元映射值lj输入sigmoid函数计算所得到的第j个性质预测为正类的概率;S3.3:在第epoch次迭代中将训练集Dtrain按照每批次的大小为bs进行层归一化处理后送入所述MMS_ResNet_1d模型中进行训练,并计算所述交叉熵损失L后求解m个通道的梯度,再利用基于学习率lr的Adam优化器优化梯度中的权重参数,从而得到第epoch次训练的模型;S3.3:在第epoch次迭代训练后在验证集Dval上按照每批次大小为bs对第epoch次训练的模型进行验证,计算当前第epoch次训练的模型的决定系数ACCepoch并作为评估指标,若ACCepoch>ACCmax,则将ACCepoch赋值给ACCmax,并保存当前第epoch次训练的模型的参数,若ACCepoch≤ACCmax,则将t+1赋值给t后,判断t=tmax是否成立,若成立,则将学习率lr调整为0.5lr;否则,保持学习率lr;S3.4:将epoch+1赋值给epoch后,返回步骤S3.3,直到决定系数不再提高时,停止训练并将最后一次训练的模型作为最优分类模型F;S4:将待测试ADMET性质的n种ADMET性质输入最优分类模型F;中,并输出标签预设的对应性质的属性。

 

 
IPC信息
IPC主分类号
G16B15/30

 

 
法律状态信息
法律状态公告日
20220225
法律状态
公开 法律状态信息
CN202111388314 20220225 公开 公开

 

 
代理信息
代理机构名称
安徽省合肥新安专利代理有限责任公司 34101
代理人姓名
陆丽莉;何梅生