使用Python对亲和力进行图神经网络模型的预测

药物靶标亲和力（DTA）预测是计算机辅助药物设计中最重要的一步，可以加快药物开发并减少资源消耗。随着深度学习的发展，将深度学习引入DTA预测并提高准确性已成为研究的重点。
基于图神经网络，构建COVID-19相关受体蛋白与小分子药物的亲和力预测模型，用于新型药物筛选和发现。
主要研究内容和方法：
1、调研学习图神经网络模型及其特点，学习分子数字化表示方法；
2、设计并训练优化本基于图神经网络的分子特性及药物靶标亲和力预测模型；
3、基于相关真实标定数据集，对本课题模型的性能进行测试评估和结果分析等。
目标：
编写出使用图神经网络（GNN）模型进行分子性质预测，把分子转化成ECFP，然后用机器学习模型也做下分子特性的预测和图神经网络的效果做下对比。最后可以画出两个散点图分别是ECFP+机器学习模型以及图神经网络模型的预测效果。
数据集如图的csv文件，需要转换

这是路径：train_data=pd.read_csv(r"D:/bishe/covid-19-bioinformatics-drug-target-challenge\train\train1.csv")
test_data=pd.read_csv(r"D:/bishe/covid-19-bioinformatics-drug-target-challenge\test\test1.csv")
会提供相应的数据集以及使用transformer模型进行预测的代码进行参考
悬赏金300＋，具体可以通过私信或其他渠道联系

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

15条回答默认最新

妄北y 嵌入式领域优质创作者 2024-04-29 11:37

关注

以下参考免费微信小程序：皆我百晓生 作答，并由妄北y整理回复。

为了使用图神经网络（GNN）模型进行药物靶标亲和力（DTA）预测，我们需要遵循以下步骤：

理解数据集：首先，我们需要了解数据集的结构。根据您提供的信息，数据集包含SMILES字符串（化合物的分子结构表示）和多个与COVID-19相关的受体蛋白的结合位点。
数据预处理：将SMILES字符串转换为分子图表示，以便GNN能够处理它们。这通常涉及到使用分子指纹（如ECFP）或其他分子表示方法。
模型设计：设计一个基于图神经网络的模型，该模型能够学习分子图的特征，并预测与受体蛋白的结合亲和力。
模型训练与优化：使用训练数据集训练模型，并使用验证集进行模型性能评估和超参数调优。
模型评估：使用测试数据集评估模型的最终性能。
结果对比：将GNN模型的预测结果与使用传统机器学习模型（如随机森林、支持向量机等）的预测结果进行对比。
可视化：绘制散点图以展示两种模型的预测效果。

以下是使用Python和一些流行的库（如pandas、scikit-learn、tensorflow、keras、rdkit等）实现这些步骤的大致代码框架：

import pandas as pd
import tensorflow as tf
from tensorflow.keras import layers
from rdkit import Chem
from rdkit.Chem import AllChem

# 读取数据集
train_data = pd.read_csv(r"path_to_train.csv")
test_data = pd.read_csv(r"path_to_test.csv")

# 数据预处理：将SMILES字符串转换为ECFP指纹
def smiles_to_ecfp(smiles, radius=3):
    mol = Chem.MolFromSmiles(smiles)
    ecfp = AllChem.GetMorganFingerprintAsBitVect(mol, radius)
    return ecfp

# 将数据集中的SMILES字符串转换为ECFP指纹
train_data['ecfp'] = train_data['SMILES'].apply(smiles_to_ecfp)
test_data['ecfp'] = test_data['SMILES'].apply(smiles_to_ecfp)

# 设计GNN模型
class GNNModel(tf.keras.Model):
    def __init__(self, num_nodes, num_edge_types, hidden_units):
        super(GNNModel, self).__init__()
        self.conv1 = layers.GraphConv(hidden_units, activation='relu')
        self.conv2 = layers.GraphConv(hidden_units, activation='relu')
        # 添加更多层...
        self.dense = layers.Dense(1)  # 假设是回归任务

    def call(self, inputs):
        x, adj = inputs
        x = self.conv1(x, adj)
        x = self.conv2(x, adj)
        # 应用更多层...
        return self.dense(x)

# 构建模型实例
model = GNNModel(num_nodes=len(train_data), num_edge_types=..., hidden_units=...)

# 编译模型
model.compile(optimizer='adam', loss='mean_squared_error')

# 训练模型
model.fit(train_data, epochs=...)

# 使用测试数据评估模型
test_loss = model.evaluate(test_data)

# 使用机器学习模型进行预测
from sklearn.ensemble import RandomForestRegressor

# 转换为适合机器学习模型的格式
train_features = train_data['ecfp'].values
test_features = test_data['ecfp'].values

# 训练随机森林模型
rf_model = RandomForestRegressor()
rf_model.fit(train_features, train_data['target'])

# 评估随机森林模型
rf_test_loss = rf_model.score(test_features, test_data['target'])

# 可视化结果
import matplotlib.pyplot as plt

# GNN模型的预测
gnn_predictions = model.predict(test_features)

# 机器学习模型的预测
rf_predictions = rf_model.predict(test_features)

# 绘制散点图
plt.scatter(gnn_predictions, test_data['target'], label='GNN Model')
plt.scatter(rf_predictions, test_data['target'], label='Random Forest')
plt.xlabel('Predicted Affinity')
plt.ylabel('True Affinity')
plt.legend()
plt.show()

请注意，这只是一个示例框架，实际实现可能需要更多的细节，如数据集的划分、模型的超参数调优、图的构建等。此外，您可能需要安装和导入上述提到的库。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(14条)

报告相同问题？

关注问题

BP神经网络对新数据进行预测 python 有问必答神经网络
2021-07-01 21:07

回答 1 已采纳训练数据集默认代表所有数据集的分布（采样原则），所以训练集如何归一化，那么预测就如何操作。如果训练集分布不能代表所有数据集分布，需要进行定向数据增强或者增加训练集样本。1）常规的分类，直接减均值除以方
用BP神经网络进行预测，loss比较小，但预测值跟实际值相差较大，怎么办 keras python 有问必答神经网络
2021-07-19 21:04

回答 1 已采纳首先怀疑过拟合, 减少迭代次数, 像这种非常简单的数据拟合, 完全不需要200这么大的周期, 一般30-50个足够
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
KDD 2022 | 编程指南：生命科学中的图神经网络
2022-09-01 00:00

DrugAI的博客本文介绍由亚马逊的研究团队推出的应用于生命科学的图神经网络指南《Graph Neural Networks in Life Sciences: Opportunities and Solutions》，这个工作发表在2022年数据挖掘顶会KDD上。图结构数据在生命科学以及...
机器学习中怎么使用保存的模型进行预测 python 数据挖掘机器学习深度学习神经网络
2019-09-02 17:37

回答 1 已采纳分割数据集到训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(x, y) 你加载模型直接预测不需要对数据进行再
LSTM模型如何进行新数据的预测？ python 人工智能机器学习深度学习神经网络
2019-07-04 15:21

回答 2 已采纳创建一个预测数组，每预测一个Y就往数组里放一个，同时更新你用来预测的自变量X数组，剔除最早的X，把预测值加入到X里，依次往后预测
用python对图片进行CNN机器学习分类时，图片格式的不同会对学习的结果造成影响吗？ python 人工智能机器学习深度学习神经网络
2019-07-19 17:21

回答 2 已采纳 png不会，因为它是无损的，但是jpg gif等有损的图片压缩算法会导致信息量的缺少，影响训练效果。但是在训练的时候，必须先将图片还原成位图，也就是无压缩的格式，才好处理。所以png一般用来作为图
Nat. Commun.| 机器学习对可突变的治疗性抗体的亲和力和特异性进行共同优化
2022-07-04 00:00

DrugAI的博客这次为大家分享的是来自nature communications上的一篇题为《Co-optimization of therapeutic antibody affinity and specificity using machine learning ...治疗性抗体的开发需要高亲和力分子的选择以及其他类药物
神经网络训练集添加高斯噪声 python 开发语言神经网络
2021-02-01 11:00

回答 1 已采纳 1，如果网路中使用了normalization层，则不需要重新归一化； 2，如果不放心，可以使用“截断”，让小于0的变成0，大于1的变成1即可。
如何使用python绘制列线图 python r语言
2021-08-15 09:14

回答 1 已采纳可以呦，看起来没有R语言绘图的更好一些。能达到90%的效果源码参考：使用Python，matplotlib绘制Nomogram列线图_程序媛一枚~的博客-CSDN博客使用Python，
yolo3怎么在已经训练好的模型基础上重新添加图片训练？ python tensorflow 开发语言深度学习神经网络
2020-12-06 18:01

回答 2 已采纳就直接读取新的图片和旧的图片然后读取你之前训练好的模型再训练就可以了把
中科大&快手提出多模态交叉注意力模型：MMCA，促进图像-文本多模态匹配！
2021-12-24 11:45

我爱计算机视觉的博客然后使用一维卷积神经网络提取局部上下文信息。作者使用三种窗口大小（uni-gram、bi-gram和tri-gram）来捕获短语级信息。第k个单词使用窗口大小为l的卷积输出为: 其中，是卷积滤波器矩阵，是偏差。接下来，对所有...
bp神经网络怎么实际应用啊？Python python 神经网络
2018-10-20 10:00

回答 2 已采纳解决了。。。。。。。
使用图生成多任务模型缩小基于靶标和基于细胞的药物发现之间的差异
2022-09-05 00:00

DrugAI的博客作者提出了一种基于图的多任务深度学习模型(MATIC)来识别同时具有靶标抑制和细胞活性的化合物。在SARS-CoV-2 数据集上，MATIC模型比传统方法在筛选体内有效化合物方面更具优势。作者探索了模型的可解释性，发现靶标...
多目标跟踪最新综述（基于Transformer/图模型/检测和关联/孪生网络）
2022-10-27 17:00

数据派THU的博客本文约11000字，建议阅读10+分钟本文试图对计算机视觉在MOT中的最新发展趋势进行总结和回顾。论文链接：https://arxiv.org/pdf/2209.04796.pdf关注微信公众号“数据派THU”，后台回复“20221020”可获取单目标、多...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

悬赏问题

¥15 这个怎么添加战斗代码就开始都开始不了呢？(语言-javascript)
¥15 matlab 神经网络集成/融合？
¥15 pem证书转换p12
¥15 简化数学表达式，修改为简单求和形式
¥20 光热发电的能量汇聚求解
¥15 windows连接xbox主机
¥15 帮助看看这个c语言程序
¥50 python表格图片筛查程序问题
¥15 socket通信实现多人聊天室疑惑
¥15 DEV-C++编译缺失

使用Python对亲和力进行图神经网络模型的预测

15条回答 默认 最新

问题事件

悬赏问题

15条回答默认最新