请问计算 R2 皮尔逊相关系数的平方的脚本


import numpy as np
import scipy.stats as stats
#from sklearn.metrics import cohen_kappa_score
import sys
import os

impute = sys.argv[1]
wgs = sys.argv[2]

def cal_dr2():
    os.system('bcftools query -f "%CHROM\t%POS[\t%DS]\n" 0002.vcf >3.vcf')
    os.system('bcftools query -f "%CHROM\t%POS[\t%GT]\n" 0003.vcf >4.vcf')
    os.system("grep -v '^#' 3.vcf |cut -f 3- >1.txt")
    os.system("grep -v '^#' 4.vcf |cut -f 3- >2.txt")
    with open('2.txt', 'r') as f2:
        str2 = f2.read()
        a2 = str2.replace('0|0','0').replace('0|1','1').replace('1|1','2').replace('1|0','1').replace('0/0','0').replace('0/1','1').replace('1/1','2').replace('1/0','1')
        with open('4.txt', 'a') as f4:
            f4.write(a2)
    a = np.loadtxt('1.txt')
    b = np.loadtxt('4.txt')
    DR2 = {}
    for i in range(0, a.shape[0]):
        dr2 = stats.pearsonr(a[i], b[i])
        DR2['{}'.format(i+1)] = dr2[0]
    os.system("rm -r 1.vcf 2.vcf 3.vcf 4.vcf 1.txt 2.txt 3.txt 4.txt")
    return DR2

def cal_r2_IQS():
    os.system('bcftools query -f "%CHROM\t%POS[\t%GT]\n" 0002.vcf >3.vcf')
    os.system('bcftools query -f "%CHROM\t%POS[\t%GT]\n" 0003.vcf >4.vcf')
    os.system("grep -v '^#' 3.vcf |cut -f 3- >1.txt")
    os.system("grep -v '^#' 4.vcf |cut -f 3- >2.txt")
    with open('1.txt', 'r') as f2:
        str2 = f2.read()
        a2 = str2.replace('0|0','0').replace('0|1','1').replace('1|1','2').replace('1|0','1').replace('0/0','0').replace('0/1','1').replace('1/1','2').replace('1/0','1')
        with open('3.txt', 'a') as f4:
            f4.write(a2)
    with open('2.txt', 'r') as f2:
        str2 = f2.read()
        a2 = str2.replace('0|0','0').replace('0|1','1').replace('1|1','2').replace('1|0','1').replace('0/0','0').replace('0/1','1').replace('1/1','2').replace('1/0','1')
        with open('4.txt', 'a') as f4:
            f4.write(a2)
    GC = {}
    R2 = {}
    IQS = {}
    a = np.loadtxt('3.txt')
    b = np.loadtxt('4.txt')
    for i in range(0, a.shape[0]):
        c = a[i] == b[i]
        num = str(c.tolist()).count("True")
        gc = str(float(num) / len(c))
        r2  = stats.pearsonr(a[i], b[i])
        #iqs = cohen_kappa_score(a[i], b[i])
        GC['{}'.format(i + 1)] = gc
        R2['{}'.format(i + 1)] = r2[0]
        #IQS['{}'.format(i + 1)] = iqs
    os.system("rm -r 1.vcf 2.vcf 3.vcf 4.vcf 1.txt 2.txt 3.txt 4.txt")
    return GC, R2

os.system('bcftools isec {} {} -p accuracy'.format(impute, wgs))
os.chdir('accuracy')
DR2 = cal_dr2()
GC, R2 = cal_r2_IQS()
#os.system("rm -r 0000.vcf 0001.vcf 0002.vcf 0003.vcf")
with open('result.txt', 'a') as f:
    f.write('ID' + '\t' + 'GC' + '\t' + 'R2' + '\t' + 'DR2' + '\n')
    for id in GC.keys():
         f.write(id + '\t' + str(GC[id]) + '\t' + str(R2[id]) + '\t' + str(DR2[id]) + '\n')

请问怎么上面的代码修改下，想要计算Pearson相关系数的平方（ R2 ）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-07-04 16:33
关注
引自免费微信小程序：皆我百晓生

要计算皮尔逊相关系数（Pearson correlation coefficient）的平方（R²），你只需在已有的代码基础上稍作修改。在你的代码中，你已经计算了皮尔逊相关系数（通过 stats.pearsonr() 函数），你只需要将结果平方即可。以下是修改后的代码片段：

在你的 cal_dr2 和 cal_r2_IQS 函数中，将计算皮尔逊相关系数的部分做如下修改：

# ... 其他代码保持不变 ... # 在计算皮尔逊相关系数之后，计算其平方 r2_squared = dr2[0]**2 # dr2[0] 是皮尔逊相关系数的值 DR2['{}'.format(i+1)] = r2_squared # 将平方值存入DR2字典 # ... 其他代码保持不变 ...

这样修改后，你的代码就会计算皮尔逊相关系数的平方并存储到 DR2 字典中。请将这个修改应用到你的 cal_dr2 和 cal_r2_IQS 函数中的相关部分。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习基石--如何诞生一个“机器”
2026-01-20 18:59

kkcache的博客本篇文章，将从一个完整的工程闭环切入，将知识拆分为原子级，即使你对机器学习没有任何基础，对编程没有任何基础，读完文章你也将收获到： - 什么是机器学习？ - 怎么算成功训练出一个“机器”
数据分析师必看，盘点最常用的四种数据统计分析方法
2024-12-10 15:37

帆软商业智能技术的博客其内置的强大计算能力和灵活的操作方式，让用户能够无需复杂编程，轻松构建定制化的报表和仪表盘，实时监控企业运营状况，帮助决策者洞察数据趋势，发现隐藏在数据中的机会和风险，推动企业实现数据驱动的智能决策。...
【信息科学与工程学】【数据科学】数据科学领域-第十一篇数据集成算法01
2025-08-26 17:58

flyair_China的博客提升扩展性：通过参数化故障场景（如），可快速生成新的故障用例（如针对新服务的延迟故障），适应系统迭代需求；增强场景真实性：通过组合混沌操作（如），模拟真实生产环境中的复杂故障链（如...
小白学习数据分析、机器学习、深度学习指南 (超万字详细版)
2025-12-12 20:59

VX：zrd123124的博客指南采用阶梯式学习路径，分为基础阶段（数学和编程）、数据分析入门、机器学习核心、深度学习进阶以及实践与深化五个部分。重点内容包括线性代数、概率统计等数学基础，Python编程技能，以及NumPy、Pandas等数据...
【信息科学与工程学】【产品体系】第十二篇制造业生产加工04 工艺过程模型库第二部分
2025-07-17 07:25

flyair_China的博客载量Q_{max}，传质系数k，面积A，流量Q，成本参数，失效概率p 评估一次性使用技术（如一次性生物反应器、袋式过滤器、膜层析）在生物制药生产中的性能、经济性和风险，并与传统不锈钢系统比较。临床样品生产...
《零起点，python大数据与量化交易》
2015-05-09 07:54

weixin_33974433的博客大数据，量化交易，属于目前比较前沿的IT技术，相关用户，绝大部分是非IT行业的市场管理人员和金融工作者，没有任何编程基础。同时，更多的普通民众，在日常工作、生活、投资时，例如，购买股票、基金、足彩，也...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月4日

请问计算 R2 皮尔逊相关系数的平方的脚本

2条回答 默认 最新

问题事件

2条回答默认最新