芬兰数据库孟德尔随机化R语言纠错

本人学了一段时间的孟德尔随机化，在尝试将芬兰数据库导入进行分析的时候，总感觉自己输出的结果怪怪的。文件中的exposure.id是自动生成呢，还是需要自己输入？而且我重命名列名的时候总共感觉不对劲，虽然后面能输出结果，但觉得就是有点问题，请各位帮忙指正，在下万分感激！

normalizePath('~/.Renviron')
file.edit(normalizePath('~/.Renviron'))
ieugwasr::get_opengwas_jwt()
ieugwasr::api_status()
ieugwasr::user()
# 1. 安装和加载必要包
if (!requireNamespace("devtools", quietly = TRUE)) {
  install.packages("devtools")
}
devtools::install_github("MRCIEU/TwoSampleMR",force = TRUE)
library(TwoSampleMR)
library(ieugwasr)
library(data.table)
library(dplyr)

# 2. 设定工作目录
setwd("D:/R Project/MR P2")

# 3. 读取和预处理数据
# 暴露组
exposure_data <- fread(“文件名", sep = "\t", header = FALSE)
colnames(exposure_data) <- c("chr", "pos", "ref", "alt", "rsid", 
                             "exposure", "pval", "mlogp", "beta", 
                             "se", "eaf", "af_cases", "af_controls")
# 过滤（例如，P值小于 5e-08）
exposure_data <- exposure_data[pval < 5e-08]
exposure_data <- exposure_data %>%
  rename(
    chr = chr,
    pos = pos,
    ref=ref,
    alt=alt,
    rsid = rsid,
    exposure=exposure,
    pval = pval,
    beta = beta,
    se = se,
    eaf = eaf
  ) %>%
  select(chr, pos,ref,alt, rsid,exposure, pval, beta, se, eaf)

# 结局组（子痫前期）
outcome_data <- fread("文件名", sep = "\t", header = FALSE)
colnames(outcome_data) <- c("chr", "pos", "ref", "alt", "rsid", 
                            "outcome", "pval", "mlogp", "beta", 
                            "se", "eaf", "af_cases", "af_controls")

# 过滤（例如，P值小于 5e-08）
outcome_data <- outcome_data[pval < 5e-08]
outcome_data <- outcome_data %>%
  rename(
    chr = chr,
    pos = pos,
    ref=ref,
    alt=alt,
    rsid = rsid,
    outcome=outcome,
    pval = pval,
    beta = beta,
    se = se,
    eaf = eaf
  ) %>%
  select(chr, pos,ref,alt, rsid,outcome, pval, beta, se, eaf)


# 5. SNP clumping
# 加载必要包
library(TwoSampleMR)
library(ieugwasr)


# 设置 PLINK 路径（根据实际安装路径调整）
options(plink = "C:/Users/。tp/plink_win64_20241022/plink.exe")

# 设置本地参考面板路径
options(ieugwasr_ld = "D:/R Project/MR progress/1kg.v3/EUR/EUR")

# 设置临时文件夹
output_dir <- "C:/Clump_Results"
dir.create(output_dir, showWarnings = FALSE)


# 初始化列表以存储每个染色体的clump结果
clumped_list <- list()

# 对每个染色体进行Clumping
chromosomes <- unique(exposure_data$chr)
for (chr in chromosomes) {
  subset_data <- exposure_data[exposure_data$chr == chr, ]
  
  # 确保子集数据不为空
  if (nrow(subset_data) == 0) next
  
  clumped_subset <- ieugwasr::ld_clump(
    dat = subset_data,
    clump_r2 = 0.001,
    clump_kb = 1000,
    clump_p = 5e-08,
    bfile = "D:/R Project/MR progress/1kg.v3/EUR/EUR",
    plink = "C:/Users/。tp/plink_win64_20241022/plink.exe"
  )
  
  # 保存每个染色体的结果
  output_path <- file.path(output_dir, paste0("chr", chr, "_clumped.txt"))
  write.table(clumped_subset, output_path, sep = "\t", row.names = FALSE)
  clumped_list[[as.character(chr)]] <- clumped_subset
}

# 合并所有染色体的Clump结果
exposure_data_clumped <- do.call(rbind, clumped_list)

# 检查是否成功获取Clump结果
if (is.null(exposure_data_clumped)) {
  stop("No SNPs remained after clumping. Check input data and clumping parameters.")
}

# 提取结局数据
# 确保 outcome_data 包含所需的列
# 1. 将data.table转换为data.frame
outcome_data <- data.frame(outcome_data)

# 2. 清理无效SNP（移除rsid列中包含非rs开头的行）
outcome_data <- outcome_data[grepl("^rs", outcome_data$rsid), ]

# 3. 调整列名映射（根据实际数据列名修改）
colnames(outcome_data) <- c("chr", "pos", "ref", "alt", "rsid", 
                            "nearest_genes", "pval", "beta", "sebeta", 
                            "af_alt")

# 转换数据类型为数值
outcome_data$beta <- as.numeric(outcome_data$beta)
outcome_data$pval <- as.numeric(outcome_data$pval)
outcome_data$sebeta <- as.numeric(outcome_data$sebeta)
outcome_data$af_alt <- as.numeric(outcome_data$af_alt)

# 移除包含NA的行
outcome_data <- outcome_data[complete.cases(outcome_data[, c("rsid", "beta", "sebeta", "af_alt", "pval")]), ]

# --------------------------
# 2. 正确调用format_data()
# --------------------------
outcome_dat <- TwoSampleMR::format_data(
  outcome_data,
  type = "outcome",
  snps = exposure_data_clumped$rsid,  # 确保已正确生成exposure_data_clumped
  phenotype_col = "nearest_genes",    # 根据实际表型列调整
  snp_col = "rsid",
  beta_col = "beta",
  se_col = "sebeta",                  # 使用实际列名
  eaf_col = "af_alt",                 # 使用效应等位基因频率列
  effect_allele_col = "alt",
  other_allele_col = "ref",
  pval_col = "pval"
)
# --------------------------
# 1. 格式化暴露数据
# --------------------------
# 确保暴露数据是data.frame格式
exposure_data_clumped <- data.frame(exposure_data_clumped)

# 使用format_data转换列名和结构
# --------------------------
# 1. 处理暴露数据
# --------------------------
# 转换数据类型
exposure_data_clumped$beta <- as.numeric(exposure_data_clumped$beta)
exposure_data_clumped$se <- as.numeric(exposure_data_clumped$se)
exposure_data_clumped$eaf <- as.numeric(exposure_data_clumped$eaf)
exposure_data_clumped$pval <- as.numeric(exposure_data_clumped$pval)
exposure_data_clumped <- exposure_data_clumped[complete.cases(exposure_data_clumped), ]

# 格式化暴露数据
library(dplyr)
exposure_data_clumped <- exposure_data_clumped %>%
  group_by(id, rsid) %>%
  slice(1) %>%
  ungroup()

# 强制转换数据类型
exposure_data_clumped$beta <- as.numeric(exposure_data_clumped$beta)
exposure_data_clumped$se <- as.numeric(exposure_data_clumped$se)
exposure_data_clumped$eaf <- as.numeric(exposure_data_clumped$eaf)
exposure_data_clumped$pval <- as.numeric(exposure_data_clumped$pval)
exposure_data_clumped <- exposure_data_clumped[complete.cases(exposure_data_clumped), ]

# 添加暴露ID
exposure_data_clumped$id <- "CARBO"

# 格式化暴露数据
exposure_dat <- TwoSampleMR::format_data(
  exposure_data_clumped,
  type = "exposure",
  snp_col = "rsid",
  beta_col = "beta",
  se_col = "se",
  effect_allele_col = "alt",
  other_allele_col = "ref",
  eaf_col = "eaf",
  pval_col = "pval",
  id_col = "id",               # 使用新增的id列
  phenotype_col = "exposure"   # 使用实际表型列
)

# 协调数据并运行MR
harmonised_data <- TwoSampleMR::harmonise_data(exposure_dat, outcome_dat)
result <- mr(harmonised_data)
print(result)
# 异质性检验(p<0.05)
mr_heterogeneity(harmonised_data)
# 水平多效性检验(p<0.05)
mr_pleiotropy_test(harmonised_data)

# 散点图
p1 <- mr_scatter_plot(result, harmonised_data)
p1
# 要是只想展示某几种方法，在进行 MR 分析 的步骤时，指定方法即可
#result_add_method <- mr(data, method_list = c("mr_ivw", "mr_egger_regression", "mr_weighted_median"))
#p1_1 <- mr_scatter_plot(result_add_method, data)
#p1_1


# 森林图
result_single <- mr_singlesnp(harmonised_data)
p2 <- mr_forest_plot(result_single)
p2
# 和上面一样，想展示指定方法的结果，在函数中指定即可
#result_single_add_method <- mr_singlesnp(data, all_method = c("mr_ivw", "mr_two_sample_ml"))
#p2_2 <- mr_forest_plot(result_single_add_method)
#p2_2


# 留一图
result_loo <- mr_leaveoneout(harmonised_data)
p3 <- mr_leaveoneout_plot(result_loo)
p3

# 漏斗图
result_single <- mr_singlesnp(harmonised_data)
p4 <- mr_funnel_plot(result_single)
p4

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-03-10 22:17
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

芬兰数据库孟德尔随机化R语言纠错

你遇到了使用孟德尔随机化（MR）在芬兰数据库中的问题。问题主要是关于exposure.id的生成和列名重命名。

首先，exposure.id是自动生成的，可以在MR中使用gen_random_id()函数来生成。其次，列名重命名可以使用rename()函数来实现。

以下是一个简单的示例代码：

library(MR) # 生成 exposure.id df$exposure.id <- gen_random_id(nrow(df)) # 重命名列名 df <- rename(df, c("old_name" = "new_name"))

其中，df是你的数据框，gen_random_id()函数生成的exposure.id将被添加到数据框中，rename()函数将旧列名重命名为新列名。

如果你遇到了其他问题，欢迎提供更多的信息，我将尽力帮助你解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

R语言复现孟德尔随机化文章[可运行源码]
2025-12-15 06:03

本文详细讲解了如何运用R语言复现一篇发表于国际知名期刊上的孟德尔随机化研究，该研究探讨了精神疾病对骨质疏松症风险的潜在影响。R语言作为一种强大的统计编程语言，不仅具有庞大的库和包支持，还能够处理大量数据...
药学视角零基础复现基于IEU数据库的孟德尔随机化在线分析（四）-RStudio脚本文件的下载
2024-07-17 10:56

药学视角零基础复现基于IEU数据库的孟德尔随机化在线分析（四）-RStudio脚本文件的下载
全代码分享｜R语言孟德尔随机化怎么做？TwoSampleMR包MR一套标准流程
2024-03-04 11:28

MultiRibo的博客 孟德尔随机化(，MR)是一种利用基因变异作为工具变量来评估暴露与结果之间因果关系的统计方法。它基于这样的原理：基因变异是在出生前就随机分配给个体的，类似于在随机对照试验中随机分配治疗，因此可以帮助区分因果...
孟德尔随机化（一）| 随处可见的孟德尔随机化到底是什么？
2024-02-06 23:18

生信小白要知道的博客近来咱们的各大群中，经常有小伙伴们会问到孟德尔随机化相关的问题，鉴于它的出现频率过高，咱们就不得不来唠唠喽！
药学视角零基础复现基于IEU数据库的孟德尔随机化在线分析（一）——R、R Studio的安装及R Studio简介
2024-07-15 15:30

xinhao007的博客这就是R、R Studio的安装及R Studio简介，下一章将进行基于IEU数据库的孟德尔随机化在线分析的R包的安装以及访问令牌的获取和环境部署。Rstudio的功能很多，但是对于学习孟德尔随机化的数据处理而言我们咩有必要都去...
孟德尔随机化、R语言，报错，如何解决？
2024-07-30 14:21

bug菌¹的博客问题描述 孟德尔随机化、R语言。因为最近写孟德尔随机化的论文，用的R包比较频繁，结果extract_instructments 的线上功能用不了，一直报错，后来也去github上报错，写信给数据库，没啥实际进展。后来下载了GWAS...
孟德尔随机化方法与应用[可运行源码]
2025-11-12 16:37

TwoSampleMR包是R语言环境下用于执行孟德尔随机化分析的一个工具，它允许用户更高效地处理遗传数据，进行SNP的选择和效应值的提取。利用这个包，研究者能够对大量遗传变异进行分析，从而使得研究结论更加稳健可靠。...
R数据分析：孟德尔随机化实操
2022-12-14 21:30

公众号Codewar原创作者的博客小结今天给大家写了孟德尔随机话的实操，文章图示例来自【中文孟德尔随机化】英国布里斯托大学MRC-IEU《R语言做孟德尔随机化》第一章：用MRBase网页工具和R包TwoSampleMR做两样本孟德尔随机化_哔哩哔哩_bilibili，...
731种免疫细胞与健康关系的孟德尔随机化分析及其应用生物统计学
2025-05-17 09:41

文中不仅汇总了原始数据，还进行了正向和反向的孟德尔随机化分析，并提供了一键循环计算F值和R方的功能。最终结果显示，某些免疫细胞的数量变化与疾病的发病风险有显著相关性。适合人群：对免疫学、遗传学、生物...
731种免疫细胞与健康关系的孟德尔随机化分析及其应用 - 生物统计学
2025-07-31 07:48

内容概要：本文探讨了731种免疫细胞与健康之间的因果关系，采用孟德尔随机化方法进行深入分析。研究通过严格的筛选条件（如1e-05、5e-06、5e-07、5e-08），确保数据的准确性和可靠性。文中不仅汇总了详细的原始数据...
药学视角零基础复现基于IEU数据库的孟德尔随机化在线分析（二）——R包的安装以及访问令牌的获取
2024-07-16 13:58

xinhao007的博客 孟德尔随机化所有R包的安装和访问令牌的获取，下一个章节我们将进行IEU数据的选择、获取以及处理。
【孟德尔随机化】Leave-one-out analysis的异常点，判断
2025-03-16 19:58

仿生bug的博客 ‘
看完不会来揍我 | 孟德尔随机化（二）—— 代码实操 | 附代码注释 + 结果解读
2024-04-15 17:23

生信小白要知道的博客最近真的是超超超超超超超级多的小伙伴们在咨询孟德尔随机化相关的问题和课程，意想不到的那种多！那我怎么办嘞！整呗！主打的就是一个宠粉！
R语言实现快速去除孟德尔随机化研究中的混杂因素（1）
2023-12-25 21:09

weixin_49320263的博客 R语言实现快速去除孟德尔随机化研究中的混杂因素（1）
孟德尔随机化MR：原理和应用
2025-07-19 10:33

Omics Pro的博客 孟德尔随机化（Mendelian randomization，MR）是工具变量（Instrumental variable，IV）分析的一种应用，旨在非实验性数据中检验因果假设。在MR分析中，利用遗传变异（通常是单核苷酸多态性SNP）作为潜在风险因素的...
R语言forestploter包优雅的绘制孟德尔随机化研究森林图
2023-07-14 13:59

天桥下的卖艺者的博客我们今天来做个上图这样的森林图，使用的是《R语言复现一篇6分的孟德尔随机化文章》的数据，这篇文章作者直接提供了数据，所以我就直接拿来用了。文章作者制作的这个表格非常整齐，我们提取需要使用str_sub函数，这...
零代码做孟德尔随机化！这个云平台可以一键式操作！
2025-07-21 15:19

小翰生信的博客翰佰尔云分析平台HiOmics推出了孟德尔随机化新工具！GWAS数据提取，结果可视化，敏感性分析统统一站式搞定，零代码操作，便可助力科研小白，一气呵成！！！
R语言进行孟德尔随机化+meta分析（2）----基于R和stata
2023-09-28 09:14

天桥下的卖艺者的博客这里我们要注意一下，循环系统是有很多疾病的，就拿心房颤动这个疾病来说，作者的数据很多很大，他是把GWAS meta-analysis、FinnGen这2个数据库的结果进行相加，再来做meta分析，如果你的数据没有这么大，你把每个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

芬兰数据库孟德尔随机化R语言纠错

4条回答 默认 最新

芬兰数据库孟德尔随机化R语言纠错

问题事件

4条回答默认最新