关于#r语言#的问题，请各位专家解答！

最近在暑期培训学习R语言，学习生物信息相关知识，但是本科完全没有学过，暑假还想学车，学艺不精还请各位海涵，想请教这个火山图好像有点丑陋了:(是不是我的代码哪里出问题了。数据是GSE145313

library(DESeq2)
library(tidyverse)
library(ggplot2)
library(ggrepel)
library(clusterProfiler)
library(org.Hs.eg.db)
# 1. 数据预处理
count_data <- GSE145313_POLK_raw_counts

clean_data <- count_data %>% 
  filter(!is.na(Ensembl)) %>% 
  distinct(Ensembl, .keep_all = TRUE) 
# 2. 构建DESeq2对象
count_matrix <- clean_data %>%
  dplyr::select(-hgnc_symbol) %>%
  column_to_rownames("Ensembl") %>%
  as.matrix()

sample_info <- data.frame(
  sample = colnames(count_matrix),
  condition = factor(
    rep(c("Control", "POLK_KO"), each = 3), 
    levels = c("Control", "POLK_KO")
  ),
  row.names = colnames(count_matrix)
)
# 3. 差异分析（添加低表达过滤）
dds <- DESeqDataSetFromMatrix(
  countData = count_matrix,
  colData = sample_info,
  design = ~ condition
)

# 过滤低表达基因（counts总和>10）
dds <- dds[rowSums(counts(dds)) > 10, ]
dds <- DESeq(dds)
# 4. 结果提取与注释
res <- results(
  dds,
  contrast = c("condition", "POLK_KO", "Control"),
  alpha = 0.05,
  #lfcThreshold = 1
)

res_annotated <- as.data.frame(res) %>%
  rownames_to_column("Ensembl") %>%
  left_join(
    distinct(clean_data, Ensembl, hgnc_symbol),
    by = "Ensembl"
  ) %>% 
  relocate(hgnc_symbol, .after = Ensembl)
# 5. 质量控制
plotDispEsts(dds)# 检查离散度
vsd <- vst(dds, blind = FALSE)#  PCA分析
plotPCA(vsd, intgroup = "condition") + 
  geom_label(aes(label = name)) 
sampleDists <- dist(t(assay(vsd)))
pheatmap::pheatmap(as.matrix(sampleDists))#样本相关性热图
# 6. 火山图
res_annotated <- res_annotated %>%
  mutate(
    group = case_when(
      padj < 0.05 & log2FoldChange > 1 ~ "Upregulated",
      padj < 0.05 & log2FoldChange < -1 ~ "Downregulated",
      TRUE ~ "Not significant"
    )
  )
# 仅标注显著差异基因中的top10
top10_sig <- res_annotated %>%
  filter(group %in% c("Upregulated", "Downregulated")) %>%
  arrange(desc(abs(log2FoldChange))) %>%
  head(10)

ggplot(res_annotated, aes(x = log2FoldChange, y = -log10(padj), color = group)) +
  geom_point(alpha = 0.6, size = 2) +
  scale_color_manual(values = c("blue", "grey", "red")) +
  geom_vline(xintercept = c(-1, 1), linetype = "dashed") +
  geom_hline(yintercept = -log10(0.05), linetype = "dashed") +
  geom_text_repel(
    data = top10_sig,
    aes(label = hgnc_symbol),
    size = 4,
    box.padding = 0.5,
    max.overlaps = 20
  ) +
  labs(
    title = "POLK Knockout vs Control",
    x = "Log2 Fold Change",
    y = "-Log10 Adjusted P-value"
  ) + theme_minimal()
# 7. 结果保存
write_csv(res_annotated, "DESeq2_full_results.csv")
# 保存显著差异基因（应用筛选条件）
sig_genes <- res_annotated %>%
  filter(padj < 0.05 & abs(log2FoldChange) > 1) %>%
  arrange(padj)

write_csv(sig_genes, "Significant_DEGs.csv")

# dotpic
# 从之前结果中提取显著差异基因（padj<0.05且|log2FoldChange|>1）
sig_genes <- res_annotated %>% 
  filter(padj < 0.05 & abs(log2FoldChange) > 1)
# 1. 基因ID转换（Ensembl -> Entrez）
entrez_ids <- bitr(
  sig_genes$Ensembl,
  fromType = "ENSEMBL",
  toType = "ENTREZID",
  OrgDb = org.Hs.eg.db
)
# 2. KEGG富集分析
kegg_enrich <- enrichKEGG(
  gene = entrez_ids$ENTREZID,
  organism = "hsa",  # 人类KEGG代码
  keyType = "kegg",
  pvalueCutoff = 0.05,
  pAdjustMethod = "BH",
  qvalueCutoff = 0.2
)
# 3. 结果可视化
# 条形图（按计数排序）
barplot(kegg_enrich, 
        showCategory = 15, 
        title = "KEGG Pathway Enrichment",
        font.size = 8)
# 点图（综合展示富集水平）
dotplot(kegg_enrich, 
        showCategory = 15, 
        title = "KEGG Pathway Enrichment")

# 4. 保存结果
write_csv(as.data.frame(kegg_enrich), "KEGG_Enrichment_Results.csv")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-07-03 23:08
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

解答

火山图（Heatmap）可能会因为数据的分布、颜色映射、图形设置等原因而看起来不太美观。下面是一些可能的解决方案：

数据处理：检查数据的分布和缺失值，确保数据是合理的。可以使用 summary() 函数来查看数据的基本统计信息。
颜色映射：尝试使用不同的颜色映射来提高图形的可读性。可以使用 colorRampPalette() 函数来创建自定义的颜色映射。
图形设置：调整图形的设置，例如调整 x 轴和 y 轴的刻度、添加标题和标签等。可以使用 par() 函数来设置图形的参数。
数据聚类：如果数据中存在聚类现象，可以使用聚类算法（如 k-means 或 hierarchical clustering）来聚类数据，然后使用 heatmaps 来 visualize 聚类结果。

以下是一个简单的示例代码，使用 heatmap() 函数来创建火山图：

library(gplots) data(GSE145313) # 数据处理 GSE145313$gene <- as.factor(GSE145313$gene) GSE145313$condition <- as.factor(GSE145313$condition) # 创建火山图 heatmap(t(GSE145313[, 2:ncol(GSE145313)]), col = colorRampPalette(c("blue", "white", "red"))(100), scale = "row", main = "Heatmap of GSE145313")

请注意，这只是一个简单的示例代码，实际情况中可能需要更多的数据处理和调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用R语言学习机器学习？
2025-05-27 10:45

cda2024的博客通过上述介绍相信大家已经对如何利用R语言学习机器学习有了较为全面的认识。从基础理论到具体实践，再到进阶技巧，每一个环节都至关重要。希望各位读者能够保持好奇心和求知欲，在这条充满挑战却又无比精彩的道路上...
包邮！送45本R语言与数据分析经典书籍
2019-07-05 11:51

R语言中文社区的博客来给大家送一波福利，这次联系了 8个好友一起给各位送书，每个号送 5 本，一共 45本，还包邮哦。01 书怎么送很简单，关注下面的公众号，并在后台回复「读书」，弹出小程序...
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）
2025-01-05 16:17

青云交的博客正文：一、Java 大数据驱动文本分析与 NLP：开启智慧之门 1.1 技术融合的强大力量 Java，这颗编程苍穹中熠熠生辉的恒星，凭借其超凡卓越的稳定性，宛如巍峨高山般屹立不倒，为复杂的文本分析与自然语言处理任务...
跟着Nature学作图：最强“ 颠覆性 ”技术，您确定不学学？助力发Nature顶刊！...
2022-10-13 09:10

木舟笔记的博客 R语言简介及安装，RStudio的安装及使用说明。 3. R语言语法介绍及常用命令。 4. 数据处理功能及统计应用。 5. R语言画图实操：小提琴图，箱型图，火山图，热图，网络图，GO、KEGG富集图，GSEA等图形绘制。第二天 ...
人工智能最全学习路线！8大板块，36本书，赶紧上车！
2020-08-16 22:07

文文学霸的博客各位亲，大家好！今天又带着好书推荐来啦，今天的36本书单都超级适合这个夏天，既有人工智能入门、Python、深度学习、机器学习相关题材哦！而且，人民邮电出版社异步社区5周年庆，全场5折，...
第八届全国功能基因组学高峰论坛-微生物分会场完美落幕！
2021-10-23 07:00

刘永鑫Adam的博客大会得到了各位专家、学者的大力支持，本次论坛微生物分会场共邀请到中国科学院水生生物研究所缪炜研究员、山东大学张玉忠教授、自然资源部第三海洋研究所龚林锋助理研究员、中国科学院海洋研究所赵峰副研究员、...
Nature重磅综述;关于机器学习应用单细胞组学+RNA-seq,你想知道的都在这
2022-09-19 09:10

生信宝典的博客 R语言简介及安装，RStudio的安装及使用说明。 3. R语言语法介绍及常用命令。 4. 数据处理功能及统计应用。 5. R语言画图实操：小提琴图，箱型图，火山图，热图，网络图，GO、KEGG富集图，GSEA等图形绘制。第二天 ...
AI大模型岗位薪资揭秘：2026大模型岗位薪资，祝各位都上岸！
2025-11-21 16:24

大模型教程的博客主要岗位包括AI系统架构师、自然语言处理专家、AI产品经理等8类，年薪普遍在80-200万元之间。这些岗位通常要求硕士及以上学历，计算机科学或相关专业背景，目标院校集中在清华、北大等顶尖高校。典型雇主包括华为、...
自然语言处理入门：让机器读懂人话的神奇魔法✨(三)
2025-07-10 11:39

橡晟的博客自然语言处理（Natural Language Processing，NLP）：让计算机能够理解、分析、生成人类语言的技术。听起来还是很抽象？# 抽取式摘要：选择原文中的重要句子原文：[1000字的新闻]摘要：选择最重要的3句话# 生成式...
10从零开始学Java之开发Java必备软件Intellij idea的安装配置与使用
2023-03-20 09:09

一一哥Sun的博客如果你还有什么问题，请在评论区给壹哥留言或私信，我看到后会及时解答你的疑惑。 -----------------------------正片已结束，来根事后烟---------------------------- 七. 结语至此，壹哥就把最好用的IDE开发工具...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月3日

关于#r语言#的问题，请各位专家解答！

6条回答 默认 最新

解答

问题事件

6条回答默认最新