TCGA临床数据cbind：see arg 36

合并TCGA临床数据出现不同案例列数不同而难以cbind

library("XML")
library("methods")
dir="all/"      
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)##导入文件
cl = lapply(all_fiels, function(x){
  result <- xmlParse(file = file.path(dir,x)) 
  rootnode <- xmlRoot(result)  
  xmldataframe <- xmlToDataFrame( rootnode[2] ) 
  return(t(xmldataframe)) })
clinical <- t(do.call(cbind,cl))
write.table(clinical,file="clinical.txt",sep="\t",quote=F,row.names = F)##建议保存一下 一边后续使用

错误内容是：第10行代码：

Error in (function (..., deparse.level = 1)  : 
  number of rows of matrices must match (see arg 36)

请教该如何解决?
数据附上：[]
(--来自百度网盘超级会员V6的分享
hi，这是我用百度网盘分享的内容~复制这段内容打开「百度网盘」APP即可获取
链接:https://pan.baidu.com/s/1Bx18Syf7_ngZRI2nSbGgUA
提取码:51e6)

初步构思：来自不同病重个案的临床数据列数不同因而不能cbind
解决方法：1.分开处理（但是不知道那些是一样的那些是不一样的
解决方法：2.请各位指点一下如何修改现有代码实现目的。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-03-17 23:56
关注
参考GPT和自己的思路：这个错误提示说明你尝试使用cbind函数合并数据时，发现有些矩阵的行数不一致，无法进行合并。根据你的代码，我猜测这个问题可能是由于不同的xml文件中，数据的列数不同所导致的。

为了解决这个问题，你可以尝试以下几种方法：

1 对于不同的xml文件，手动添加缺失的列，并将缺失列填充为NA，确保每个矩阵的列数相同。具体来说，你可以先获取所有xml文件中出现过的列名，然后将这些列名添加到每个矩阵中，最后使用cbind函数进行合并。

2 如果你只需要合并每个xml文件中相同的列，而对于不同的列则不需要合并，那么可以使用merge函数进行合并。merge函数可以根据指定的列将多个数据框合并为一个数据框，合并时只保留指定的列，其它列将被删除。你可以先将每个xml文件转换为数据框，然后使用merge函数进行合并。

下面是示例代码，供你参考：

方法一：

library("XML") library("methods") dir="all/" all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)##导入文件 all_cols <- character(0) # 存储所有列名 cl <- lapply(all_fiels, function(x){ result <- xmlParse(file = file.path(dir,x)) rootnode <- xmlRoot(result) xmldataframe <- xmlToDataFrame(rootnode[2]) # 将每个数据框的列名存储到all_cols中 all_cols <<- unique(c(all_cols, names(xmldataframe))) # 添加缺失的列 xmldataframe[setdiff(all_cols, names(xmldataframe))] <- NA return(t(xmldataframe)) }) clinical <- t(do.call(cbind,cl)) write.table(clinical,file="clinical.txt",sep="\t",quote=F,row.names = F)

方法二：

library("XML") library("methods") dir="all/" all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)##导入文件 cl <- lapply(all_fiels, function(x){ result <- xmlParse(file = file.path(dir,x)) rootnode <- xmlRoot(result) xmldataframe <- xmlToDataFrame(rootnode[2]) return(xmldataframe) }) # 根据SampleID列合并数据 clinical <- Reduce(function(x, y) merge(x, y, by = "SampleID"), cl) write.table(clinical,file="clinical.txt",sep="\t",quote=F,row.names = F)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

TCGA临床数据下载与整理[项目源码]
2025-11-12 16:59

整个流程的介绍，不仅涵盖了数据下载、清洗整理到生存分析准备的具体步骤，还提供了相应的R语言代码示例，这为初学者在处理TCGA临床数据时提供了重要的指导。通过跟随这些步骤和代码示例，初学者可以逐步建立起处理...
TCGA临床数据提取_perl提取tcga临床数据,perl读取临床数据报错
2021-05-04 14:18

在进行TCGA临床数据的提取时，程序员通常会使用编程语言如Perl，因为Perl具有强大的文本处理能力，适合处理大量的结构化和非结构化数据。Perl读取临床数据的常见步骤包括： 1. **数据下载**：首先，你需要从TCGA的...
TCGA临床数据提取
2019-04-12 18:32

TCGA临床数据提取是指通过编写特定的程序或使用现有的工具，从癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库中提取与癌症患者相关的临床信息。这些数据通常包括患者的生存时间、是否存活、死亡时间以及其他...
新版TCGA数据整理，通过R语言实现TCGA数据整理
2024-04-05 03:05

R语言是一种用于统计计算和图形表示的编程语言和软件环境。R语言在生物信息学领域得到了广泛的应用，特别是在处理和分析基因组数据方面。通过R语言，研究人员可以方便地对TCGA数据进行下载、处理、分析和可视化。 #...
TCGA所有癌种临床数据整理
2025-08-22 09:20

在癌症研究领域，TCGA（The Cancer Genome Atlas）是一个具有里程碑意义的项目，它集合了来自不同癌症类型患者的基因组、转录组、蛋白质组以及临床数据，为科学家提供了一个庞大的资源库以研究癌症的生物学特性。...
学习笔记 — TCGA 临床数据的下载与整理
2024-08-23 16:45

扭蛋黄比腚的博客 TCGA数据库临床数据下载与整理
TCGA-THCA-mRNA表达数据-甲状腺癌表达及临床数据集整理
2023-01-18 14:39

TCGA（The Cancer Genome Atlas）是一项大型的国际合作项目，旨在通过全面分析多种癌症类型的基因组、转录组、表观遗传学和临床信息，来增进我们对癌症发病机制的理解。THCA代表甲状腺癌（Thyroid Carcinoma），是...
R语言下载GDC TCGA数据！注：非R包
2023-08-17 15:20

Queen_yu的博客 R语言获取 GDC TCGA数据库数据
TCGA-SARC-mRNA表达数据——肉瘤表达及临床数据集整理
2022-04-18 11:50

TCGA-SARC数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-STAD-mRNA表达数据——胃癌表达及临床数据集整理
2022-03-21 20:03

TCGA-STAD数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-肺癌数据分析：来自TCGA数据集的肺癌数据分析项目
2021-02-15 17:28

TCGA肺癌数据分析该数据分析项目已在密歇根大学的2020年秋季我的Stats 600回归分析课程中完成。分析的数据包含肺癌患者的样本以及不同的临床因素及其基因组信息。在此分析中，我想回答以下问题：哪些mRNA基因表达...
TCGA-LAML-mRNA表达数据——急性白血病表达及临床数据集整理
2022-04-10 19:06

TCGA-LAML数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-临床基线三线表绘制R语言脚本
2025-08-22 09:26

TCGA-临床基线三线表绘制R语言脚本
TCGA-STAD-mRNA表达数据（TPM）-胃癌表达及临床数据集整理
2023-01-18 14:34

在实际分析中，可能会使用R语言的Bioconductor包（如DESeq2、edgeR等）或Python的生物信息学库（如Scanpy、Seurat等）进行数据处理和分析。首先，需要导入数据，然后进行log2转换，接下来可能进行数据的过滤（去除低...
TCGA数据分析流程[项目源码]
2025-11-13 07:04

TCGA数据分析流程是生物信息学领域中一个重要的研究方法，其主要用于癌症研究。TCGA（癌症基因组图谱）计划通过对各种癌症类型的基因组进行分析，提供了一个庞大的数据资源，包含超过2.5PB的基因组、表观基因组、...
TCGA-READ-mRNA表达数据——直肠癌表达及临床数据集整理
2022-04-05 20:48

TCGA-READ数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-BRCA-mRNA表达数据——乳腺癌表达及临床数据集整理
2022-04-05 21:04

TCGA-BRCA数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-UCEC-mRNA表达数据-子宫内膜癌表达及临床数据集整理
2023-01-18 14:42

TCGA（The Cancer Genome Atlas）是一项大型的国际合作项目，旨在通过全面分析多种癌症类型的基因组、转录组、表观遗传学和临床信息，来增进我们对癌症发病机制的理解。在这个特定的数据集中，关注的是子宫内膜癌...
TCGA-READ-mRNA表达数据（TPM）-直肠癌表达及临床数据集整理
2023-01-18 14:30

"TCGA-READ-mRNA表达数据（TPM）"是指TCGA对直肠腺癌（READ）患者mRNA转录水平的定量测量，使用了Transcripts Per Million (TPM)作为衡量标准。 TPM是一种标准化的量度方法，用于在不同样本间比较转录本丰度，它...
TCGA-BLCA-mRNA表达数据——膀胱癌表达及临床数据集整理
2022-04-10 19:24

TCGA-BLCA数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月17日

TCGA临床数据cbind：see arg 36

5条回答 默认 最新

问题事件

5条回答默认最新