dreamfly1993
dreamfly1993
2021-01-12 19:31
浏览 74

R语言gsub函数处理TCGA数据库样品名的问题

TCGA样品名:TCGA-H6-8124-11A-01R-2404-07;TCGA-H6-8124-01A-01R-2404-07

按“-”分隔,第四组11A,1开头为正常样品,01A,0开头为肿瘤样品。选择0开头样品。

#按“-”分隔,选第四组

group=sapply(strsplit(rownames(countst),"\\-"),"[",4)

#选第一个数字

group=sapply(strsplit(group,""),"[",1)

#这步是什么意思?gsub是替换函数,我运行了一下,不加这步后面group==0就运行不下去,提示:Error in data[, group == 0] : (下标)逻辑下标太长。但加了这步得到的还是1和0的结果,对数据类别和值都没有影响,这是为啥。
group=gsub("2","1",group)

#选择等于0的项
data=data[,group==0]

group=sapply(strsplit(rownames(countst),"\\."),"[",4)
group=sapply(strsplit(group,""),"[",1)
group=gsub("2","1",group)
data=data[,group==0]

谢谢~

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

相关推荐