m0_65514548 2023-02-17 14:47 采纳率: 100%
浏览 34
已结题

R语言 将一列内的多个数据分别提取

R语言编程问题

img


这些数据全部集中在数据框的一列当中,但是我现在只需要 Dbxref=GeneID:数字 这个数据,请问该如何将其提取并输出出来

  • 写回答

1条回答 默认 最新

  • GameTomato 2023-02-17 15:45
    关注

    可以尝试使用正则表达式来实现
    1.for循环遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 定义结果向量
    geneIDs <- character(length(data))
    
    # 提取 GeneID 数据
    for (i in seq_along(data)) {
      matches <- regmatches(data[i], regexpr("Dbxref=GeneID:[^\\s]+", data[i], ignore.case = TRUE))
      if (length(matches) > 0) {
        geneIDs[i] <- gsub("Dbxref=GeneID:", "", matches)
      }
    }
    
    # 输出结果
    print(geneIDs)
    

    2.lapply()函数遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 提取 GeneID 数据
    geneIDs <- unlist(lapply(data, function(x) {
      matches <- regmatches(x, regexpr("Dbxref=GeneID:[^\\s]+", x, ignore.case = TRUE))
      if (length(matches) > 0) {
        gsub("Dbxref=GeneID:", "", matches)
      } else {
        ""
      }
    }))
    
    # 输出结果
    print(geneIDs)
    

    希望可以帮到你~~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改
  • ¥20 wireshark抓不到vlan