m0_65514548 2023-02-17 14:47 采纳率: 100%
浏览 34
已结题

R语言 将一列内的多个数据分别提取

R语言编程问题

img


这些数据全部集中在数据框的一列当中,但是我现在只需要 Dbxref=GeneID:数字 这个数据,请问该如何将其提取并输出出来

  • 写回答

1条回答 默认 最新

  • GameTomato 2023-02-17 15:45
    关注

    可以尝试使用正则表达式来实现
    1.for循环遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 定义结果向量
    geneIDs <- character(length(data))
    
    # 提取 GeneID 数据
    for (i in seq_along(data)) {
      matches <- regmatches(data[i], regexpr("Dbxref=GeneID:[^\\s]+", data[i], ignore.case = TRUE))
      if (length(matches) > 0) {
        geneIDs[i] <- gsub("Dbxref=GeneID:", "", matches)
      }
    }
    
    # 输出结果
    print(geneIDs)
    

    2.lapply()函数遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 提取 GeneID 数据
    geneIDs <- unlist(lapply(data, function(x) {
      matches <- regmatches(x, regexpr("Dbxref=GeneID:[^\\s]+", x, ignore.case = TRUE))
      if (length(matches) > 0) {
        gsub("Dbxref=GeneID:", "", matches)
      } else {
        ""
      }
    }))
    
    # 输出结果
    print(geneIDs)
    

    希望可以帮到你~~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题
  • ¥15 目标检测项目无法读取视频
  • ¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
  • ¥100 求采集电商背景音乐的方法
  • ¥15 数学建模竞赛求指导帮助