m0_65514548 2023-02-17 14:47 采纳率: 100%
浏览 34
已结题

R语言 将一列内的多个数据分别提取

R语言编程问题

img


这些数据全部集中在数据框的一列当中,但是我现在只需要 Dbxref=GeneID:数字 这个数据,请问该如何将其提取并输出出来

  • 写回答

1条回答 默认 最新

  • GameTomato 2023-02-17 15:45
    关注

    可以尝试使用正则表达式来实现
    1.for循环遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 定义结果向量
    geneIDs <- character(length(data))
    
    # 提取 GeneID 数据
    for (i in seq_along(data)) {
      matches <- regmatches(data[i], regexpr("Dbxref=GeneID:[^\\s]+", data[i], ignore.case = TRUE))
      if (length(matches) > 0) {
        geneIDs[i] <- gsub("Dbxref=GeneID:", "", matches)
      }
    }
    
    # 输出结果
    print(geneIDs)
    

    2.lapply()函数遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 提取 GeneID 数据
    geneIDs <- unlist(lapply(data, function(x) {
      matches <- regmatches(x, regexpr("Dbxref=GeneID:[^\\s]+", x, ignore.case = TRUE))
      if (length(matches) > 0) {
        gsub("Dbxref=GeneID:", "", matches)
      } else {
        ""
      }
    }))
    
    # 输出结果
    print(geneIDs)
    

    希望可以帮到你~~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵