m0_65514548 2023-02-17 14:47 采纳率: 100%
浏览 34
已结题

R语言 将一列内的多个数据分别提取

R语言编程问题

img


这些数据全部集中在数据框的一列当中,但是我现在只需要 Dbxref=GeneID:数字 这个数据,请问该如何将其提取并输出出来

  • 写回答

1条回答 默认 最新

  • GameTomato 2023-02-17 15:45
    关注

    可以尝试使用正则表达式来实现
    1.for循环遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 定义结果向量
    geneIDs <- character(length(data))
    
    # 提取 GeneID 数据
    for (i in seq_along(data)) {
      matches <- regmatches(data[i], regexpr("Dbxref=GeneID:[^\\s]+", data[i], ignore.case = TRUE))
      if (length(matches) > 0) {
        geneIDs[i] <- gsub("Dbxref=GeneID:", "", matches)
      }
    }
    
    # 输出结果
    print(geneIDs)
    

    2.lapply()函数遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 提取 GeneID 数据
    geneIDs <- unlist(lapply(data, function(x) {
      matches <- regmatches(x, regexpr("Dbxref=GeneID:[^\\s]+", x, ignore.case = TRUE))
      if (length(matches) > 0) {
        gsub("Dbxref=GeneID:", "", matches)
      } else {
        ""
      }
    }))
    
    # 输出结果
    print(geneIDs)
    

    希望可以帮到你~~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥50 悬赏帮写C++编程 诚信
  • ¥15 端口连接数为什么会有限制
  • ¥15 安卓数据提交之后格式不对
  • ¥15 需要数据库运行的图片
  • ¥15 如何获取vue-video-editor?
  • ¥100 vs2019 mfc程序如何实现64*64/48*48大小的真彩色工具栏
  • ¥15 全志v3s耳机音频输出口怎么外接功放
  • ¥15 华为ensp使用基本ACL限制公司网络访问
  • ¥15 帮我做下照片上的PLC题
  • ¥15 labview2022 使用modbus报缺少依赖?