m0_65514548 2023-02-17 14:47 采纳率: 100%
浏览 34
已结题

R语言 将一列内的多个数据分别提取

R语言编程问题

img


这些数据全部集中在数据框的一列当中,但是我现在只需要 Dbxref=GeneID:数字 这个数据,请问该如何将其提取并输出出来

  • 写回答

1条回答 默认 最新

  • GameTomato 2023-02-17 15:45
    关注

    可以尝试使用正则表达式来实现
    1.for循环遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 定义结果向量
    geneIDs <- character(length(data))
    
    # 提取 GeneID 数据
    for (i in seq_along(data)) {
      matches <- regmatches(data[i], regexpr("Dbxref=GeneID:[^\\s]+", data[i], ignore.case = TRUE))
      if (length(matches) > 0) {
        geneIDs[i] <- gsub("Dbxref=GeneID:", "", matches)
      }
    }
    
    # 输出结果
    print(geneIDs)
    

    2.lapply()函数遍历

    # 创建示例数据
    data <- c("ID=CD266144.1:1", "Name=CD266144.1", "Dbxref=GeneID:101095186", "gbkey=Src", "chromosome=X", 
              "ID=CD266144.1:2", "Name=CD266144.1", "Dbxref=GeneID:101095187", "gbkey=Src", "chromosome=X")
    
    # 提取 GeneID 数据
    geneIDs <- unlist(lapply(data, function(x) {
      matches <- regmatches(x, regexpr("Dbxref=GeneID:[^\\s]+", x, ignore.case = TRUE))
      if (length(matches) > 0) {
        gsub("Dbxref=GeneID:", "", matches)
      } else {
        ""
      }
    }))
    
    # 输出结果
    print(geneIDs)
    

    希望可以帮到你~~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥15 springboot+vue 集成keycloak sso到阿里云
  • ¥15 win7系统进入桌面过一秒后突然黑屏
  • ¥30 backtrader对于期货交易的现金和资产计算的问题
  • ¥15 求C# .net4.8小报表工具
  • ¥15 安装虚拟机时出现问题
  • ¥15 Selenium+docker Chrome不能运行
  • ¥15 mac电脑,安装charles后无法正常抓包
  • ¥18 visio打开文件一直显示文件未找到
  • ¥15 请教一下,openwrt如何让同一usb储存设备拔插后设备符号不变?
  • ¥50 使用quartz框架进行分布式任务定时调度,启动了两个实例,但是只有一个实例参与调度,另外一个实例没有参与调度,不知道是为什么?请各位帮助看一下原因!!