姚令武 2025-10-19 09:25 采纳率: 98.4%

已采纳

如何通过NCBI数据库查询SRR编号？

如何在NCBI数据库中通过样本信息反向查询对应的SRR编号？在使用NCBI数据库时，研究者常需根据已知的生物样本信息（如物种、组织类型或疾病状态）查找相关的高通量测序数据。然而，许多用户面临的问题是：如何从给定的样本描述或GSM/GSE编号出发，准确获取其对应的SRR编号（即原始测序记录）？该过程涉及在SRA（Sequence Read Archive）数据库中进行跨字段检索，常因元数据不完整或检索关键词不匹配导致结果缺失或不准确。此外，批量查询时如何利用SRA Run Selector或Entrez编程接口高效提取SRR编号，也是实际操作中的常见技术难点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

高级鱼 2025-10-19 09:26

关注

如何在NCBI数据库中通过样本信息反向查询对应的SRR编号？

1. 基础概念：理解NCBI中的关键数据标识符

在深入技术实现前，需明确NCBI中几个核心的元数据标识符：

GSE：Gene Expression Omnibus (GEO) 中的研究项目编号，代表一个完整的高通量实验研究。
GSM：GEO Sample，表示该研究中的单个样本条目，包含详细的样本描述（如组织类型、疾病状态等）。
SRR：Sequence Read Archive Run，对应一次测序运行的原始数据文件，是实际可用于下游分析的数据单元。
SRX：SRA Experiment，描述测序实验设计，多个SRR可归属于同一SRX。
SRP：SRA Study，等同于GSE，在SRA系统中的项目编号。

这些编号之间存在层级映射关系，构成了从“研究 → 样本 → 实验 → 测序运行”的链条。

2. 手动查询方法：基于网页界面的逐步追踪

当已知GSM或GSE编号时，可通过以下步骤手动获取SRR编号：

访问 GEO数据库，搜索目标GSE编号。
进入GSE详情页后，浏览其包含的所有GSM条目。
点击感兴趣的GSM条目，查看其“Sample characteristics”字段以确认样本属性（如物种、组织、疾病）。
在页面底部查找“Relations”部分，寻找“SRA: SRX...”链接。
点击SRX编号跳转至SRA数据库，页面将列出所有关联的SRR编号。
记录所需SRR编号，用于后续下载或分析。

3. 高级检索技巧：使用SRA Run Selector进行多条件筛选

对于没有明确GSE/GSM编号但有样本特征（如“Homo sapiens, lung tissue, adenocarcinoma”）的情况，推荐使用SRA Run Selector工具。

字段名	示例值	说明
Organism	Homo sapiens	必填项，支持拉丁学名或常见名
Library Source	TRANSCRIPTOMIC	可选cDNA、genomic、metagenomic等
Instrument Platform	Illumina NovaSeq 6000	限制平台类型提高精度
Additional filters	tissue: lung; disease: cancer	自由文本匹配元数据字段
Study Type	Transcriptome Analysis	帮助缩小范围
Collection Date	2020/01/01 - 2023/12/31	时间维度过滤
BioSample Attributes	age, sex, treatment	高级元数据字段
Number of Runs	>50	统计性约束条件
Data Type	RNA-Seq	功能导向筛选
Assembly	GRCh38	参考基因组版本信息

4. 自动化流程：利用Entrez Programming Utilities（E-utilities）实现批量查询

对于大规模数据分析任务，手动操作效率低下。可通过NCBI提供的E-utilities API实现自动化检索。


# 示例：通过esearch和efetch获取GSE关联的SRA信息
esearch -db gds -query "GSE12345" | \
elink -target sra | \
esummary | \
xtract -pattern DocumentSummary -element BioProject Accession Title

# 获取具体SRR编号列表
esearch -db sra -query "SRP123456" | \
efetch -format runinfo | \
cut -d ',' -f 1 > srr_list.txt

5. 编程接口实战：Python脚本整合Entrez与Pandas处理元数据

结合Biopython库与数据处理框架，构建可复用的查询管道。


from Bio import Entrez
import pandas as pd
import requests

def fetch_srr_from_gse(gse_id, email):
    Entrez.email = email
    handle = Entrez.esearch(db="gds", term=gse_id, retmax=1)
    record = Entrez.read(handle)
    gds_id = record["IdList"][0]
    
    link_handle = Entrez.elink(dbfrom="gds", id=gds_id, db="sra")
    link_record = Entrez.read(link_handle)
    
    if link_record[0]['LinkSetDb']:
        sra_ids = [link['Id'] for link in link_record[0]['LinkSetDb'][0]['Link']]
        run_info = []
        for sid in sra_ids:
            fetch = Entrez.efetch(db='sra', id=sid, retmode='runinfo')
            df = pd.read_csv(fetch, sep=',')
            run_info.append(df[['Run', 'ScientificName', 'SampleName', 'LibraryStrategy']])
        return pd.concat(run_info, ignore_index=True)
    else:
        return pd.DataFrame()

# 使用示例
result_df = fetch_srr_from_gse("GSE112345", "your_email@example.com")
print(result_df.head())

6. 元数据挑战与应对策略

实践中常遇到元数据缺失或不一致问题，影响检索准确性。以下是典型场景及解决方案：

问题1：GSM未直接链接SRA —— 尝试通过BioSample编号跨库检索。
Problem2：关键词拼写变体（如“lung carcinoma” vs “pulmonary neoplasm”）—— 构建同义词词典并使用正则模糊匹配。
Issue3：SRA元数据字段命名不统一（如“disease”, “pathology”, “diagnosis”）—— 使用OBI（Ontology for Biomedical Investigations）标准化术语。
Challenge4：权限限制或受控数据访问 —— 检查dbGaP注册状态，必要时申请访问许可。

7. 可视化工作流：SRR反向查询流程图

下图为完整的SRR反向查询逻辑路径：

graph TD A[起始输入] --> B{输入类型} B -->|GSE编号| C[访问GEO页面] B -->|GSM编号| D[解析样本元数据] B -->|样本描述| E[使用SRA Run Selector] C --> F[提取SRP/SRX链接] D --> F E --> G[执行多字段检索] F --> H[跳转至SRA] G --> H H --> I[获取SRR列表] I --> J[导出用于fastq-dump或prefetch] K[编程接口调用] --> L[使用E-utilities或API] L --> I

8. 批量处理最佳实践与性能优化建议

针对企业级或大规模科研项目，建议采用如下工程化方案：

使用Docker容器封装SRA Toolkit环境，确保一致性。
通过Airflow或Nextflow编排查询与下载流水线。
对频繁查询建立本地元数据库（如SQLite + 全文索引）。
设置请求限流机制避免触发NCBI IP封禁（建议<3 req/sec）。
利用SRA Metadata API（beta）获取结构化JSON响应提升解析效率。
定期更新Taxonomy ID映射表以支持精确物种过滤。
集成FastQ metadata validator工具进行质量控制前置检查。
使用parallel命令加速多SRR并发下载任务。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

NCBI数据下载方法
2025-06-30 11:41

Avalon96的博客大家在日常科研工作经常会需要通过查阅文献来获取我们需要的数据资源，下面我会通过一篇文章给大家介绍如何下载文章中的数据文件。
生信软件9 - 多公共数据库数据下载软件Kingfisher
2023-11-23 13:44

生信与基因组学的博客支持从公共数据库（ENA、NCBI、SRA、Amazon AWS 和 Google Cloud）获取序列文件及其元数据注释。其输入可以是一个或多个“Run" accession（例如DRR001970），或一个 BioProject accessions（例如PRJNA621514或SRP...
NCBI SRA数据库：高通量测序数据的存储与检索指南
2026-03-10 01:40

憋人的故事的博客本文详细介绍了NCBI SRA数据库，这是一个由美国国家生物技术信息中心维护的全球性高通量测序原始数据存储库。文章深入解析了其项目-研究-样本-实验-运行的四层组织结构，并提供了从精准检索、使用Run Selector筛选到...
生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump
2024-06-06 14:05

生信与基因组学的博客 pfastq-dump支持多线程拆分，相比于NCBI 工具fastq-dump效率大幅提升。
生物信息学新手必看：3种高效下载SRA数据的保姆级教程（附避坑指南）
2025-09-11 04:07

s3t4u的博客 4.1 理解E-utilities与 esearch/efetch E-utilities是一组用于访问NCBI数据库的编程接口。我们主要用到esearch（搜索）和efetch（获取数据）。通过命令行工具curl结合这些接口，可以直接与NCBI服务器交互。例如，...
MPB：微生物所蔡磊组-基于二代测序的真菌基因组组装和注释
2021-01-08 07:00

刘永鑫Adam的博客为进一步提高《微生物组实验手册》稿件质量，本项目新增大众评审环节。文章在通过同行评审后，采用公众号推送方式分享全文，任何人均可在线提交修改意见。公众号格式显示略有问题，建议电脑端点击文末...
iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...
2022-08-25 21:00

生信宝典的博客 ANI定义为每个比对结果中查询序列与参考序列匹配碱基数与参考序列的碱基数之比，而AF则被定义为大于给定ANI阈值的比对的总长度与序列总长度的比值。在实际的处理过程中，ANI的默认阈值设置为90%，而AF的默认阈值设置...
Linux下prefetch下载SRA数据报错？可能是Windows换行符惹的祸
2025-10-20 07:34

AI 寿司师傅的博客回车 \r (CR) 现已较少见当你在一台Windows电脑上，用记事本或Excel编辑了一个包含SRR编号列表的文件，然后通过FTP、SCP或者云盘同步到Linux服务器时，这个文件很可能就携带了Windows风格的行结束符 \r\n。...
ChIP-Seq数据分析工具大比拼：HiOmics vs H3NGST vs ChIPseek，哪款更适合你？
2025-10-10 09:20

9o8p7i6u5y的博客 H3NGST可自动抓取公共数据库数据，适合数据挖掘；ChIPseek专注于Peak结果的深度注释与可视化。文章从核心定位、操作流程、输出结果及适用场景进行详细解析，帮助研究者根据自身项目需求和技术背景选择最合适的ChIP-...
宏基因组分析实战（1）-数据下载
2024-06-17 14:27

生信直通车的博客数据搜索 1.1 NCBI NCBI是一个综合数据库，其中包含非常多的子数据库，在首页的搜索界面可见，而我们想获取已经公开发布的项目及其对应的样本和测序数据时，可以关注BioProject、BioSample这两个数据库，通过搜索...
单细胞测序数据下载避坑指南：从ASPERA失败到SRA Toolkit的完整解决方案
2025-10-01 02:16

y9z0a1b的博客本文针对单细胞测序数据下载中常见的ASPERA连接失败问题，提供...详细介绍了使用prefetch工具稳定下载SRA数据，并通过fastq-dump或fasterq-dump高效转换为FASTQ格式的实战流程，帮助科研人员构建可靠的数据获取工作流。
服务器从零部署环境进行测序
2023-10-02 14:11

anyinglengtong的博客它最初是为Python开发的，但现在已经扩展到其他编程语言和工具。 Conda的核心功能是创建和管理虚拟环境。虚拟环境是一个独立的、隔离的环境，其中包含特定版本的软件包和依赖项。这使得不同项目之间的软件包和依赖项...
从零构建生物信息AI Agent，快速上手高通量测序数据分析全流程
2025-12-18 11:56

Instrustar的博客快速掌握高通量测序数据分析全流程，从零构建生物信息AI Agent的实用指南。涵盖数据预处理、变异检测与功能注释等关键...适用于科研与临床场景，助力非编程背景用户高效完成生物信息AI Agent的数据分析任务，值得收藏。
新手必看：5分钟搞懂RNA-seq与scRNA-seq的区别（附GEO数据库实操指南）
2014-10-11 14:00

weixin_30836759的博客本文详细解析了RNA-seq与scRNA-seq的技术原理、应用场景及区别，并提供了GEO数据库的实操指南。RNA-seq适用于群体水平的基因表达分析，而scRNA-seq则能揭示单细胞分辨率的基因表达图谱。通过对比分析，帮助新手快速...
计算生物学与生物信息学漫谈-3-FastQC及FASTX-toolkit详解
2024-10-23 18:37

tRNA做科研的博客为了保持文件的组织性，我们可以使用“mkdir ecoli”创建目录“ecoli”，然后进入该目录“cd ecoli”，并将以下ID（每行一个）保存到名为“ids.txt”的文本文件中，使用任何文本编辑器： SRR653520 SRR653521 SRR...
生信自动化流程搭建 05 | 通道 Channels
2020-08-10 18:48

白墨石的博客 Nextflow基于数据流编程模型，其中流程通过通道进行通信。通道具有两个主要属性：发送消息是一个异步操作，无需等待接收过程即可立即完成。接收数据是一项阻止操作，它将停止接收过程，直到消息到达为止。通道...
生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle
2024-06-09 10:05

生信与基因组学的博客生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump 更多内容请关注公众号【生信与基因组学】，定期更新生信算法和编程、基因组学、统计学、分子生物学、临床...
探索生物信息学数据的利器：pysradb
2024-09-24 08:24

费好曦Lucia的博客 pysradb 是一个强大的 Python 包，专门用于从 NCBI 的 SRA（Sequence Read Archive）、ENA（European Nucleotide Archive）和 GEO（Gene Expression Omnibus）数据库中检索元数据。无论你是生物信息学研究人员、数据...
fastq质量值_fastq格式文件处理大全（一）
2020-12-23 13:37

weixin_39923572的博客文本存储为固定格式文件，生物信息的工作就是各种文本文件之间格式的转换，例如通过序列拼接将fastq转换为fasta，通过短序列比对将fastq与fasta合并为bam，通过变异检测将bam中突变位点提取出来转换为vcf。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月19日