如何在NCBI上下载高通量的测序数据
我想从NCBI上下载16s、18srRNA的测序数据,目前能够一个一个的下载,但是遇到一个PRJNA中含有几百个SRA(如PRJNA658387 )或者一个PRJNA中含有的每个SRA的大小很大时如(PRJNA658438)就无法下载,想请教一下如何能够快速从NCBI上下载此类数据,我目前已经尝试了SRA Toolkit 下载数据,但是这个下载下来的是.sra的文件,而不是直接下载下来的fastq.gz文件
另外我在查找资料的过程中发现最新有一种方法是grabseqs这个软件,可以直接根据你需要的PRJNA号下载fatsq文件,但我在使用过程中一直报错,不知道是什么问题?
我的问题是两个:
1.如何将上百个.sra的文件转化为fastq.gz的文件?
2.如何使用grabseqs直接下载PRJNA号下对应的所有fastaq格式的SRA文件?

如何在NCBI上下载高通量的测序数据
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- 社区专家-Monster-XH 2023-01-28 15:18关注
有用请采纳:
1.这里你就 可以使用 SRA Toolkit 中的 fastq-dump 工具把 .sra 文件转化为 fastq 格式,然后再使用 gzip 工具压缩成 .gz 格式。例如,打开命令行,在命令行中运行:fastq-dump --split-files --gzip SRRXXXXXXX (其中 SRRXXXXXXX 是SRA文件的编号)
或者,在命令行中运行:
for i in $(ls *.sra); do fastq-dump --split-files --gzip $i done
这个代码把当前目录下所有 .sra 文件进行转换。
2.grabseqs ,它是一个用于从NCBI下载高通量测序数据的工具,这个工具需要python环境支持。安装grabseqs之后,你可以使用命令来直接下载PRJNA号下对应的所有fastq格式的SRA文件grabseqs -p PRJNA658387 -f fastq -o path/to/output/folder
解决 无用评论 打赏 举报 编辑记录