素衣禹君 2023-01-28 15:13 采纳率: 0%
浏览 55
已结题

如何在NCBI上下载高通量的测序数据

如何在NCBI上下载高通量的测序数据
我想从NCBI上下载16s、18srRNA的测序数据,目前能够一个一个的下载,但是遇到一个PRJNA中含有几百个SRA(如PRJNA658387 )或者一个PRJNA中含有的每个SRA的大小很大时如(PRJNA658438)就无法下载,想请教一下如何能够快速从NCBI上下载此类数据,我目前已经尝试了SRA Toolkit 下载数据,但是这个下载下来的是.sra的文件,而不是直接下载下来的fastq.gz文件
另外我在查找资料的过程中发现最新有一种方法是grabseqs这个软件,可以直接根据你需要的PRJNA号下载fatsq文件,但我在使用过程中一直报错,不知道是什么问题?
我的问题是两个:
1.如何将上百个.sra的文件转化为fastq.gz的文件?
2.如何使用grabseqs直接下载PRJNA号下对应的所有fastaq格式的SRA文件?

  • 写回答

3条回答 默认 最新

  • 社区专家-Monster-XH 2023-01-28 15:18
    关注

    有用请采纳:
    1.这里你就 可以使用 SRA Toolkit 中的 fastq-dump 工具把 .sra 文件转化为 fastq 格式,然后再使用 gzip 工具压缩成 .gz 格式。例如,打开命令行,在命令行中运行:

    fastq-dump --split-files --gzip SRRXXXXXXX (其中 SRRXXXXXXX 是SRA文件的编号)
    
    

    或者,在命令行中运行:

    for i in $(ls *.sra); do
      fastq-dump --split-files --gzip $i
    done
    
    
    

    这个代码把当前目录下所有 .sra 文件进行转换。
    2.grabseqs ,它是一个用于从NCBI下载高通量测序数据的工具,这个工具需要python环境支持。安装grabseqs之后,你可以使用命令来直接下载PRJNA号下对应的所有fastq格式的SRA文件

    grabseqs -p PRJNA658387 -f fastq -o path/to/output/folder
    
    
    
    评论 编辑记录

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 1月29日
  • 创建了问题 1月28日

悬赏问题

  • ¥15 k210烧入flash报错error:2005
  • ¥15 GIS土地利用预测FLUS模型
  • ¥15 visual studio code打不出来中文双引号
  • ¥20 关于#matlab#的问题:ps:完美符合要求有打赏(相关搜索:自适应)
  • ¥15 声音感应灯,问题出在哪里
  • ¥15 关于#matlab#的问题:(0,0)上的贝塞尔曲线,0)上的贝塞尔曲线,并使用自适应积分计算其从t=0到不大于1的任意值区间的弧长
  • ¥20 关于#r语言#rda分析作图的问题,请各位专家解答!
  • ¥50 找回 股票行情系统的资源问题
  • ¥15 gwas 分析-plink 检查人口分层出现下面问题
  • ¥15 关于#matlab#的问题:需要 MATLAB 运行程序,对比四个多址通信方式(TDMA,FDMA,CDMA,OFDMA)的抗噪声性能