素衣禹君 2023-01-28 15:13 采纳率: 0%
浏览 55
已结题

如何在NCBI上下载高通量的测序数据

如何在NCBI上下载高通量的测序数据
我想从NCBI上下载16s、18srRNA的测序数据,目前能够一个一个的下载,但是遇到一个PRJNA中含有几百个SRA(如PRJNA658387 )或者一个PRJNA中含有的每个SRA的大小很大时如(PRJNA658438)就无法下载,想请教一下如何能够快速从NCBI上下载此类数据,我目前已经尝试了SRA Toolkit 下载数据,但是这个下载下来的是.sra的文件,而不是直接下载下来的fastq.gz文件
另外我在查找资料的过程中发现最新有一种方法是grabseqs这个软件,可以直接根据你需要的PRJNA号下载fatsq文件,但我在使用过程中一直报错,不知道是什么问题?
我的问题是两个:
1.如何将上百个.sra的文件转化为fastq.gz的文件?
2.如何使用grabseqs直接下载PRJNA号下对应的所有fastaq格式的SRA文件?

  • 写回答

3条回答 默认 最新

  • 社区专家-Monster-XH 2023-01-28 15:18
    关注

    有用请采纳:
    1.这里你就 可以使用 SRA Toolkit 中的 fastq-dump 工具把 .sra 文件转化为 fastq 格式,然后再使用 gzip 工具压缩成 .gz 格式。例如,打开命令行,在命令行中运行:

    fastq-dump --split-files --gzip SRRXXXXXXX (其中 SRRXXXXXXX 是SRA文件的编号)
    
    

    或者,在命令行中运行:

    for i in $(ls *.sra); do
      fastq-dump --split-files --gzip $i
    done
    
    
    

    这个代码把当前目录下所有 .sra 文件进行转换。
    2.grabseqs ,它是一个用于从NCBI下载高通量测序数据的工具,这个工具需要python环境支持。安装grabseqs之后,你可以使用命令来直接下载PRJNA号下对应的所有fastq格式的SRA文件

    grabseqs -p PRJNA658387 -f fastq -o path/to/output/folder
    
    
    
    评论 编辑记录

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 1月29日
  • 创建了问题 1月28日

悬赏问题

  • ¥15 Jenkins+k8s部署slave节点offline
  • ¥15 微信小游戏反编译后,出现找不到分包的情况
  • ¥15 如何实现从tello无人机上获取实时传输的视频流,然后将获取的视频通过yolov5进行检测
  • ¥15 WPF使用Canvas绘制矢量图问题
  • ¥15 用三极管设计一个单管共射放大电路
  • ¥15 孟德尔随机化r语言运行问题
  • ¥15 pyinstaller编译的时候出现No module named 'imp'
  • ¥15 nirs_kit中打码怎么看(打码文件是csv格式)
  • ¥15 怎么把多于硬盘空间放到根目录下
  • ¥15 Matlab问题解答有两个问题