医学R语言双折磨 2025-09-28 22:19 采纳率: 50%
浏览 4

sigprofilerextractor中的GRCh37如何下载

下载的太慢,老是timeout有没有快捷方便的方法呀
是否兼容Ensembl中的基因组文件呢

  • 写回答

5条回答 默认 最新

  • 阿里嘎多学长 2025-09-28 22:20
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    解决方案

    您需要下载的似乎是SigProfilerExtractor中使用的GRCh37基因组文件。下载这个文件可能会花费较长时间,如果遇到timeout问题,尝试以下方法:

    1. 使用wget工具下载

      可以使用wget工具批量下载文件, wget可以处理超时问题。

    wget -c -t 5 -T 30 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/annotations/hg19/
    # 或者 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/integrated_sv_map/human_g1k_phase1_v35.1c1.hg19.sv.vcf.gz
    

    其中 wget -c 表示如果下载过程中断可以从中断的位置开始下载。

    -t 5 表示设置超时时间,5秒后重新开始下载。

    -T 30 表示如果下载超过30秒则终止下载。

    1. 使用python下载

      可以使用python的库requests进行下载。

    import requests
    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    url = "ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/annotations/hg19/"
    response = requests.get(url, stream=True, timeout=300)
    
    if response.status_code == 200:
        with open("hg19.zip", "wb") as f:
            for chunk in response.iter_content(chunk_size=1024):
                f.write(chunk)
    
    1. 与Ensembl中的基因组文件兼容性

      SigProfilerExtractor使用的基因组文件(GRCh37)与Ensembl中的基因组文件(GRCh38)不完全兼容,如果需要兼容,可以尝试使用GRCh38基因组文件。

    评论

报告相同问题?

问题事件

  • 创建了问题 9月28日