下载的太慢,老是timeout有没有快捷方便的方法呀
是否兼容Ensembl中的基因组文件呢
sigprofilerextractor中的GRCh37如何下载
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
5条回答 默认 最新
阿里嘎多学长 2025-09-28 22:20关注阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程
解决方案
您需要下载的似乎是SigProfilerExtractor中使用的GRCh37基因组文件。下载这个文件可能会花费较长时间,如果遇到timeout问题,尝试以下方法:
-
使用wget工具下载
可以使用wget工具批量下载文件, wget可以处理超时问题。
wget -c -t 5 -T 30 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/annotations/hg19/ # 或者 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/integrated_sv_map/human_g1k_phase1_v35.1c1.hg19.sv.vcf.gz其中
wget -c表示如果下载过程中断可以从中断的位置开始下载。-t 5表示设置超时时间,5秒后重新开始下载。-T 30表示如果下载超过30秒则终止下载。-
使用python下载
可以使用python的库
requests进行下载。
import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} url = "ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/annotations/hg19/" response = requests.get(url, stream=True, timeout=300) if response.status_code == 200: with open("hg19.zip", "wb") as f: for chunk in response.iter_content(chunk_size=1024): f.write(chunk)-
与Ensembl中的基因组文件兼容性
SigProfilerExtractor使用的基因组文件(GRCh37)与Ensembl中的基因组文件(GRCh38)不完全兼容,如果需要兼容,可以尝试使用GRCh38基因组文件。
解决 无用评论 打赏 举报-