如何用一个脚本分批同时对600个文件数据进行分析，每批20个？

这是我部分的数据，我已经有一个分析脚本，但是我用这个脚本分析的时候是一个一个的进行，分析完600个，需要半年时间，所以需要一个循环，能够同时30个进行，不过这些编号不连续。求一个循环~

#!/usr/bin/bash

doc=/data/re-sequencedata/cleandata
Ref=/data/re-sequencedata/mappingZ/Reference/hic.fa
FM_index=/data/re-sequencedata/mappingZ/index/hic
gatkdoc=/home/yuning/software/gatk-4.1.9.0/gatkdoc
t=20
p_Xmx=50g
tmpdir="tmpdir"
bam_dir="."
G_Xmx=50g

while read id
do
     di=${id}
     echo "===========processing ${di} file============="
     gunzip -c ${doc}/${di}_1_clean.fq.gz >${di}_1_clean.fq
     gunzip -c ${doc}/${di}_2_clean.fq.gz >${di}_2_clean.fq
     grep "^@A00" ${di}_1_clean.fq|cut -d ':' -f1-4|sort|uniq >${di}.RG.table &&

     while read rg
     do
       affix=`echo $rg|tr ":" "-"`
       grep -A 3 ${rg} ${di}_1_clean.fq >${di}-${affix}_1_clean.fq 
       grep -A 3 ${rg} ${di}_2_clean.fq >${di}-${affix}_2_clean.fq 
     done <${di}.RG.table 
     rm ${di}_1_clean.fq ${di}_2_clean.fq &&

     while read rg
     do
       affix=`echo $rg |tr ":" "-"`
       bwa mem -t $t -M -R "@RG\tID:${affix}\tSM:${di}\tPL:illumina" $FM_index ${di}-${affix}_1_clean.fq ${di}-${affix}_2_clean.fq >${di}-${affix}.sam && rm ${di}-${affix}_*.fq
     done <${di}.RG.table 

     ls -v ${di}-*.sam|xargs -I [] echo "I="[]|xargs -L 1000000 \
     java -Xmx${p_Xmx} -jar /home/yuning/software/picard/build/libs/picard.jar MergeSamFiles \
        O=${di}.merged.sorted.bam \
        SORT_ORDER=coordinate \
        CREATE_INDEX=true \
        VALIDATION_STRINGENCY=LENIENT \
        REFERENCE_SEQUENCE=/data/re-sequencedata/mappingZ/Reference/hic.fa \
        TMP_DIR=${tmpdir} 2>${di%}.log \
        && rm ${di}-*.sam &&

     java -Xmx${p_Xmx} -jar /home/yuning/software/picard/build/libs/picard.jar MarkDuplicates \
        I=${di}.merged.sorted.bam \
        O=${di}.merged.sorted.dedup.bam \
        M=${di}.Marked_dup_metrics.txt \
        CREATE_INDEX=true \
        VALIDATION_STRINGENCY=LENIENT \
        REFERENCE_SEQUENCE=/data/re-sequencedata/mappingZ/Reference/hic.fa \
        TMP_DIR=${tmpdir} 2>${di%}.log \
        && rm ${di}.merged.sorted.bam* &&

      if [ ! -f "${tmpdir}/${di}_h" ];then
                    mkdir -p ${tmpdir}/${di}_h
          else
                    rm -r ${tmpdir}/${di}_h/*
      fi

     gatk --java-options "-Djava.io.tmpdir=${tmpdir}/${di}_h -Xmx${G_Xmx}" \
        HaplotypeCaller \
        -ERC GVCF \
        -R /data/re-sequencedata/mappingZ/Reference/hic.fa \
        -I ${di}.merged.sorted.dedup.bam \
        -O ${di}.gvcf.gz \
        1>${di}.gvcf.log 2>&1 \
        && rm -r ${tmpdir}/${di}_h
done

以上是我用来分析的脚本，摘自https://blog.csdn.net/Gossie/article/details/109296315。这个脚本是可以分析，但是是一个一个的分析，需要很久。本身对循环不怎么精通，急求大神给一个~~~另外，怎么给里边的bwa、picard、gatk建立临时文件夹，因为有时候会出现out of memory的情况而脚本停止运行。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
502203305 2021-01-27 15:21
关注
files=(`ls *.fq.gz`) filel=${#files[@]} idx=0 while [[ $idx -lt $filel ]] do for((j=0;j<20&&$idx<$filel; j++)) do ./xxx.sh ${files[$idx]} & idx=$(($idx+1)) done wait `jobs -p` done

把xxx.sh修改成对应的单个处理shell就行了。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何在一个py文件脚本中调用另外一个Py文件，并传递参数？ python
2022-05-11 15:05

回答 1 已采纳 sys.argv 是命令行参数列表。len(sys.argv) 是命令行参数个数。注：sys.argv[0] 表示脚本名。 import sys a=eval(sys.argv[1]) b=eval
学习Unix环境编程所遇到的问题2: 到底是如何执行一个脚本文件的? bash linux unix
2022-06-08 19:33

回答 3 已采纳 bash不是开源的吗？
批量解包zpk文件提取这个数据文件里面的音频和图片？
2017-04-07 13:36

回答 3 已采纳你知道文件前后位置和连续的，那不是直接读取2进制进行对比操作然后前后截取就好了。。。而且你的确认保存的是原始数据，要是加密过的你知道规律也没用发个文件下载链接来看看。有空帮你看下是否能提取出来
异构数据库迁移埋下的 9 个大坑，你怎么还不会躲开？
2022-03-11 23:59

jeanron100的博客作者介绍黎君原，新炬网络架构师。“贰过”，重犯同一过失的意思，语出《论语》，完整句子为“不迁怒不贰过”，乃仲尼对其不幸早逝的弟子颜回的极高评价。就it项目而言，从管理者的角度来说，一个错误...
linux的shell脚本这么读取另一个文件的内容 bash linux
2022-03-08 14:03

回答 1 已采纳 “脚本名文件名”执行即可 tre=`cat $1` for i in $tre; do echo "你好 ${i}！" done
sql server 批量循环更新同一个表里数据 sql 数据库
2022-11-07 18:47

回答 8 已采纳重点在于从分区第一条数据开始计算对吧，然后就是更新，没得SqlServer以mysql为例吧，思路是分区递归计算 CREATE TABLE t_example ( f_year INT NU
如何用pyqt5的Qprogressbar控件做一个显示脚本运行进度的进度条？ python qt 有问必答
2022-04-19 22:06

回答 2 已采纳 import os import sys from PyQt5.QtCore import QBasicTimer from PyQt5.QtWidgets import QApplication
使用 Reactor 进行反应式编程进行数据分批批量处理
2020-07-03 09:39

Jaemon的博客使用 Reactor 进行反应式编程进行数据分批批量处理
怎么把linux下一个路径下的几十个数据文件分批运行？求教?
2016-10-02 14:20

回答 1 已采纳 http://blog.csdn.net/zhouzhaoxiong1227/article/details/46236117
vbs脚本怎么在搜索框内生成一个随机数字进行搜索？ batch 其他自动化
2022-09-07 11:34

回答 1 已采纳 Function GetRandomMath(m,n) Randomize GetRandomMath = Int(((n-m+1) * Rnd) + m) End Function Se
电脑出现这个脚本错误，是系统出错或者文件误删了吗？了吗？ windows
2022-05-31 23:22

回答 2 已采纳你这个是html脚本，系统中直接双击运行会出错。直接打开html文件吧。
MyBatis多数据源配置及动态切换——搭建多个数据源并动态切换
2023-07-28 00:22

禅与计算机程序设计艺术的博客由于业务不同，每个站点会存在不同的数据库，所以在同一个系统中，需要配置多个数据库连接。而 MyBatis 是目前主流的开源持久层框架之一，它的多数据源支持就显得尤为重要。本文将详细介绍 MyBatis 的多数据源配置及...
unity能否给一个物体的多个碰撞器添加各自的脚本并使用？ unity
2022-09-07 19:27

回答 3 已采纳建议为物体创建空子对象，不同碰撞体和脚本挂载到不同子对象上
程序员如何实现财富自由系列之：参与大数据分析和挖掘
2023-10-06 00:57

禅与计算机程序设计艺术的博客大数据”这个词汇已经有了很长一段历史。在过去的一百年里，它一直是指海量、高速、多样的数据集合。而如今，随着互联网、移动互联网、物联网等新型应用的兴起，越来越多的企业、个人和组织都将自己的数据上传到云端...
利用python批量创建文件夹、批量创建文件、批量复制文件到指定文件夹
2022-08-20 12:04

bingoCoder的博客 python创建文件夹mkdir，python批量创建文件夹；python如何批量创建文件；python如何批量复制文件到指定文件夹；python复制文件shutil
没有解决我的问题, 去提问

悬赏问题

¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮

如何用一个脚本分批同时对600个文件数据进行分析，每批20个？

1条回答 默认 最新

悬赏问题

1条回答默认最新