脚本1:
perl /mnt/sdb/share/bin/find_identical.pl
数据路径:/mnt/sdb/share/bin/linux-demo/program/table
- 查看两个table表之间基因共有ID,各自特有ID,如果共有分别输出各自共有的结果和合并的共有结果,数据1.DEG.xls,2.DEG.xls
- 查找pep.faa文件和1.DEG.xls第一列共有的编号,分别输出共有,特有的结果
- 1.DEG.xls第一列基因编号加上功能描述, 没有功能的用 - 替代; 基因功能文件:all.gene.func.txt
- 找出snp.anno.xls文件内targetScanS ,esp6500si_all , GnomAD_EAS_AF, CADD表头分别位于第几列,并输出
- 去除snp.anno.xls文件内Ori_REF,Ori_ALT, shared_hom, shared_het, OMIM这些列
脚本2:
perl /mnt/sdb/share/bin/deal_fa.pl
数据路径:/mnt/sdb/share/bin/linux-demo/program/fasta
要求:
- 过滤掉长度1000bp一下的序列
- 提取目标区域(region.txt)内的序列
- 计算每个scaffold序列的长度
- 以100bp为窗口计算scaffold窗口内的GC含量
- scaffold序列基本信息统计(N50,N90,最大长度,最小长度等)
- 以300个N链接scaffold序列
- scaffold的拆分为contig
- 每两个序列拆分为一个文件
- 反向互补scaffold的序列
- 把不标准的scaffold的序列变成标准的scaffold的序列
- fasta文件转化为fastq格式文件
- 修改fasta序列前缀名称;前缀为: part