巅峰之上313 2023-09-08 12:02 采纳率: 17.1%
浏览 8
已结题

脚本1求解cd到目录了

img

脚本1:
perl /mnt/sdb/share/bin/find_identical.pl
数据路径:/mnt/sdb/share/bin/linux-demo/program/table

  1. 查看两个table表之间基因共有ID,各自特有ID,如果共有分别输出各自共有的结果和合并的共有结果,数据1.DEG.xls,2.DEG.xls
  2. 查找pep.faa文件和1.DEG.xls第一列共有的编号,分别输出共有,特有的结果
  3. 1.DEG.xls第一列基因编号加上功能描述, 没有功能的用 - 替代; 基因功能文件:all.gene.func.txt
  4. 找出snp.anno.xls文件内targetScanS ,esp6500si_all , GnomAD_EAS_AF, CADD表头分别位于第几列,并输出
  5. 去除snp.anno.xls文件内Ori_REF,Ori_ALT, shared_hom, shared_het, OMIM这些列

脚本2:
perl /mnt/sdb/share/bin/deal_fa.pl
数据路径:/mnt/sdb/share/bin/linux-demo/program/fasta
要求:

  1. 过滤掉长度1000bp一下的序列
  2. 提取目标区域(region.txt)内的序列
  3. 计算每个scaffold序列的长度
  4. 以100bp为窗口计算scaffold窗口内的GC含量
  5. scaffold序列基本信息统计(N50,N90,最大长度,最小长度等)
  6. 以300个N链接scaffold序列
  7. scaffold的拆分为contig
  8. 每两个序列拆分为一个文件
  9. 反向互补scaffold的序列
  10. 把不标准的scaffold的序列变成标准的scaffold的序列
  11. fasta文件转化为fastq格式文件
  12. 修改fasta序列前缀名称;前缀为: part
  • 写回答

2条回答 默认 最新

  • 呈两面包夹芝士 2023-09-08 13:15
    关注

    看起来你提供的两个脚本是Perl语言编写的,用于处理和解析不同的文件类型,包括Excel文件、FASTA文件和ANNO文件等。根据你的描述,这两个脚本似乎没有直接的依赖关系,因此我无法确定他们是否可以一起执行。不过,我可以帮助你理解每个脚本的功能,并为你提供每个脚本的大致实现思路。

    1. 脚本1:find_identical.pl
      这个脚本似乎是用来查找两个表格(或Excel文件)之间共有和特有的基因ID,以及相关的功能描述。具体实现可能需要借助Excel处理库(如Excel::Writer或LibreOffice),用于读取和写入Excel文件;以及可能还需要使用一些生物信息学库,比如BioPerl,用于处理基因和蛋白质序列等。
    2. 脚本2:deal_fa.pl
      这个脚本看起来是用来处理FASTA文件,并进行一些列的统计分析,包括过滤序列长度,提取目标区域,计算序列长度,GC含量等。你需要使用一些生物信息学库(如BioPerl或Bioperl-Ext)来解析和处理FASTA文件;以及一些用于数据处理和统计分析的Perl库。

    为了实现这些功能,你可能需要对Perl语言有一定的熟悉度,并且需要掌握一些基础的生物信息学知识和技能。如果你对Perl还不熟悉,我推荐你首先学习Perl语言的基础知识,包括变量、控制流、子程序、数组、文件I/O等。然后再学习一些相关的生物信息学库和工具,以便你可以更准确地理解和实现你的脚本。

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 9月11日
  • 创建了问题 9月8日

悬赏问题

  • ¥15 这是有什么问题吗,我检查许可证了但是显示有呢
  • ¥15 机器学习预测遇到的目标函数问题
  • ¥15 python的EOFError该怎么解决?
  • ¥15 Fluent,液体进入旋转区域体积分数不连续
  • ¥15 java linux下将docx文件转pdf
  • ¥15 maven无法下载依赖包
  • ¥15 关于pycharm, Callable[[str],bool]作为方法参数使用时, lambda 类型不提示问题
  • ¥15 layui数据重载无效
  • ¥15 寻找了解qq家园纵横四海的程序猿。
  • ¥15 optisystem