猩猩8371 2025-07-24 09:33 采纳率: 0%

用该脚本处理如下几个问题

脚本1：
perl /mnt/sdb/share/bin/find_identical.pl
数据路径：/mnt/sdb/share/bin/linux-demo/program/table
1.查看两个table表之间基因共有ID，各自特有ID，如果共有分别输出各自共有的结果和合并的共有结果，数据1.DEG.xls，2.DEG.xls
2.查找pep.faa文件和1.DEG.xls第一列共有的编号，分别输出共有，特有的结果
3.1.DEG.xls第一列基因编号加上功能描述，没有功能的用 - 替代；基因功能文件：all.gene.func.txt
4.找出snp.anno.xls文件内targetScanS ,esp6500si_all , GnomAD_EAS_AF, CADD表头分别位于第几列，并输出
5.去除snp.anno.xls文件内Ori_REF,Ori_ALT, shared_hom, shared_het, OMIM这些列

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-07-24 09:34
关注
上午好☀️☀️☀️️
本答案参考通义千问

根据您提供的脚本 find_identical.pl 和具体需求，我将为您详细解答并提供解决方案。以下是针对每个问题的分步处理方案，并在关键步骤中加粗显示。

1. 查看两个 table 表之间基因共有 ID，各自特有 ID

说明：

数据文件为 data1.DEG.xls 和 data2.DEG.xls
需要找出：
共有 ID
data1 特有的 ID
data2 特有的 ID
合并后的共有结果（即所有共有的 ID）

解决方案：

读取两个文件的第一列（基因ID）
使用 Perl 脚本或 Linux 命令比较两个列表
输出共有、特有结果

推荐命令：

# 提取两个文件第一列 cut -f1 data1.DEG.xls > id1.txt cut -f1 data2.DEG.xls > id2.txt # 找出共同的 ID comm -12 id1.txt id2.txt > common_ids.txt # 找出 data1 特有的 ID comm -23 id1.txt id2.txt > unique_id1.txt # 找出 data2 特有的 ID comm -13 id1.txt id2.txt > unique_id2.txt

注意： 如果文件中有标题行，需先删除第一行后再执行上述命令。

2. 查找 pep.faa 文件和 1.DEG.xls 第一列共有的编号，分别输出共有、特有的结果

说明：

pep.faa 是 FASTA 格式文件，包含蛋白质序列，每一行以 > 开头，后接 ID。
1.DEG.xls 的第一列为基因 ID。
需要找出两者的交集与差异。

解决方案：

提取 pep.faa 中的 ID
提取 1.DEG.xls 第一列 ID
比较两者并输出结果

代码示例：

# 提取 pep.faa 中的 ID（假设每行以 '>' 开头） grep '^>' pep.faa | cut -d' ' -f1 | sed 's/>//g' > pep_ids.txt # 提取 1.DEG.xls 第一列 cut -f1 1.DEG.xls > deg_ids.txt # 比较并输出结果 comm -12 pep_ids.txt deg_ids.txt > common_pep_deg.txt comm -23 pep_ids.txt deg_ids.txt > unique_pep.txt comm -13 pep_ids.txt deg_ids.txt > unique_deg.txt

3. 1.DEG.xls 第一列基因编号加上功能描述，没有功能的用 - 替代

说明：

all.gene.func.txt 包含基因 ID 和功能描述
若未找到对应功能，则用 - 表示

解决方案：

将 all.gene.func.txt 转换为 hash 结构（键值对）
读取 1.DEG.xls 第一列，并查找功能
输出格式：GeneID Function

修改后的 Perl 脚本示例：

#!/usr/bin/perl use strict; use warnings; my %func_map; # 读取功能文件 open my $fh_func, '<', 'all.gene.func.txt' or die "无法打开 all.gene.func.txt: $!"; while (my $line = <$fh_func>) { chomp $line; next if $line =~ /^#/; # 跳过注释 my ($gene_id, $function) = split(/\t/, $line); $func_map{$gene_id} = $function || '-'; } # 读取 DEG 文件 open my $fh_deg, '<', '1.DEG.xls' or die "无法打开 1.DEG.xls: $!"; while (my $line = <$fh_deg>) { chomp $line; next if $line =~ /^#/; # 跳过标题 my ($gene_id) = split(/\t/, $line); my $function = $func_map{$gene_id} || '-'; print "$gene_id\t$function\n"; }

运行方式：

perl script_name.pl > output_with_function.txt

4. 找出 snp.anno.xls 文件内 targetScanS, esp6500si_all, GnomAD_EAS_AF, CADD 表头分别位于第几列

说明：

需要定位这四个字段在表头中的位置（即列号）

解决方案：

查看文件第一行（表头）
查找目标字段的位置

命令示例：

# 查看第一行（表头） head -n 1 snp.anno.xls # 找到特定字段的列号 awk -F'\t' 'NR==1 {for(i=1;i<=NF;i++) if($i=="targetScanS") print "targetScanS is in column", i; if($i=="esp6500si_all") print "esp6500si_all is in column", i; if($i=="GnomAD_EAS_AF") print "GnomAD_EAS_AF is in column", i; if($i=="CADD") print "CADD is in column", i}' snp.anno.xls

输出示例：

targetScanS is in column 5 esp6500si_all is in column 6 GnomAD_EAS_AF is in column 7 CADD is in column 8

5. 去除 snp.anno.xls 文件内 Ori_REF, Ori_ALT, shared_hom, shared_het, OMIM 这些列

说明：

删除指定列（列名如上）

解决方案：

获取表头中这些字段的列号
使用 cut 或 awk 删除指定列

代码示例：

# 获取表头 head -n 1 snp.anno.xls > header.txt # 使用 awk 删除指定列（假设列号是 3, 4, 5, 6, 10） awk -F'\t' 'NR==1 { for(i=1;i<=NF;i++) if($i ~ /Ori_REF|Ori_ALT|shared_hom|shared_het|OMIM/) col[i]=1 } NR==1 { for(i=1;i<=NF;i++) if (!col[i]) printf "%s\t", $i; print "" } NR>1 { for(i=1;i<=NF;i++) if (!col[i]) printf "%s\t", $i; print "" }' snp.anno.xls > new_snp.anno.xls

说明：

该脚本会自动识别包含指定字段的列并删除。
如果不知道列号，可以先运行上面的命令找出它们的列号再进行删除。

总结：

| 问题 | 解决方法 | |------|----------| | 1. 共有/特有 ID | 使用 comm 命令或 Perl 脚本 | | 2. pep.faa 和 DEG 交集 | 使用 grep + cut + comm | | 3. 添加功能描述 | 编写 Perl 脚本匹配功能文件 | | 4. 查找列号 | 使用 awk 分析表头 | | 5. 删除指定列 | 使用 awk 动态过滤 |

如果您需要我帮助您整合成一个完整的脚本或进一步优化，请告诉我！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

ASP程序中常用的脚本语言
2020-10-23 10:37

VBScript是ASP的默认脚本语言，它是一种类似于Visual Basic的编程语言，主要用于开发ASP程序。通过使用response.write命令，开发者可以在HTML页面中输出内容，例如文本、HTML标签和其他动态内容。VBScript中的语法...
脚本语言、编程语言、中间件
2022-08-02 17:17

秃然同学的博客 asp,aspx,php,jsp脚本语言、c,c#,java编程语言、iis，Apache,Tomcat中间件
使用Python脚本实现批量网站存活检测遇到问题及解决方法
2021-01-20 04:30

做渗透测试的时候，有个比较大的项目，里面有几百个网站，这样你必须首先确定哪些网站是正常，哪些网站是不正常的。所以自己就编了一个小脚本，为以后方便使用。具体实现的代码如下： #!/usr/bin/python # -*- ...
【Elasticsearch】es脚本编程使用详解
2023-10-25 21:08

小码农叔叔的博客 es脚本编程使用详解
【Elasticsearch】es 脚本编程使用详解
2025-01-03 20:23

逆风飞翔的小叔的博客 es 脚本编程使用详解
TCL脚本语言编程实战指南.pdf
2025-05-06 09:47

veritascxy的博客 TCL，全称为Tool Command Language，是一种高级的脚本语言，它具有易于编写、快速执行的特点。TCL在系统管理、网络编程、自动化测试、GUI开发等多个领域都有广泛应用。它的设计哲学是简洁、一致、强大的接口，使得...
什么编程语言写脚本好？
2023-12-19 15:15

网络安全学习规划的博客什么编程语言写脚本好？
【仓颉编程语言】全场景智能的新一代编程语言 （扫盲初探篇）
2024-12-29 12:48

Microi风闲的博客仓颉[jié]，是华为自研的一款面向全场景智能的** 新一代编程语言**，是华为为鸿蒙量身打造的全场景智能应用编程语言，作为鸿蒙生态中的重要组成部分，旨在支持鸿蒙系统下的全场景应用开发，主打“原生智能化、天生...
脚本语言：也称解释型语言，指运行时可以直接执行代码的语言。例如：JavaScript、PHP等。
2023-07-29 01:45

光子AI的博客 1995年，由美国计算机科学家Brendan Eich所提出的脚本语言概念被提出来。脚本语言的主要特点是能够让程序员在文本...至今还有很多企业仍在继续使用脚本语言作为编程语言。因此，本文将讨论当前主流的脚本语言有哪些？
一文看懂编程语言虚拟机
2023-07-04 12:27

Invisible_He的博客带你轻松一文明白编程语言虚拟机是什么
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月24日

码龄粉丝数原力等级 --

用该脚本处理如下几个问题

4条回答默认最新

码龄粉丝数原力等级 --

1. 查看两个 table 表之间基因共有 ID，各自特有 ID

说明：

解决方案：

推荐命令：

2. 查找 pep.faa 文件和 1.DEG.xls 第一列共有的编号，分别输出共有、特有的结果

说明：

解决方案：

代码示例：

3. 1.DEG.xls 第一列基因编号加上功能描述，没有功能的用 `-` 替代

说明：

解决方案：

修改后的 Perl 脚本示例：

4. 找出 snp.anno.xls 文件内 `targetScanS`, `esp6500si_all`, `GnomAD_EAS_AF`, `CADD` 表头分别位于第几列

说明：

解决方案：

命令示例：

5. 去除 snp.anno.xls 文件内 `Ori_REF`, `Ori_ALT`, `shared_hom`, `shared_het`, `OMIM` 这些列

说明：

解决方案：

代码示例：

总结：

问题事件

码龄粉丝数原力等级 --

用该脚本处理如下几个问题

4条回答 默认 最新

1. 查看两个 table 表之间基因共有 ID，各自特有 ID

说明：

解决方案：

推荐命令：

2. 查找 pep.faa 文件和 1.DEG.xls 第一列共有的编号，分别输出共有、特有的结果

说明：

解决方案：

代码示例：

3. 1.DEG.xls 第一列基因编号加上功能描述，没有功能的用 - 替代

说明：

解决方案：

修改后的 Perl 脚本示例：

4. 找出 snp.anno.xls 文件内 targetScanS, esp6500si_all, GnomAD_EAS_AF, CADD 表头分别位于第几列

说明：

解决方案：

命令示例：

5. 去除 snp.anno.xls 文件内 Ori_REF, Ori_ALT, shared_hom, shared_het, OMIM 这些列

说明：

解决方案：

代码示例：

总结：

问题事件

4条回答默认最新

3. 1.DEG.xls 第一列基因编号加上功能描述，没有功能的用 `-` 替代

4. 找出 snp.anno.xls 文件内 `targetScanS`, `esp6500si_all`, `GnomAD_EAS_AF`, `CADD` 表头分别位于第几列

5. 去除 snp.anno.xls 文件内 `Ori_REF`, `Ori_ALT`, `shared_hom`, `shared_het`, `OMIM` 这些列