您好,我有100多个.faa文件(蛋白序列文件),想要对其中的>开头的字符串进行替换,需要替换成B表格文件(物种-序列对应表)中的列名。
我尝试用python中的re.sub()进行查找替换,但总是报错。
下面是我使用的代码:
import pandas as pd
import re
from Bio import SeqIO
matrixlist=pd.read_excel("/mnt/f/MAGs/meishan7/downstram/MGIItree/test/gene1.xlsx")
a=pd.DataFrame(matrixlist)
idlist=[]
seqlist=[]
dictpro={}
for seq in SeqIO.parse('/mnt/f/MAGs/meishan7/downstram/MGIItree/test/proteins.faa','fasta'):
pid=seq.id
seq=seq.seq