Win汤er 2021-10-26 10:35 采纳率: 66.7%
浏览 44
已结题

re.sub()对A文件中每个以>开头的字符串,在B文件查找并以该字符串在B所在列名替换A中的该字符串

您好,我有100多个.faa文件(蛋白序列文件),想要对其中的>开头的字符串进行替换,需要替换成B表格文件(物种-序列对应表)中的列名。
我尝试用python中的re.sub()进行查找替换,但总是报错。
下面是我使用的代码:

import pandas as pd
import re
from Bio import SeqIO
matrixlist=pd.read_excel("/mnt/f/MAGs/meishan7/downstram/MGIItree/test/gene1.xlsx")
a=pd.DataFrame(matrixlist)
idlist=[]
seqlist=[]
dictpro={}
for seq in SeqIO.parse('/mnt/f/MAGs/meishan7/downstram/MGIItree/test/proteins.faa','fasta'):
    pid=seq.id
    seq=seq.seq


  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2021-10-26 10:46
    关注

    是不是类似这样操作,循环替换。

    import re
    
    s=['gene>ggcctt>tggc','gene>ctct']
    s1=[]
    for x in s:
        x1=re.sub('>',"",x)
        s1.append(x1)
    print(s1)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 11月3日
  • 已采纳回答 10月26日
  • 创建了问题 10月26日

悬赏问题

  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么
  • ¥15 banner广告展示设置多少时间不怎么会消耗用户价值
  • ¥16 mybatis的代理对象无法通过@Autowired装填
  • ¥15 可见光定位matlab仿真
  • ¥15 arduino 四自由度机械臂
  • ¥15 wordpress 产品图片 GIF 没法显示
  • ¥15 求三国群英传pl国战时间的修改方法
  • ¥15 matlab代码代写,需写出详细代码,代价私
  • ¥15 ROS系统搭建请教(跨境电商用途)