想写一段代码，提取出表格第二列的省份或者地市名称，并取结果的倒数第二个放在‘归属’这一列

我有一个EXCEL表格，想写一段代码，提取第二列中每一行文本中出现的省份、地市名称，并把提取出来的内容中倒数第二个名称放在最后一列。
原始的文档是图一这种，图二是想实现的情况

我本来是用下面这种方式提取的，但是提取出来以后没办法进一步细分，麻烦大神帮忙想想办法。
quxian_name2 = '山东|青岛|济南'
def re_1(i):
res=re.findall(guishu_name2,i)
return res
####‘文本’是第二列的列名，图片忘记添加
alljob['归属'] = alljob.apply(lambda x: re_1(x['文本']), axis = 1)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
weixin_41992909 2019-11-05 10:27
关注
首先你需要把Excel载入到python，
因为你没有原始的dataframe
所以我随便做了一个

按行进行正则表达式

如果返回的匹配结果大于1个（2，3，4。。。）
则返回倒数第二个[-1]
如果返回结果小于等于1个（0，1）
则返回“没有归属”
最后append所有行的结果
并赋值给‘归属’列

#%% import pandas as pd import re #%% df = pd.DataFrame() #%% df['B'] = ["山东省，中国23个省之一，简称鲁，省会济南。",\ "位于中国东部沿海北纬34°22.9′-38°24.01′，",\ "东经114°47.5′-122°42.3′之间，自北而南与",\ "河北、河南、安徽、江苏4省接壤。"] df['归属']=0 #%% pat = r'山东|济南|河北|河南|安徽|江苏' guishuall = [] for i in df.index: text = df.loc[i,'B'] guishu = re.findall(pat,text) if len(guishu) > 1: guishuall.append(guishu[-1]) else: guishuall.append('没有归属') print(guishuall) df['归属'] = guishuall
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想写一段代码，提取出表格第二列的省份或者地市名称，并取结果的倒数第二个放在‘归属’这一列

1条回答 默认 最新

1条回答默认最新