Reuben.T 2022-11-15 00:42 采纳率: 100%
浏览 9
已结题

python正则表达式匹配中文字符后面手机号码问题

在一个txt文档中,需要用正则表达式把身份证号码和手机号码提取出来。结果是:部分手机号码提取出来,紧跟在中文后面的手机号码无法提取。

python
import codecs
# -*- coding: UTF-8 -*-
import os
import re
       
def txtreg(filename):
    fr = codecs.open(filename,'r','utf-8')
    for line in fr:
        flag = 0
        line = line.strip()
        line = line.split()
        for j in range(len(line)):
            result_id = re.match(id_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            result_ph = re.match(phone_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            if result_id:
                flag = 1
                print(result_id.group(),end='   ')
            if result_ph:
                flag = 1
                print(result_ph.group(),end='   ')
        if flag:
            print()
#主程序
if __name__=='__main__':
    logfilename = r"x:/jz/log.txt"
    f = open(logfilename,'w')
    phone_pattern = re.compile(u'^1[3-9]\d{9}(?!\d)',re.I)
    id_pattern = re.compile(u'\d{6}[1-2]\d{10}[X\d](?!d)',re.I)
    txtreg('x:/jz/test.txt')
    f.close()

部分手机号码提取出来,紧跟在中文后面的手机号码和身份证号码无法匹配。

尝试的思路:包括在正则表达式前+r或者u,把要匹配的字符串编码和解码encode('utf-8').decode('utf-8','ignore')

我想要把手机号码和身份证号码都提取出来。

  • 写回答

2条回答 默认 最新

  • hfhan_872914334 2022-11-15 09:38
    关注

    img

    你这里使用了^字符,这个表示从字符开头开始匹配,所以开头不是1[3-9]的都匹配不上

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 11月23日
  • 已采纳回答 11月15日
  • 创建了问题 11月15日

悬赏问题

  • ¥50 关于#html5#的问题:H5页面用户手机返回的时候跳转到指定页面例如(语言-javascript)
  • ¥15 无法使用此凭据登录,因为你的域不可用,如何解决?(标签-Windows)
  • ¥15 yolov9的训练时间
  • ¥15 二叉树遍历没有报错但无法正常运行
  • ¥15 在linux系统下vscode运行robocup3d上场球员报错
  • ¥15 Python语言实验
  • ¥15 SAP HANA SQL 增加合计行
  • ¥20 用C#语言解决一个英文打字练习器,有偿
  • ¥15 srs-sip外部服务 webrtc支持H265格式
  • ¥15 在使用abaqus软件中,继承到assembly里的surfaces怎么使用python批量调动