Reuben.T 2022-11-15 00:42 采纳率: 100%
浏览 9
已结题

python正则表达式匹配中文字符后面手机号码问题

在一个txt文档中,需要用正则表达式把身份证号码和手机号码提取出来。结果是:部分手机号码提取出来,紧跟在中文后面的手机号码无法提取。

python
import codecs
# -*- coding: UTF-8 -*-
import os
import re
       
def txtreg(filename):
    fr = codecs.open(filename,'r','utf-8')
    for line in fr:
        flag = 0
        line = line.strip()
        line = line.split()
        for j in range(len(line)):
            result_id = re.match(id_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            result_ph = re.match(phone_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            if result_id:
                flag = 1
                print(result_id.group(),end='   ')
            if result_ph:
                flag = 1
                print(result_ph.group(),end='   ')
        if flag:
            print()
#主程序
if __name__=='__main__':
    logfilename = r"x:/jz/log.txt"
    f = open(logfilename,'w')
    phone_pattern = re.compile(u'^1[3-9]\d{9}(?!\d)',re.I)
    id_pattern = re.compile(u'\d{6}[1-2]\d{10}[X\d](?!d)',re.I)
    txtreg('x:/jz/test.txt')
    f.close()

部分手机号码提取出来,紧跟在中文后面的手机号码和身份证号码无法匹配。

尝试的思路:包括在正则表达式前+r或者u,把要匹配的字符串编码和解码encode('utf-8').decode('utf-8','ignore')

我想要把手机号码和身份证号码都提取出来。

  • 写回答

2条回答 默认 最新

  • hfhan_872914334 2022-11-15 09:38
    关注

    img

    你这里使用了^字符,这个表示从字符开头开始匹配,所以开头不是1[3-9]的都匹配不上

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 11月23日
  • 已采纳回答 11月15日
  • 创建了问题 11月15日

悬赏问题

  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题
  • ¥15 目标检测项目无法读取视频
  • ¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
  • ¥100 求采集电商背景音乐的方法
  • ¥15 数学建模竞赛求指导帮助