python正则表达式匹配中文字符后面手机号码问题

在一个txt文档中，需要用正则表达式把身份证号码和手机号码提取出来。结果是：部分手机号码提取出来，紧跟在中文后面的手机号码无法提取。

python
import codecs
# -*- coding: UTF-8 -*-
import os
import re
       
def txtreg(filename):
    fr = codecs.open(filename,'r','utf-8')
    for line in fr:
        flag = 0
        line = line.strip()
        line = line.split()
        for j in range(len(line)):
            result_id = re.match(id_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            result_ph = re.match(phone_pattern,line[j].encode('utf-8').decode('utf-8','ignore'))
            if result_id:
                flag = 1
                print(result_id.group(),end='   ')
            if result_ph:
                flag = 1
                print(result_ph.group(),end='   ')
        if flag:
            print()
#主程序
if __name__=='__main__':
    logfilename = r"x:/jz/log.txt"
    f = open(logfilename,'w')
    phone_pattern = re.compile(u'^1[3-9]\d{9}(?!\d)',re.I)
    id_pattern = re.compile(u'\d{6}[1-2]\d{10}[X\d](?!d)',re.I)
    txtreg('x:/jz/test.txt')
    f.close()

部分手机号码提取出来，紧跟在中文后面的手机号码和身份证号码无法匹配。

尝试的思路：包括在正则表达式前＋r或者u,把要匹配的字符串编码和解码encode('utf-8').decode('utf-8','ignore')

我想要把手机号码和身份证号码都提取出来。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hfhan_872914334 2022-11-15 09:38
关注
你这里使用了^字符，这个表示从字符开头开始匹配，所以开头不是1[3-9]的都匹配不上

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python使用正则表达式匹配字符串开头并打印示例
2020-10-20 16:01

在Python中使用正则表达式匹配字符串开头并打印的示例涉及到几个重要的知识点，包括正则表达式的编写、Python中的正则表达式库re的使用、以及如何利用正则表达式提取特定模式的字符串。以下是对这些知识点的详细介绍...
Python 正则表达式匹配字符串中的http链接方法
2021-01-20 04:37

利用Python正则表达式匹配字符串中的http链接。主要难点是用正则表示出http 链接的模式。 import re pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') #...
Python使用中文正则表达式匹配指定中文字符串的方法示例
2020-12-25 14:28

本文实例讲述了Python使用中文正则表达式匹配指定中文字符串的方法。分享给大家供大家参考，具体如下：业务场景：从中文字句中匹配出指定的中文子字符串 .这样的情况我在工作中遇到非常多, 特梳理总结如下. 难点: ...
python正则表达式匹配不包含某几个字符的字符串方法
2020-12-26 09:49

自然想到正则表达式r'(https?://.*?.jpg|https?://.*?.png|https?://.*?.jpeg)简化书写为r'(https?://.*?\.(?:jpg|png|jpeg) 匹配结果：[‘http://sdsdsdadadsdsdsddsdsdawwii,...
python正则表达式匹配[]中间为任意字符的实例
2020-10-17 14:28

在本篇教程中，我们将详细探讨如何使用Python正则表达式来匹配方括号[]中间为任意字符的实例。首先，理解方括号在正则表达式中的含义是十分重要的。方括号通常用来匹配方括号内的任意一个字符。例如，表达式[a-z]...
Python 正则表达式匹配中文
2021-04-02 15:33

PresleyR的博客在使用Python的过程中，由于需求原因，我们经常需要在文本或者网页元素中用Python正则表达式匹配中文，但是我们经常所熟知的正则表达式却只能匹配英文，而对于中文编码却望尘莫及，于是我大量Google，几经Baidu，花...
Python正则表达式如何进行字符串替换实例
2020-12-25 07:39

Python正则表达式在使用中会经常应用到字符串替换的代码。有很多人都不知道如何解决这个问题，下面的代码就告诉你其实这个问题无比的简单，希望你有所收获。 1.替换所有匹配的子串用newstring替换subject中所有与...
Python正则表达式匹配字符串中的数字
2020-10-15 18:29

在使用Python正则表达式来匹配字符串中的数字时，“\d+”能够匹配文本中所有连续的数字序列，但包括那些与非数字字符混合的部分。而“r"\b\d+\b"”则能够仅匹配独立的纯数字序列，避免将非数字字符包含进来。在编写...
python正则表达式匹配反斜杠的操作方法
2020-10-14 23:31

本文详细介绍在Python正则表达式中匹配反斜杠的方法，并对Python字符串和正则表达式中的反斜杠处理给出说明。 ### Python正则表达式中的反斜杠在Python的正则表达式中，反斜杠（\）是一个特殊的元字符，用于转义...
Python正则表达式匹配HTML页面编码
2020-09-22 06:51

、星号*等在Python正则表达式中具有特殊含义，它们分别表示字符集合、零个或一个字符、零个或多个字符。此外，由于OCR识别的误差，建议在使用时对代码进行适当修正与格式化，以确保代码的正确性和可运行性。正则...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月15日

python正则表达式匹配中文字符后面手机号码问题

2条回答 默认 最新

问题事件

2条回答默认最新