刚接触到爬虫，使用 re.findall()的时候老是抛出这个错误，是正则表达式的错误么？

代码如下：

import urllib.request
import re

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)"pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
        x+=1


if __name__ == '__main__':
    html = getHtml("https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%C3%C0%C5%AE&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111")
    print(getImg(html))

抛错是这样的：

   File "E:/SRCS/python/DownPic/GetPic/GetPic.py", line 12, in getImg
    imglist = re.findall(imgre,html)
  File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\re.py", line 222, in findall
    return _compile(pattern, flags).findall(string)
TypeError: cannot use a string pattern on a bytes-like object

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

qq_43253396 2018-10-07 10:41

关注

则 re.findall 的简单用法（返回string中所有与pattern相匹配的全部字串，返回形式为数组）语法：

        1


        findall(pattern, string, flags=0)

    import re Python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串 # print (help(re.findall))# print (dir(re.findall)) findall查找全部r标识代表后面是正则的语句


        1

        2

        3


        regular_v1 = re.findall(r"docs","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v1)

        # ['docs']

符号^表示匹配以https开头的的字符串返回,

        1

        2

        3


        regular_v2 = re.findall(r"^https","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v2)

        # ['https']

用$符号表示以html结尾的字符串返回,判断是否字符串结束的字符串

        1

        2

        3


        regular_v3 = re.findall(r"html$","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v3)

        # ['html']

[...]匹配括号中的其中一个字符

        1

        2

        3


        regular_v4 = re.findall(r"[t,w]h","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v4)

        # ['th', 'wh']

“d”是正则语法规则用来匹配0到9之间的数返回列表

        1

        2

        3

        4

        5

        6


        regular_v5 = re.findall(r"\d","https://docs.python.org/3/whatsnew/3.6.html")

        regular_v6 = re.findall(r"\d\d\d","https://docs.python.org/3/whatsnew/3.6.html/1234")

        print (regular_v5)

        # ['3', '3', '6']

        print (regular_v6)

        # ['123']

小d表示取数字0-9，大D表示不要数字，也就是出了数字以外的内容返回

        1

        2

        3


        regular_v7 = re.findall(r"\D","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v7)

        # ['h', 't', 't', 'p', 's', ':', '/', '/', 'd', 'o', 'c', 's', '.', 'p', 'y', 't', 'h', 'o', 'n', '.', 'o', 'r', 'g', '/', '/', 'w', 'h', 'a', 't', 's', 'n', 'e', 'w', '/', '.', '.', 'h', 't', 'm', 'l']

“w”在正则里面代表匹配从小写a到z,大写A到Z，数字0到9

        1

        2

        3


        regular_v8 = re.findall(r"\w","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v8)

        #['h', 't', 't', 'p', 's', 'd', 'o', 'c', 's', 'p', 'y', 't', 'h', 'o', 'n', 'o', 'r', 'g', '3', 'w', 'h', 'a', 't', 's', 'n', 'e', 'w', '3', '6', 'h', 't', 'm', 'l']

“W”在正则里面代表匹配除了字母与数字以外的特殊符号

        1

        2

        3


        regular_v9 = re.findall(r"\W","https://docs.python.org/3/whatsnew/3.6.html")

        print (regular_v9)

        # [':', '/', '/', '.', '.', '/', '/', '/', '.',

求采纳缺几个c币谢谢大佬

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python中的正则表达式的使用—提取豆瓣电影信息
2023-09-28 10:00

code_lover_forever的博客 正则表达式在文本处理，数据分析相关领域非常实用，掌握好它能帮助你节省大量重复的工作，本文帮助大家总结了正则表达式的概念和正则表达式在python中的应用~
Python爬虫学习笔记.正则表达式
2021-04-26 15:26

qq_51102350的博客 正则表达式一，正则表达式介绍Ⅰ，一般字符Ⅱ，预定义字符集Ⅲ，数量词Ⅳ，边界匹配二，re库的介绍二级目录三级目录一，正则表达式介绍概述：正则表达式是有自己特定语法结构的处理字符串的工具。 Ⅰ，一般字符 ...
python3 爬虫相关学习10：RE 库/ regex /regular experssion正则表达式学习
2023-06-15 11:35

奔跑的犀牛先生的博客 python 爬虫 re 正则表达式学习
python网页正则表达式_Python网络爬虫（三）正则表达式
2020-12-24 12:49

马宇轩的博客 正则表达式!什么是正则表达式在编写处理字符串的程序或网页时，经常会有...'中的数字部分，可以使用(\d+)这个式子来表达。正则表达式入门仔细研究一下上图，相信大家已经开始有点明白正则表达式是怎么回事了，如果...
爬虫入门（三）：在 Python 中使用正则表达式
2020-07-02 21:18

Engineer-Yao的博客使用 Requests 来获取网页的源代码后，得到的是HTML内容，如何从HTML中获取我们想要的数据，就从这里开始了解吧。
Python 进阶详解：正则表达式与 JSON —— 文本处理与数据交换的核心技能
2025-08-14 15:01

Py玩家的栈与星辰的博客 正则表达式通过re模块实现文本模式匹配、提取和替换，详细讲解了基础语法、元字符和常用方法（match/search/findall/sub等）及其实际应用场景，如邮箱验证、URL提取等。JSON部分则重点解析了json模块的数据序列化与...
【网络攻防】Python能做什么渗透？正则表达式、爬虫和套接字通信入门教程建议收藏！
2025-09-19 14:06

白帽黑客艾登的博客主要内容包括：网络攻防七个基础步骤和Python的优势 Python在安全领域的应用场景（目录扫描、信息搜集等） 正则表达式基础语法和匹配规则四个实用正则表达式案例：数字提取抓取HTML标签内容获取超链接文本提取...
[Python黑帽] 二.Python能做什么攻击？正则表达式、网络爬虫和套接字通信入门
2020-09-11 23:15

Eastmount的博客 Python黑帽第二篇文章将分享Python网络攻防基础知识，看看Python能做什么，以及正则表达式、网络爬虫和套接字通信入门基础。本文参考了i春秋ADO老师的课程内容，这里真心推荐大家去学习ichunqiu的课程，同时也结合...
【网络攻防】Python能做什么渗透？正则表达式、网络爬虫和套接字通信入门教程建议收藏！
2025-07-31 10:15

白帽黑客艾登的博客本文介绍了Python在网络攻防中的应用，包括其优势、正则表达式基础知识及常见应用场景。首先，文章概述了网络攻防的七个基础步骤，并强调Python因其简单易学、跨平台、丰富的第三方库等特点成为安全工程师的首选工具...
python 的文件操作os和正则表达式re
2020-04-05 18:30

jomes_wang的博客因此使用python的os库来进行文件操作和正则表达式库re来进行二：步骤2.1 使用os库来进行文件操作2.1.1 读文件在 Python 中，读文件主要分为三个步骤：打开文件读取内容关闭文件一般使用形式如下： try: f = ...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

刚接触到爬虫，使用 re.findall()的时候老是抛出这个错误，是正则表达式的错误么？

3条回答默认最新

码龄粉丝数原力等级 --

[...]匹配括号中的其中一个字符

刚接触到爬虫，使用 re.findall()的时候老是抛出这个错误，是正则表达式的错误么？

3条回答 默认 最新

[...]匹配括号中的其中一个字符

3条回答默认最新