CSDNRGY 2017-06-16 09:26 采纳率: 88.2%
浏览 1362
已采纳

在python中如何使用正则的分组,进行匹配?

使用的是python3

图片说明

图片说明

图片说明

我觉得应该是这个
imglist = re.findall(imgre,html)
语法不对
谁知道正确的语法是什么
哪位大神能帮改下

 import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html
def getImg(html):
    reg1 = r'<img src="([\s\S]*?)" data-baiduimageplus-ignore="1">'
    g0 = re.search(reg1,html).group(0)
    print(g0)
    # reg = r'src="([.*\S]*\.jpg)" pic_ext="jpeg"'
    # imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist
html = getHtml("http://huaban.com/")
html = html.decode("UTF-8")
imgList = getImg(html)

imgName = 0
for imgPath in imgList:
    f = open("pic/"+str(imgName)+".jpg","wb")
    print(imgPath)
    f.write((urllib.request.urlopen(imgPath)).read())
    f.close()
    imgName +=1
print("All done")

有了一点进展
网上有人说用search
我找了一个demo,并修改了我的代码
图片说明

但是还是报错

图片说明

  • 写回答

2条回答 默认 最新

  • CSDNRGY 2017-06-23 00:34
    关注

    正确的做法是在循环的时候
    用group
    去匹配你要的数据

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥30 YOLO检测微调结果p为1
  • ¥20 求快手直播间榜单匿名采集ID用户名简单能学会的
  • ¥15 DS18B20内部ADC模数转换器
  • ¥15 做个有关计算的小程序
  • ¥15 MPI读取tif文件无法正常给各进程分配路径
  • ¥15 如何用MATLAB实现以下三个公式(有相互嵌套)
  • ¥30 关于#算法#的问题:运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题 求各位帮我解答一下
  • ¥15 setInterval 页面闪烁,怎么解决
  • ¥15 如何让企业微信机器人实现消息汇总整合
  • ¥50 关于#ui#的问题:做yolov8的ui界面出现的问题