호호호 2021-11-20 01:32 采纳率: 100%
浏览 57
已结题

python爬虫代码运行输出结果不完整

在pycharm中写的一个小爬虫,最后前面代码运行没有问题,都没有报错,但在最后输出结果时,只能输出电影名(即代码尾部的“movie”),对应的下载链接(尾部的“href”)就是无法输出到屏幕上。为了更直观的体现出来,我在后面增加了“测试”二字,这样更方便看出问题所在。


import requests
import re

url = 'https://www.dy2018.com/'
resp = requests.get(url)
resp.encoding = 'gbk'

#1.提取2021必看热片部分的HTML代码
obj1 = re.compile(r"2021必看热片.*?<ul>(?P<html>.*?)</ul>", re.S)    
result1 = obj1.search(resp.text)     
html = result1.group("html")         # 拿到上面匹配到的href的值,并存储到html

#2.提取a标签中herf的值
obj2 = re.compile(r"<li><a href='(?P<href>.*?)' title=")
result2 = obj2.finditer(html)       #html中的href太多,所以使用finditer

#3.提取下载链接
obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                  r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="'
                  r'(?P<download>.*?)magnet:' , re.S)

for item in result2:
    #print(item.group('href'))      #验证代码可以获取到href的值
    #拼接出子页面源代码
    child_url = url.strip('/') + item.group('href')
    child_resp = requests.get(child_url)
    child_resp.encoding = 'gbk'

    result3 = obj3.search(child_resp.text)
    print(child_resp.text)
    '''
    movie = result3.group("movie")
    download = result3.group("download")
    print(movie , download , "测试")
    '''


print("======电影天堂提取完毕======")

img

  • 写回答

1条回答 默认 最新

  • 老衲要还俗娶婆娘 2021-11-20 10:33
    关注

    不知道你解决了没,我就简单说一下我的解决方法。

    obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                      r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">magnet:', re.S)
    

    你原本的正则表达式,应该就是取出这个链接。我对正则表达式不是太熟悉,就按照我会的改了一下,能提取出来

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月4日
  • 已采纳回答 11月26日
  • 修改了问题 11月20日
  • 创建了问题 11月20日

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器