호호호 2021-11-20 01:32 采纳率: 100%
浏览 57
已结题

python爬虫代码运行输出结果不完整

在pycharm中写的一个小爬虫,最后前面代码运行没有问题,都没有报错,但在最后输出结果时,只能输出电影名(即代码尾部的“movie”),对应的下载链接(尾部的“href”)就是无法输出到屏幕上。为了更直观的体现出来,我在后面增加了“测试”二字,这样更方便看出问题所在。


import requests
import re

url = 'https://www.dy2018.com/'
resp = requests.get(url)
resp.encoding = 'gbk'

#1.提取2021必看热片部分的HTML代码
obj1 = re.compile(r"2021必看热片.*?<ul>(?P<html>.*?)</ul>", re.S)    
result1 = obj1.search(resp.text)     
html = result1.group("html")         # 拿到上面匹配到的href的值,并存储到html

#2.提取a标签中herf的值
obj2 = re.compile(r"<li><a href='(?P<href>.*?)' title=")
result2 = obj2.finditer(html)       #html中的href太多,所以使用finditer

#3.提取下载链接
obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                  r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="'
                  r'(?P<download>.*?)magnet:' , re.S)

for item in result2:
    #print(item.group('href'))      #验证代码可以获取到href的值
    #拼接出子页面源代码
    child_url = url.strip('/') + item.group('href')
    child_resp = requests.get(child_url)
    child_resp.encoding = 'gbk'

    result3 = obj3.search(child_resp.text)
    print(child_resp.text)
    '''
    movie = result3.group("movie")
    download = result3.group("download")
    print(movie , download , "测试")
    '''


print("======电影天堂提取完毕======")

img

  • 写回答

1条回答 默认 最新

  • 老衲要还俗娶婆娘 2021-11-20 10:33
    关注

    不知道你解决了没,我就简单说一下我的解决方法。

    obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                      r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">magnet:', re.S)
    

    你原本的正则表达式,应该就是取出这个链接。我对正则表达式不是太熟悉,就按照我会的改了一下,能提取出来

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月4日
  • 已采纳回答 11月26日
  • 修改了问题 11月20日
  • 创建了问题 11月20日

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵