호호호 2021-11-20 01:32 采纳率: 100%
浏览 57
已结题

python爬虫代码运行输出结果不完整

在pycharm中写的一个小爬虫,最后前面代码运行没有问题,都没有报错,但在最后输出结果时,只能输出电影名(即代码尾部的“movie”),对应的下载链接(尾部的“href”)就是无法输出到屏幕上。为了更直观的体现出来,我在后面增加了“测试”二字,这样更方便看出问题所在。


import requests
import re

url = 'https://www.dy2018.com/'
resp = requests.get(url)
resp.encoding = 'gbk'

#1.提取2021必看热片部分的HTML代码
obj1 = re.compile(r"2021必看热片.*?<ul>(?P<html>.*?)</ul>", re.S)    
result1 = obj1.search(resp.text)     
html = result1.group("html")         # 拿到上面匹配到的href的值,并存储到html

#2.提取a标签中herf的值
obj2 = re.compile(r"<li><a href='(?P<href>.*?)' title=")
result2 = obj2.finditer(html)       #html中的href太多,所以使用finditer

#3.提取下载链接
obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                  r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="'
                  r'(?P<download>.*?)magnet:' , re.S)

for item in result2:
    #print(item.group('href'))      #验证代码可以获取到href的值
    #拼接出子页面源代码
    child_url = url.strip('/') + item.group('href')
    child_resp = requests.get(child_url)
    child_resp.encoding = 'gbk'

    result3 = obj3.search(child_resp.text)
    print(child_resp.text)
    '''
    movie = result3.group("movie")
    download = result3.group("download")
    print(movie , download , "测试")
    '''


print("======电影天堂提取完毕======")

img

  • 写回答

1条回答 默认 最新

  • 老衲要还俗娶婆娘 2021-11-20 10:33
    关注

    不知道你解决了没,我就简单说一下我的解决方法。

    obj3 = re.compile(r'<div id="Zoom">.*?◎片  名(?P<movie>.*?)<br />.*?'
                      r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">magnet:', re.S)
    

    你原本的正则表达式,应该就是取出这个链接。我对正则表达式不是太熟悉,就按照我会的改了一下,能提取出来

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月4日
  • 已采纳回答 11月26日
  • 修改了问题 11月20日
  • 创建了问题 11月20日

悬赏问题

  • ¥15 Arduino,利用modbus的RS485协议,进行对外置的温湿度传感器进行数据读取
  • ¥15 vhdl+MODELSIM
  • ¥20 simulink中怎么使用solve函数?
  • ¥30 dspbuilder中使用signalcompiler时报错Error during compilation: Fitter failed,求解决办法
  • ¥15 gwas 分析-数据质控之过滤稀有突变中出现的问题
  • ¥15 没有注册类 (异常来自 HRESULT: 0x80040154 (REGDB_E_CLASSNOTREG))
  • ¥15 知识蒸馏实战博客问题
  • ¥15 用PLC设计纸袋糊底机送料系统
  • ¥15 simulink仿真中dtc控制永磁同步电机如何控制开关频率
  • ¥15 用C语言输入方程怎么