_焱_ 2022-08-19 18:08 采纳率: 50%
浏览 56

为啥爬虫爬到的内容不对

问题遇到的现象和发生背景

爬虫爬内容的时候,想爬一个电视剧全集的下载地址,可是只爬到一集的地址

问题相关代码,请勿粘贴截图
import re
import requests

#先爬主页面的内容
url = 'https://www.dy2018.com/'
resp1 = requests.get(url,verify=False) #verify = False叫做去掉安全验证
resp1.encoding = 'gbk'


#编写第一份正则提取全部子页面所需的内容
obj1 = re.compile('欧美电视剧.*?<ul>(?P<url_main>.*?)</ul>',re.S)
result1 = obj1.finditer(resp1.text) #提取到主页面内容



obj2 = re.compile("<li><a href='(?P<url_child>.*?)' ", re.S)  #编写第二份正则,为提取子页面url
result2 = obj2.finditer(result1.__next__().group('url_main').strip()) #提取主页面中子页面的url
obj3 = re.compile("◎译  名(?P<name>.*?)<br />"
                  '.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S) 
#编写第三份正则,提取子页面中的电视剧名字和下载地址

for i in result2:
    url_child = url + i.group("url_child").strip("/") #获取子页面url
    resp2 = requests.get(url_child)#获取子页面源代码
    resp2.encoding = "gbk" #改编码
    result3 = obj3.finditer(resp2.text) #获取到子页面的电视剧名字和下载地址


    for it in result3:
        print(it.group('name'))
        print(it.group('download'))

我想要达到的结果

想要把一个电视剧的全部下载地址爬下来

  • 写回答

2条回答 默认 最新

  • honestman_ 2022-08-19 18:17
    关注

    先把你的代码格式搞好再说问题

    评论

报告相同问题?

问题事件

  • 修改了问题 8月20日
  • 创建了问题 8月19日

悬赏问题

  • ¥15 mmo能不能做客户端怪物
  • ¥15 osm下载到arcgis出错
  • ¥15 Dell g15 每次打开eiq portal后3分钟内自动退出
  • ¥200 使用python编写程序,采用socket方式获取网页实时刷新的数据,能定时print()出来就行。
  • ¥15 matlab如何根据图片中的公式绘制e和v的曲线图
  • ¥15 我想用Python(Django)+Vue搭建一个用户登录界面,但是在运行npm run serve时报错了如何解决?
  • ¥15 QQ邮箱过期怎么恢复?
  • ¥15 登录他人的vue项目显示服务器错误
  • ¥15 (标签-android|关键词-app)
  • ¥15 comsol仿真压阻传感器