东篱把酒黄昏 2022-03-28 22:27 采纳率: 100%
浏览 145
已结题

用Python爬取一个网页,向下滚动会不断生成div,想要爬取这些div但爬取下来只有个loading

问题遇到的现象和发生背景 :
用Python爬取一个网页,这个网页的特点是如果向下滚动,会源源不断的生成

标签,没有尽头,如果爬取这个网页,生成器
标签爬取下来之后只有只有个loading,而我想要获得的就是这些生成的
标签,应该怎么办?
问题相关代码:

import urllib.request,urllib.error# 制定URL,获取网页数据
def askUrl(url):
    head = {# 模拟浏览器头部信息,想浏览器发送消息
        "authority": "cupfox.app",
        "method": "GET",
        "scheme": "https",
        "path":"/ list?category = % E7 % 83 % AD % E6 % 92 % AD % E6 % 96 % B0 % E5 % 89 % A7",
        "user-agent": "Mozilla / 5.0(Linux;Android 6.0;Nexus 5 Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 99.0.4844.74 bile Safari / 537.36 Edg / 99.0.1150.55"
    }# 告诉服务器,我们能够接受什么类型的内容
    request = urllib.request.Request(url,headers=head) #把URL和头部信息headers封装成一个request对象赋给request,
    html = ''# 定义一个对象,用于封装服务器返回的数据

    #爬取网页的时候,可能会遇到很多问题,这时候需要进行异常处理:
    try:
        response = urllib.request.urlopen(request,timeout=100)  # 把封装的request对象发送给服务器,告诉它我们要打开一个URL,并且我们能够接收的类型在head里面有说明,timeout是超时时间,如果超过10秒服务器没有响应,判定为超时
        html = response.read().decode('utf-8')#读取服务器返回的数据,因为数据经过utf-8编码,所以需要decode解码
    except urllib.error.URLError as e :
        if hasattr(e,"code"):
            print(e.code) # 把有什么问题打印出来
        if hasattr(e,"reason"):
            print(e.reason)# 把什么原因没有获取成功打印出来
    return html
print(askUrl("https://cupfox.app/list?category=%E7%83%AD%E6%92%AD%E6%96%B0%E5%89%A7"))

运行结果及报错内容 :
网页如果向下滑动网页会源源不断的生成div标签:

img

下面是爬取到的内容

<title id="qr5y417-aria">Loading.</title>
  • 写回答

2条回答 默认 最新

  • Vae 东 2022-03-30 09:58
    关注

    阿这.你这个URL所需要的电影数据不是写在接口里嘛?????打开F12开发者工具.刷新页面.选择XHR.就能看到这个网站数据返回是JSON接口
    https://api.jackeriss.com/api/v1/recommend/?subject=tv_%E7%83%AD%E9%97%A8&page_start=0&page_limit=24

    如有帮助.点击采纳,谢谢

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月9日
  • 已采纳回答 4月1日
  • 创建了问题 3月28日

悬赏问题

  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 MATLAB动图问题
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名