No_Found707 2024-09-03 15:57 采纳率: 100%
浏览 8
已结题

python爬虫时发现f12和网页显示不太一样

是这样的,刚开始学爬虫很多地方不明白,先谢谢你…

爬取下方有页码的网页时,到第七页发现保存的数据和第一页完全一样
虽然网页显示的数据不同,但源码和第一页的源码完全相同,不知道该怎么办了


    if (page == 0) :
        url = "http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html"
    if (page < 6):
        url =f"http://szecp.crc.com.cn/zbxx/006002/{page+1}.html"
    else:
        url=f"http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html?categoryNum=006002&pageIndex={page+1}"
    response = httpx.get(url , headers = headers)
    soup = BeautifulSoup(response.text , 'html.parser')

查了很久看大家都是如何找数据的url,我找到了但是爬到的第七页还是第一页的数据
用的是f12查看源码,也用了xhr看到的url(这个网址其实和网页上方显示的网址完全相同)
但是代码应该没问题的!因为前六页的内容都完全正确
-
谢谢你谢谢你我真的很困扰谢谢你救我!

  • 写回答

1条回答 默认 最新

  • 吃苹果的牛顿顿 2024-09-03 16:12
    关注

    第七页之后请求方式是post而不是get请求,示例代码如下

    import httpx
    
    headers = {
        "Accept": "application/json, text/javascript, */*; q=0.01",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
        "Origin": "http://szecp.crc.com.cn",
        "Referer": "http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html?categoryNum=006002&pageIndex=9",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Unique/96.7.5796.97",
        "X-Requested-With": "XMLHttpRequest",
    
    }
    
    url = "http://szecp.crc.com.cn/EpointWebBuilder/rest/datalist/get"
    data = {
        "categorynum": "006002",
        "pageIndex": "9",
        "pageSize": "15"
    }
    response = httpx.post(url, headers=headers, data=data)
    print(response.text)
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 9月11日
  • 已采纳回答 9月3日
  • 创建了问题 9月3日

悬赏问题

  • ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
  • ¥50 浦育平台scratch图形化编程
  • ¥20 求这个的原理图 只要原理图
  • ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
  • ¥20 微信的店铺小程序如何修改背景图
  • ¥15 UE5.1局部变量对蓝图不可见
  • ¥15 一共有五道问题关于整数幂的运算还有房间号码 还有网络密码的解答?(语言-python)
  • ¥20 sentry如何捕获上传Android ndk 崩溃
  • ¥15 在做logistic回归模型限制性立方条图时候,不能出完整图的困难
  • ¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动,如何解决?