python爬虫时发现f12和网页显示不太一样

是这样的，刚开始学爬虫很多地方不明白，先谢谢你…

爬取下方有页码的网页时，到第七页发现保存的数据和第一页完全一样
虽然网页显示的数据不同，但源码和第一页的源码完全相同，不知道该怎么办了


    if (page == 0) :
        url = "http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html"
    if (page < 6):
        url =f"http://szecp.crc.com.cn/zbxx/006002/{page+1}.html"
    else:
        url=f"http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html?categoryNum=006002&pageIndex={page+1}"
    response = httpx.get(url , headers = headers)
    soup = BeautifulSoup(response.text , 'html.parser')

查了很久看大家都是如何找数据的url，我找到了但是爬到的第七页还是第一页的数据
用的是f12查看源码，也用了xhr看到的url（这个网址其实和网页上方显示的网址完全相同）
但是代码应该没问题的！因为前六页的内容都完全正确
-
谢谢你谢谢你我真的很困扰谢谢你救我！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

吃苹果的牛顿顿 2024-09-03 16:12

关注

第七页之后请求方式是post而不是get请求，示例代码如下

import httpx

headers = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Origin": "http://szecp.crc.com.cn",
    "Referer": "http://szecp.crc.com.cn/zbxx/006002/secondpagejy.html?categoryNum=006002&pageIndex=9",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Unique/96.7.5796.97",
    "X-Requested-With": "XMLHttpRequest",

}

url = "http://szecp.crc.com.cn/EpointWebBuilder/rest/datalist/get"
data = {
    "categorynum": "006002",
    "pageIndex": "9",
    "pageSize": "15"
}
response = httpx.post(url, headers=headers, data=data)
print(response.text)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
Python爬虫基础爬取网页访问网页
2021-02-18 20:54

MYH永恒的博客原来使用过八爪鱼这个软件，不太需要有什么编程基础，但是也已经忘得差不错了，所以就想着学习利用Python进行爬取。目录一、对爬虫的理解：二、爬取网页1.模仿浏览器2.实例分析（1）代码（2）获取浏览器User-Agent...
python 爬虫 post请求返回的数据不全，和postman模拟的不一样，关键内容是个空列表 python 有问必答爬虫
2021-09-08 11:50

回答 2 已采纳经过实际测试，该站对 refer和 origin 没有验证，却验证了 content-type，你在header里加上content-type就可以了 import requests impor
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
Python爬虫必备：爬虫基础+js逆向+app逆向+案例
2024-01-18 10:42

Python爬虫技术是数据获取的重要手段，特别是在大数据时代，它为数据分析、信息挖掘等领域提供了强大的支持。本资源包"Python爬虫必备：爬虫基础+js逆向+app逆向+案例"涵盖了Python爬虫的基础知识，JavaScript逆向...
python爬虫网页图片显示不出来_用Python爬取20万条网页美女图片，两只眼睛都看不过来了！...
2020-12-01 23:05

weixin_39828331的博客前言最近几天，研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文：你可能需要的工作环境：Python 3.6官网下载本地下载我们这里以sogou作为爬取的对象。首先我们进入搜狗图片...
Python项目开发实战_爬虫与二级域名枚举_编程案例解析实例详解课程教程.pdf
2023-05-02 11:37

总的来说，Python 项目开发实战中的爬虫与二级域名枚举，是一个结合了网络信息获取、数据分析和编程技能的综合实践。通过 Scrapy 框架，我们可以高效、有序地抓取和处理大量网页数据，实现对二级域名的有效枚举和...
Python项目开发实战_网络爬虫批量采集股票数据保存到Excel中_编程案例实例课程教程.pdf
2023-05-02 16:41

总结起来，本章的实战案例涵盖了Python爬虫开发的关键环节，包括网络请求、网页解析、正则表达式匹配和数据存储。通过实践这个案例，读者不仅能学到具体的技术，还能理解爬虫项目的一般流程，这对于未来进行更复杂的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月3日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

python爬虫时发现f12和网页显示不太一样

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新