Python爬虫requests反还内容与网页内容不相同

从网络预览可以看到，内容应该是一个列表，使用标头里的请求网址之后，返还的却是一个网页源码，这是为什么呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2022-03-09 09:00
关注
requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接requests.get请求接口获取数据就行
https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgyd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%5D&k1=1646787266750&h=1

示例代码如下

import requests import json import urllib3 url="https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgyd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%5D&k1=1646787266750&h=1" requests.packages.urllib3.disable_warnings() res=requests.get(url, verify=False) res.encoding = 'utf8' text=res.text o=json.loads(text) datanodes=o['returndata']['datanodes']#每个月份的数据节点 nodes=o['returndata']['wdnodes'][0]['nodes']#名称数组 for node in nodes: code=node['code'] print(node['name']) nodedata=[item for item in datanodes if item['code'].find('.'+code+'_')!=-1] for data in nodedata: print(data['code'].split('.')[-1],data['data']['data']) print('\n\n\n')

有其他问题可以继续交流~
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
两万字博文教你python爬虫requests库详解篇.pdf
2023-05-23 00:54

两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万...
python的requests爬虫返回了与原网页内容不符的javascript，如何解决？ python
2021-03-29 11:19

回答 3 已采纳异步加载的问题, 可以使用selenium 工具包进行爬取, 可参考: import pandas as pd import numpy as np import time from seleni
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例
2020-09-17 18:01

主要介绍了python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例,需要的朋友可以参考下
python爬虫 requests模块错误 python 爬虫
2023-03-06 21:55

回答 3 已采纳 curr_url 没有获取到数据，提交了一个None，结果访问的地址就是 http://None了
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
Python爬虫库requests获取响应内容、响应状态码、响应头
2020-09-18 01:18

上一节我们给大家介绍了Python爬虫库requests的发送请求传参等使用方法，今天为大家介绍下requests获取响应内容、响应状态码、响应头等相关信息
python爬虫 requests-html的使用
2021-01-19 23:21

现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。 #...
python爬虫requests实战的六个实用案例
2023-10-16 10:43

文件包含python爬虫requests实战的六个实用案例源代码，分别为： 01.requests第一血.py； 02.requests实战之网页采集器.py； 03.requests实战之破解百度翻译.py； 04.requests实战之豆瓣电影爬取.py； 05.requests...
python爬虫之requests的使用
2020-12-21 09:13

聚焦爬虫：是面向特定需求的一种网络爬虫程序，他与通用爬虫的区别在于：聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理，尽量保证只抓取与需求相关的网页信息。通用爬虫的局限性通用搜索引擎所返回的网页...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月9日
展开全部

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

Python爬虫requests反还内容与网页内容不相同

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新