python 解析贴吧网页的时候获得的第一页非第一页页面源码基本一样

url = 'http://tieba.baidu.com/p/3054674079?pn=1'
url2='http://tieba.baidu.com/p/3054674079?pn=2'
urllib.request.urlretrieve(url,"G:/tieba.html")
通过这两个url下载的html源码基本上一致？为什么会这样呢？如果想像浏览器一样不同页数的源码不一样要怎么办？
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0','Content-Type':'application/x-www-form-urlencoded;charset=utf-8'}
模拟浏览器请求头好像也不行？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2014-12-26 13:17
关注
还要抓包分析一下，应该是header或者其他数据不对。服务端返回数据一样

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python爬虫爬到331页无法继续 python
2023-03-13 12:46

回答 4 已采纳当前页提取列表数据超出索引，这也不是什么报错，当你列表里面没东西或者索引值超过了列表元素的时候就会出现这个问题，就是你爬到的这页，抓取的这个列表值，里面没东西或者东西太少。所以报错了。建议你换个网站爬
网页爬虫，F12可以看到的内容，但爬出来的源码里没有 python
2020-10-12 16:35

回答 2 已采纳把浏览器源码，跟爬取的源码全部贴出来
Python爬虫入门第一课：如何解析网页
2020-10-10 14:31

松鼠爱吃饼干的博客前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,...首先是import requests来导入网络请求相关的包，然后定义一个字符串url也就是目标网页，之后我们就要用导入的requests.
python 运行这段代码进入循环后退出 python 有问必答
2022-03-12 10:37

回答 3 已采纳你的意思是函数执行后没有打印输出还是?TranslateFile函数需要读取.\dst_dir目录下的文件读取,读取的PDF类文件,你的目录下放置文件了吗,还是路径不对
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
python爬取证监会行政监管措施遭遇 IndexError: list index out of range python 有问必答爬虫
2022-01-25 13:06

回答 3 已采纳 http://www.csrc.gov.cn/searchList/58959eb1bd68458088cac63f46a5fa40?_isAgg=true&_isJson=true&_pageSiz
使用 Python3 获取网页源代码
2022-12-23 21:57

猿小猴子的博客爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。
python爬取小说的代码没有执行循环 python 开发语言爬虫
2022-09-07 22:06

回答 1 已采纳这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。 import requests from bs4 import BeautifulSoup if __name__ == '__m
爬虫学习时错误IndexError: list index out of range（列表索引超出范围） python 有问必答
2021-10-01 17:23

回答 1 已采纳去掉break。。要不for下面的append不生效。。而且item是node，需要转为字符串，取消注释item = str(item) 改完上面2步骤后可以了，正常采集有帮助麻烦点个采纳【本回
为啥输出的结果是None? python
2021-12-20 14:15

回答 1 已采纳 attrs={"class":"TypeList"}
python解析网页视频url_使用Python中的urlparse、urllib抓取和解析网页（一）（转）...
2020-12-10 14:09

weixin_39840153的博客对搜索引擎、文件索引、文档转换、数据检索、站点备份或...本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Pyth...
为什么出现list index out of range python 数据分析数据挖掘
2022-04-06 15:49

回答 1 已采纳 for i in range(0, 1640):越界了for i in range(len(datalist))吧
使用Python爬取一个网页并解析
2021-05-15 20:27

执章学长的博客使用Python爬取一个网页并解析爬虫准备Python基础语法爬取一个网页的整体思路基础概念简单思路详细思路代码示例数据在目标url中数据通过其他url返回爬虫准备 Python基础语法首先，当你看到这篇文章的时候，我们...
python网页结构分析图_Python爬虫解析网页的4种方式值得收藏
2021-01-14 17:12

戚琳的博客爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算

python 解析贴吧网页的时候获得的第一页非第一页页面源码基本一样

1条回答 默认 最新

悬赏问题

1条回答默认最新