2 oopsangle oopsangle 于 2014.05.20 16:15 提问

python 解析贴吧网页的时候获得的第一页非第一页页面源码基本一样

url = 'http://tieba.baidu.com/p/3054674079?pn=1'
url2='http://tieba.baidu.com/p/3054674079?pn=2'
urllib.request.urlretrieve(url,"G:/tieba.html")
通过这两个url下载的html源码基本上一致?为什么会这样呢?如果想像浏览器一样不同页数的源码不一样要怎么办?
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0','Content-Type':'application/x-www-form-urlencoded;charset=utf-8'}
模拟浏览器请求头好像也不行?

1个回答

oyljerry
oyljerry   Ds   Rxr 2014.12.26 21:17

还要抓包分析一下,应该是header或者其他数据不对。服务端返回数据一样

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!