执着的雨 2014-05-20 08:15 采纳率: 0%
浏览 1681

python 解析贴吧网页的时候获得的第一页非第一页页面源码基本一样

url = 'http://tieba.baidu.com/p/3054674079?pn=1'
url2='http://tieba.baidu.com/p/3054674079?pn=2'
urllib.request.urlretrieve(url,"G:/tieba.html")
通过这两个url下载的html源码基本上一致?为什么会这样呢?如果想像浏览器一样不同页数的源码不一样要怎么办?
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0','Content-Type':'application/x-www-form-urlencoded;charset=utf-8'}
模拟浏览器请求头好像也不行?

  • 写回答

1条回答 默认 最新

  • oyljerry 2014-12-26 13:17
    关注

    还要抓包分析一下,应该是header或者其他数据不对。服务端返回数据一样

    评论

报告相同问题?

悬赏问题

  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 来真人,不要ai!matlab有关常微分方程的问题求解决,
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算