2 q245413856 q245413856 于 2015.06.02 15:37 提问

网页同一请求地址两次的网页显示不同,源码也不一致

本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同。
举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html。
多次请求这个地址会发现每次的商品页数可能不同,源码也不同。实际结果就是明明应该有几十页的内容,却只显示有几页。这是什么原因导致呢?因为我是通过页面内的下一页来抓取下一页内容,这样的话必然导致抓取不足,甚至有时候明明下一页是第三页,却显示了第一页的内容,望解答,谢谢。
PS:可能表达不清,如需细节再补充

3个回答

showbo
showbo   Ds   Rxr 2015.06.02 15:53

自己用开发工具监视下请求头都有什么,你的webrequest对象都要加上这些请求头

q245413856
q245413856 你好,现在的情况应该不是请求头的问题?因为我用浏览器看列表页面也是这个结果,有别的思路可以借鉴么
2 年多之前 回复
q245413856
q245413856 你好,现在的情况应该不是请求头的问题?因为我用浏览器看列表页面也是这个结果,有别的思路可以借鉴么
2 年多之前 回复
beacon_2011
beacon_2011   Rxr 2015.06.02 16:22

查一下自己分页是否正确,如果分页没有问题看看后台查出来的数据是否和前台显示的相一致。一致的话就清缓存看看吧

q245413856
q245413856 你好,我用浏览器看列表页面他的分页也经常不对,你说的看后台数据怎么看?
2 年多之前 回复
houoyufeng
houoyufeng   2015.06.02 20:11

是不是一堆js的代码啊,哈哈,应该是每次和后台的交互不止一次,js代码执行后台会再传数据。
经常遇到这种问题,你可以去看看goolge搜索后的代码,随便搜索一个词,然后看搜索后的源代码,就是一堆js,很不好爬虫。
没有什么好的解决方法,
1、条用js解析工具
2、弄清楚和服务器交互的实际情况,自己把所有的都模拟了

q245413856
q245413856 你好,问题是我直接用浏览器看列表页面他的分页也经常不对,经常应该有几十页的列表显示只有几页,所以我很奇怪,有什么比较好的参考么?谢谢
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片