2 u011038411 u011038411 于 2016.02.13 21:08 提问

爬虫过程中同一URL是不同的网页内容,这样的可能会漏掉很多网页,这种问题怎么解决

比如网站会根据不同的城市显示不同的网页内容,但URL是一样的,爬虫应该采取什么措施防止漏掉这些页面

3个回答

oyljerry
oyljerry   Ds   Rxr 2016.02.13 22:23

直接拿到不同城市请求的那个URL,然后获取内容

rui888
rui888   Ds   Rxr 2016.02.14 09:12

肯定有参数判断是那个 城市,你爬虫的时候将 城市的参数 带着。

u011038411
u011038411   2016.02.15 15:26

在网址栏中点击不同的城市显示的URL是一样的,怎么拿到不同城市请求的URL

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
爬虫过程中经常遇到的一些棘手问题
先写一些已经遇到,并已解决的,后面慢慢增添: 1.中文字符串前面加u,让字符串可以正常输出为中文:  有时候我们从其它地方接受的字符串经过艰难跋涉,它变了个样。比如收到的是'\u6253\u602a\u8005'而不是u'\u6253\u602a\u8005'。 明明肉眼看起来只需要加个u,但是怎么加呢? >>s = '\u6253\u602a\u8005' >>s '\\u6253\
转:网页爬取页面去重策略
网上搜集到的网页去重策略: 1.通过MD5生成电子指纹来判断页面是否改变 2.nutch去重策略:nutch中digest是对采集的每一个网页内容的32位哈希值,如果两个网页内容完全一样,它们的digest值肯定会一样,但哪怕其中之一多或少一个空格,它们的digest值就会不一样。所以,我认为,用digest做id是一个非常不错的选择。     如果nutch在两次不同的时间抓某个网页,例如
Java爬虫系列之二网页解析【爬取知乎首页信息】
上一节以一个小Demo开始了Java的爬虫之旅,熟悉了HttpClient请求资源得到返回结果,得到初步处理的结果。但对于得到的网页是怎么解析的呢?这里讨论一下Jsoup的使用。         Jsoup是一款Java的HTML解析器,提供了一套非常省力的API,可以方便的从一个URL、文件、或字符串中解析出HTML,然后使用DOM或者Select选择出页面元素、取出数据。如下: Strin
python爬虫<解决URL被重定向无法抓取到数据问题>
在写爱奇艺爬虫的时候经常碰到URL被重定向的问题,导致无法请求到数据:以下是我的代码:# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' }
学习爬虫过程中遇到的问题总结
1.下载数据编码问题 "title":["\u5a92\u4f53\u63ed\u5730\u94c1\"\u5988\u5988\u4e10\u5e2e\":\u5e26\u5a03\u884c\u4e5e\u6708\u5165\u8fc7\u4e07(\u56fe)"] 存放在文本文件中是上面这种Unidcode形式编码的,存放到数据库中是自动转码的,转换化为文字形式。如果想打印出汉字,
如果让你设计一个网络爬虫,你怎么避免陷入无限循环?
话说爬虫为什么会陷入循环呢?答案很简单,当我们重新去解析一个已经解析过的网页时,就会陷入无限循环。这意味着我们会重新访问那个网页的所有链接,然后不久后又会访问到这个网页。最简单的例子就是,网页A包含了网页B的链接,而网页B又包含了网页A的链接,那它们之间就会形成一个闭环。 那么我们怎样防止访问已经访问过的页面呢?答案很简单,设置一个标志即可。整个互联网就是一个图结构,我们通常使用DFS(深度优先
Scrapy定向爬虫教程(二)——提取网页内容
本节内容在这一小结,我将介绍如何使用Scrapy通过Selector选择器从网页中提取出我们想要的内容,并将这些内容存放到本地文件。 我们的目标网页是http://www.heartsong.top/forum.php?mod=viewthread&tid=8,一个有七层楼的帖子。我们要获取到每一层楼的下列信息: * 所属主题帖的标题 * 所属主题帖的url * 这一楼层的作者 * 这一楼
网络爬虫之Scrapy实战二:爬取多个网页
在上一篇scrapy介绍中,我们抓取了单一的网页。这一章介绍了如何自动抓取多个网页。这里还是以一个小说的页面为例子进行讲解
爬虫解决网页重定向问题
1.服务器端重定向,在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体来说,可以通过requests请求得到的response对象中的url、status_code两个属性来判断。当status_code为301、302或其他代表重定向的代码时,表示原请求被重定向;当response对象的url属性与发送请求时的链接不一致时,也
网络爬虫系列之一:通过URL下载网页
世界上第一个爬虫叫做"互联网漫游者(www wanderer)",是由MIT学生马修·格雷写的。我想他大概也是通过细心细致的观察后发现:互联网上的页面之间是有联系的。比如说,通过分析一个页面的链接,就能下载到其它页面。而且做起来可能没那么困难,就放手去尝试,第一个爬虫就成了!         初学爬虫,顺着自己的思路往下做。         第一个爬虫的第一个部分就是下载,同时也知道第二个部分