2 zengkunling zengkunling 于 2016.03.27 17:49 提问

请教python 爬虫 ip代理 的问题

我在做一个从淘宝上抓照片的爬虫,然后在应对重定向问题的时候用ip代理,使用代理部分的代码如下,ip代理是从西刺代理上抓下来并检验的,高匿的,但还是没能解决这个问题。请问下这是怎么个情况,该如何解决。如果说这样用代理是没有错的话,那是怎么被反爬虫了?

```proxies = [
{'http':'222.83.14.145:3128'},
{'http':'211.144.76.58:9000'},
{'http':'101.200.138.85:3128'},
{'http':'114.40.79.27:8080'},
{'http':'119.29.53.211:80'},
{'http':'58.49.144.208:8090'},
{'http':'42.96.197.187:80'},
{'http':'119.29.171.208:80'},
{'http':'124.160.194.71:80'},
{'http':'27.10.109.113:8118'},
{'http':'58.23.182.211:8118'},
{'http':'119.188.94.145:80'},
{'http':'113.243.132.120:8080'},
{'http':'122.96.59.107:843'},
{'http':'42.233.18.143:8118'},
{'http':'122.237.107.30:80'},
{'http':'117.69.6.181:8118'},
{'http':'118.113.7.48:8118'},
{'http':"222.83.14.145:3128"},
{'http':"115.160.137.178:8088"}
]
IPNum = ipcount%len(proxies)
print IPNum
print proxies[IPNum]
html = requests.get(each,headers = header,proxies = proxies[IPNum])


3个回答

oyljerry
oyljerry   Ds   Rxr 2016.03.27 18:18

只能说这些代理也被加到人家的爬虫黑名单了 所以还是被识别出爬虫了

zengkunling
zengkunling 额。。。那请问如何应对呢?
2 年多之前 回复
CSDNXIAOD
CSDNXIAOD   2016.03.30 11:27

爬虫 代理问题
python IP代理爬虫,download 代理IP
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

qq_25970551
qq_25970551   2016.05.16 15:34

使用收费的代理ip?我记得有一个专门讲爬虫的教程有专门讲过代理ip等反反爬虫的,你可以看看学习学习:http://blog.csdn.net/youmumzcs/article/details/51396283

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Python2.*爬虫获取免费有效IP代理
爬虫代理的获取代码获取网站免费的代理IP
Python爬虫技巧---设置代理IP
Python爬虫技巧之设置代理IP 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧,设置代理IP。 (一)配置环境 安装requests库 安装bs4库 安装lxml库 (二)代码展示 快捷键 加粗 Ctrl +
Python 爬虫入门 IP代理使用
首先获取Ip列表#encoding=utf8 import urllib from lxml import etree import requests from bs4 import BeautifulSoup User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0' hea...
Python爬虫IP代理池的建立和使用
采用IP代理的方法避免短时间大量访问某网站服务器导致IP被封的情况,包括从网上抓取代理IP和端口以及验证其有效性。
python3爬虫之IP代理
IP代理的使用 为何使用代理IPUser Agetn 已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫在网站爬取,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果超过这个阈值,说明不是人访问,而是一个爬虫程序。 一般步骤说明简单的方法就是设置延时,但是这获取信息太慢,所
爬虫---Python爬虫IP代理池的建立和使用
同一个IP针对一个网站短时间内大量的访问通常会导致IP被封,除了在爬取数据时增加延迟(爬取量不大或者对爬取速度没要求),还有一个好方法就是使用代理IP,这样就可以完美解决IP被封的问题。那么,问题来了,代理的IP从哪儿来呢,土豪自然随意,直接淘宝买一些代理IP就好,稳定也不是特别贵。但对于技术爱好者,也许并没有那个需求,其实网上还是有很多免费的代理IP的,随意打开百度一搜就是,选择第一个不是广告的...
Python 爬虫入门(二)—— IP代理使用
Python 爬虫入门(二)—— IP代理使用 时间 2016-01-25 11:40:00  Python_博客园 原文  http://www.cnblogs.com/hearzeus/p/5157016.html 主题 Python 上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要
使用python为爬虫获取免费代理ip
免费代理ip的爬取 爬虫一直是python使用的一个重要部分,而许多网站也为此做了许多反爬措施,其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千,自损八百”的方法被许多网站采用,代理ip便可以防止这种情况出现。 搜索免费代理提供网站 提供免费代理的网站直接百度还是有很多的,这里我就选取了西刺免费代理,选取了透明代理进行爬取。 分析界面 打开网址,可以看见ip很规则的排列...
Python爬虫(一)之获取代理IP
设置代理IP的原因我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。代码模块(一)获取代理IP列表这里以西刺代理IP为例(链接),免费和方便爬取以获取IP是它的优点。但是据说经常会出现无
Python爬虫设置代理IP爬取知乎图片
本文接着前面两文中提到的内容来继续完善我们的Python爬虫。上文地址:通过Python爬虫爬取知乎某个问题下的图片 设置代理的方式很简单,可以看看这里Requests的官方文档,这里也有对应的中文版介绍,点击打开链接 先简单说下requests代理的使用,摘自上述提到的文档: 如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求: impor