python爬虫抓取亚马逊商品名,一段时间后大量返回503错误?

写了个简单的爬虫,抓取亚马逊商品的名字,一开始抓取的都还能正确返回,到几百条以后就大量返回503,偶尔成功一两条。网上说的headers和代理IP讲得比较乱,试过用headers,但是只要我一加上headers,虽然返回了200,但是bsObj.find(html)的返回还是NONE,纠结了很久不知道什么问题,有大佬解决一下吗?

3个回答

casper__
casper__ 萌新操作失误,发问题发到了博客上面。。
11 个月之前 回复

可以设置定时切换代理方法,目前免费比较好用的代理:http://www.xicidaili.com

建立代理IP库:
https://blog.csdn.net/weixin_39416561/article/details/82114152

很正常,我以前也抓取过亚马逊的商品,亚马逊有比较强的反扒机制,一般需要不停的换代理IP,以及扒取频率。
亚马逊本身有提供API扒取它的商品,不过需要注册申请,而且一定量,需要收费。

casper__
casper__ 更换代理IP是个怎么样的操作呢?哪里可以找到可用的代理IP吗?因为是根据给的文本文件里面的链接爬的,所以没办法用Amazon本身的API来操作。。。
11 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!