Python 爬虫爬取一个网站的时候成功,但爬取多个网站就404

图片说明
图片说明
图片说明

第一张图我是把txt文件中第一个网址拿出来,然后保存图片成功,但是当我读取txt文件,准备开始批量爬取的时候(图二),状态码为404,单独爬取一个网站的时候没问题,一放在多个网站中就报错,怎么办?

2个回答

调试看下地址拼接对不对,抓包看下和浏览器有什么不同,是不是有反盗链(referer)和反爬机制(换ip、ua)

qq_46101580
南归a 单个网址爬取的时候没有问题,但是准备批量爬取的时候,也就是把网址挨个读取,见图二前半段代码,就会403,所以不是你说的问题
5 个月之前 回复

你读取的时候会在每个链接末尾添加换行符\n,所以请求url的时候就会因为末尾有换行符导致失败

['https://456\n', 'https://123']

就像这样
读取的时候要加一条

for url in urls:
    print(url.replace('\n',''))

把换行符去掉就没问题了

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐