python爬虫怎么改成多线程

import parsel
import requests
import os


url = "****"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/100.0.4896.75 Safari/537.36 Edg/100.0.1185.39 '
}

response = requests.get(url=url, headers=headers)
html_str = response.text
selector = parsel.Selector(html_str)
lis = selector.xpath('//div[@id="primary"]/main/article')[1:]
for li in lis:
    pic_title = li.xpath('.//h2/a/text()').get()
    pic_url = li.xpath('.//h2/a/@href').get()
    print('正在下载相册：', pic_title)

    if not os.path.exists('img\\' + pic_title):
        os.mkdir('img\\' + pic_title)

    response_pic = requests.get(url=pic_url, headers=headers).text

    selector_2 = parsel.Selector(response_pic)
    pic_url_list = selector_2.xpath('//div[@class="entry-content"]//img/@src').getall()[1:-1]
    # print(pic_url_list)
    for pic_url in pic_url_list:
        img_data = requests.get(url=pic_url, headers=headers).content

        file_name = pic_url.split('/')[-1]
        with open(f'img\\{pic_title}\\{file_name}', mode='wb') as f:
            f.write(img_data)
            print('保存完成:', file_name)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

bj_0163_bj 2022-04-29 20:27

关注

楼上的这些线程改造方式放在这里行不通吧。楼主代码中IO操作在循环的地方，这里线程不是应该将循环改成多线程吗。。。
##改了一个循环，试一下


```python

import parsel
import requests
import os
from multiprocessing.dummy import Pool
 
 
url = "****"
 
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/100.0.4896.75 Safari/537.36 Edg/100.0.1185.39 '
}
 
response = requests.get(url=url, headers=headers)
html_str = response.text
selector = parsel.Selector(html_str)
lis = selector.xpath('//div[@id="primary"]/main/article')[1:]
for li in lis:
    pic_title = li.xpath('.//h2/a/text()').get()
    pic_url = li.xpath('.//h2/a/@href').get()
    print('正在下载相册：', pic_title)
 
    if not os.path.exists('img\\' + pic_title):
        os.mkdir('img\\' + pic_title)
 
    response_pic = requests.get(url=pic_url, headers=headers).text
 
    selector_2 = parsel.Selector(response_pic)
    pic_url_list = selector_2.xpath('//div[@class="entry-content"]//img/@src').getall()[1:-1]
    # print(pic_url_list)
    def saveimg(pic_url):
        img_data = requests.get(url=pic_url, headers=headers).content
        file_name = pic_url.split('/')[-1]
        with open(f'img\\{pic_title}\\{file_name}', mode='wb') as f:
            f.write(img_data)
            print('保存完成:', file_name)
   
    p = Pool(10)
    result=p.map(saveimg,pic_url_list)
    p.close()
    p.join()

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(5条)

报告相同问题？

关注问题

python爬虫之多线程、多进程爬虫
2021-02-24 07:23

多线程对爬虫的效率提高是非凡的，当我们使用python的多线程有几点是需要我们知道的：1.Python的多线程并不如java的多线程，其差异在于当python解释器开始执行任务时，受制于GIL(全局解释所)，Python的线程被限制到...
python爬虫中多线程的使用详解
2020-09-18 15:26

Python爬虫中多线程的使用对于提升爬取效率至关重要，特别是在处理大量数据或网络请求时。本篇文章将深入探讨如何在Python爬虫项目中利用多线程和`queue`库来实现高效的并发处理。首先，`queue`是Python的标准库，...
python3爬虫中多线程的优势总结
2021-01-19 23:22

有些小伙伴跟小编讨论了python中使用多线程原理的问题，就聊到了关于python多线程的弊端问题，这点可能在使用的过程中大家会能感觉到。而且之前讲过的GIL也是对python多线程的一种限制。那么，我们为什么还要用多...
【Python 爬虫】多线程爬取
2022-03-20 15:03

骑着蜗牛ひ追导弹'的博客文章目录前言一、多进程库（multiprocessing）二、多线程爬虫三、案例实操四、案例解析1、获取网页内容2、获取每一章链接3、获取每一章的正文并返回章节名和正文4、将每一章保存到本地5、多线程爬取文章前言简单...
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
python爬虫-python多线程爬虫爬取电影天堂资源.zip
2024-02-25 21:45

在爬取电影天堂资源的实例中，我们需要理解Python爬虫的基本原理，掌握多线程编程技巧，分析和处理目标网站的结构，以及应对可能出现的反爬策略。通过这些步骤，我们可以构建出一个高效且稳定的多线程爬虫，实现电影...
Python爬虫 -多线程爬虫爬取电影天堂资源.zip
2024-02-03 11:44

总的来说，这个Python多线程爬虫项目涵盖了网络请求、HTML解析、多线程编程、数据存储以及应对反爬策略等多个技术点，是学习Python爬虫实战的一个典型例子。通过这个项目，开发者可以提升自己的Web数据抓取能力，并...
python 爬虫手机壁纸 多线程 下载
2023-06-24 18:05

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬虫可以帮助我们高效地抓取和处理网页上的大量数据。在这个案例中，"python 爬虫手机壁纸 多线程 下载" 指的是使用Python编写一个爬虫程序，...
Python实现多线程爬虫
2021-01-27 12:13

最近在写爬虫程序爬取亚马逊上的评论信息，因此也自学了很多爬虫相关的知识，其实网络上已经有很多基于Python的入门爬虫程序了，所以学习起来比较方便，唯独那个多线程爬虫一直都学的不是很明白，所以就写下这篇blog...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

python爬虫怎么改成多线程

6条回答 默认 最新

问题事件

6条回答默认最新