我的多线程爬取一部小说为什么执行的这么慢？和单线程一样

import re
import time
import os
import requests
from lxml import etree
from threading import Thread
import threading
from queue import Queue
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}
'''要爬取小说的网址'''
url = '

页面不存在 https://www.biquwx.la/0_383/'

'这个是笔趣阁任一部小说的网址'
'''对这页发起请求'''
resp = requests.get(url=url, headers=headers)
contentpage = resp.content.decode('utf-8', 'ignore')
html = etree.HTML(contentpage)
print(resp.status_code)
'''章节和内容队列+'''
titles_quenue = Queue(50000)
text_urls = Queue(50000)

def producer():
global titles_quenue,text_urls
while True:
title1 = html.xpath('/n//dd/a/text()')
for k in title1:
titles_quenue.put(k)
text_newurl = []
text_url2 = html.xpath('/n//dd/a/@href')
for i in text_url2:
j = url + i
text_newurl.append(j)
for j in text_newurl:
text_urls.put(j)

def consumer():
global titles_quenue,text_urls
'''小说名字'''

name = re.findall('<h1>(.+?)</h1>', contentpage, re.DOTALL)[0]
while True:
    '''小说章节'''
    title = titles_quenue.get()

    '''小说链接--发起请求获取数据'''
    text_url = text_urls.get()
    print(text_url)
    resp = requests.get(url=text_url, headers=headers)
    content = resp.content.decode('utf-8')
    html1 = etree.HTML(content)
    text = html1.xpath('//div[@id="content"]/text()')
    text = "".join(text)
    while len(text) == 0:
        '''如果没有内容，再次发起请求'''
        resp2 = requests.get(url=text_url, headers=headers)
        content2 = resp2.content.decode('utf-8')
        html2 = etree.HTML(content2)
        text = html2.xpath('//div[@id="content"]/text()')
        text = "".join(text)
    path1 = 'D:\AAAA桃花青帝\Python文件\爬虫\爬取小说/'
    if len(text) != 0:
        lll = os.path.exists(path1 + name)
        if not lll:
            os.makedirs(path1 + name)
            with open('D:\AAAA桃花青帝\Python文件\爬虫\爬取小说\{}/'.format(name) + '{}'.format(title) + '.txt', 'a',encoding='utf-8') as  f:
                f.write(text)
                print(title + '下载完成！！！！')
        else:
            with open('D:\AAAA桃花青帝\Python文件\爬虫\爬取小说\{}/'.format(name) + '{}'.format(title) + '.txt', 'a',encoding='utf-8') as  f:
                f.write(text)
                print(title + '下载完成！！！！')

def multi():

#定义生产者
for i  in range(50):
    t = threading.Thread(target=producer)
    t.start()
for  j in range(5):
    t= threading.Thread(target=consumer)
    t.start()

multi()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2021-09-14 22:57
关注
哥们写的好复杂。爬的慢也可能是对方网站原因。或者自己宽带网络不好。也可能是你得逻辑复杂度太高，，线程要有结束。别死循环了。

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

我想多线程爬取笔趣阁的一部小说但是函数不执行 python
2021-09-14 08:26

回答 5 已采纳流程如下代码所示，但是笔趣阁服务器不咋地，也没啥太大限制的反爬，所以开50个线程基本上就是反馈503了，如果你有代理ip可以加进去，然后就是线程开少点，爬取速度限制一下，比如在每个章节获取里slee
python简单的多线程运行问题为什么RUN和控制台运行结果不同？ python 其他
2022-05-16 17:19

回答 2 已采纳只看你贴出来的代码，需要把daemon=True去掉；daemon=True是设置当前线程为守护线程，而如果剩下的线程只有守护线程的话，python程序就直接退出了。看你贴出来的代码，就是这种情况，只
如何在爬取网页数据时用多线程？（python） python 有问必答
2021-05-12 18:21

回答 6 已采纳可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例： import requests from bs4 import Beautifu
python3 多线程执行后再执行主线程的问题 python
2018-05-16 01:40

回答 4 已采纳 import threading def pr(i): print(i) thread = [] for i in list(range(100)): k = threa
多线程读数据库操作，为什么我的代码执行起来比原来还慢呢 java java-ee mysql oracle
2019-08-27 11:52

回答 2 已采纳像数据库操作这种重io的，并且数据库本身已经优化的，再多线程就没有办法加速了，甚至更慢。好比你同时复制两个文件，肯定比一个一个复制更慢。
python多线程 线程状态检测执行错误 python
2023-02-13 20:46

回答 2 已采纳回答不易求求您采纳点赞哦感激不尽您遇到的问题是因为在第二种写法中，watchdog 函数使用了 thread.is_alive 属性判断线程是否还活着，但实际上 thread.is_aliv
Python分别用单线程，多线程，异步协程爬取一部小说，最快仅需要5s
2022-01-16 12:48

中意灬的博客本文运用了三种方式爬取一整部小说，分别运用了单线程爬取，多线程爬取和异步协程爬取。小说网址：` http://www.doupo321.com/doupocangqiong/` 网页很简单，也不用过多分析，内容都在网页源代码中，就是一个多级...
python 的多线程和协程？ python 有问必答
2021-05-25 23:59

回答 2 已采纳协程，英文Coroutines，是一种比线程更加轻量级的存在。正如一个进程可以拥有多个线程一样，一个线程也可以拥有多个协程。最重要的是，协程不是被操作系统内核所管理，而完全是由程序所控制（也就是在用户
python3中怎么利用多线程快速打印数字？ python
2018-08-02 02:11

回答 2 已采纳 多线程没办法“快速”打印数字。 多线程之所以能提速，是有条件的，它主要解决两个问题，一个是充分利用多个cpu（或者多核cpu），实现并行计算。另一个是异步调用实现延迟隐藏。就打印数字这个
为什么我没有看到多线程的执行效果呢？是我电脑的cpu太给力了嘛 java
2022-02-20 14:38

回答 1 已采纳应该有个方法叫join，你试一下。
python使用多线程爬取
2021-08-19 21:38

hqw921054的博客一方面是减少爬取时间，另一方面也是对多线程进行一波简单的学习。通过Python的threading模块，实现多线程功能。不过爬太快还是会遭封禁... 所以本次的代码不一定能完全成功，可以选择加个延时或者代理池...
java多线程如何让一个线程只执行一次？ java
2017-03-06 10:07

回答 4 已采纳使用stop方法强行终止线程（这个方法不推荐使用，因为stop和suspend、resume一样，也可能发生不可预料的结果）。使用interrupt方法中断线程。
Python实例（爬虫第一期）Python3.7 多线程爬取笔趣阁（buquge.tv）完本小说（原创）
2020-04-28 16:28

梁峻搞Python的博客原创，未经授权请勿转载！开发基于python3.7（非Python2）； IDE是pycharm2019社区版（足够用了）；...1、代码可以将笔趣阁完本小说分栏（共800多部）每本小说的简介和章节链接爬取下来，存入本地的csv文件或者m...
python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子
2020-12-18 06:38

weixin_40007541的博客今天给大家带来一个爬虫案例，爬取糗事百科搞笑内涵段子。爬取糗事百科段⼦，假设⻚⾯的 URL 是：http://www.qiushibaike.com/8hr/page/1一、爬取要求：使⽤requests 获取⻚⾯信息，⽤XPath / re 做数据提取。获取每...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月14日

悬赏问题

¥15 悬赏Python-playwright部署在centos7上
¥15 psoc creator软件有没有人能远程安装啊
¥15 快速扫描算法求解Eikonal方程咨询
¥20 我的是道格手机，重置后屏幕右上角出现红色字的未写入tee key 和未写入google key请问怎么去掉啊
¥30 关于R语言运行分区生存模型中的问题！
¥15 校内二手商品转让网站
¥20 高德地图聚合图层MarkerCluster聚合多个点，但是ClusterData只有其中部分数据，原因应该是有经纬度重合的地方点，现在我想让ClusterData显示所有点的信息，如何实现？
¥100 求Web版SPC控制图程序包调式
¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀

我的多线程爬取一部小说为什么执行的这么慢？和单线程一样

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新