采用多线程爬取包情包，程序运行得不到预计的结果，求帮助

程序目的是采用多线程的方式，爬取斗图啦前100页的所有表情包。

我采用的是多线程的方式，

第一次运行的时候，程序能爬，但只爬取5页的表情包，程序就结束了。再次运行的时候，程序一直在运行，不停下来。我尝试过修改线程数，没有任何作用。
代码如下，希望有大佬，好心人，帮我看看程序出错在哪？

from urllib import request
from queue import Queue
from lxml import etree
import threading
import requests
import time
import re
import os

# 生产者模型
class Producer(threading.Thread):
    headers ={
                "User-Agent":
                    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
            }

    # 实例方法，接受参数值
    def __init__(self,page_queue,img_queue,*args,**kwargs):
        super(Producer,self).__init__(*args,**kwargs)
        self.page_queue = page_queue
        self.img_queue = img_queue

    def run(self):
        while True:
            if self.page_queue.empty():   # 退出循环调节为装url的队列全空
                break
            url = self.page_queue.get()  # 拿到url，进行解析
            self.parse_page(url)

    def parse_page(self,url):
        response = requests.get(url,headers=self.headers,timeout=30)
        text = response.text
        html = etree.HTML(text)
        imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')

        for img in imgs:
            img_url = img.get('data-original')
            alt = img.get('alt')
            alt = re.sub(r'[\?？\.。！\*\!/:]','',alt)
            suffix = os.path.splitext(img_url)[1]
            filename = alt + suffix
            # 将得到信息传递给中间这，然后在给消费者
            self.img_queue.put((img_url,filename)) # 文件信息给队列

# 消费者模型
class Consumer(threading.Thread):
    def __init__(self,page_queue,img_queue,*args,**kwargs):
        super(Consumer,self).__init__(*args,**kwargs)
        self.page_queue = page_queue
        self.img_queue = img_queue

    def run(self):
        while True:
            if self.img_queue.empty() and self.page_queue.empty():
                break
            img_url, filename = self.img_queue.get()
            with open('F:/imgs/{}'.format(filename),'wb') as f:
                f.write(requests.get(img_url).content)
                print("{}".format(filename))


def main():
    page_queue = Queue(100)  #存储文件信息，包括url和文件名
    img_queue = Queue(500)  # 存储图片的队列

    # 打印前100页的url，存入队列中
    for i in range(1,101):
        url = 'http://www.doutula.com/photo/list/?page={}'.format(i)
        page_queue.put(url) # 添加url到队列中

    # 开启5个生产者
    for x in range(5):
        t = Producer(page_queue,img_queue)
        t.start()

    # 开启4个消费者
    for x in range(4):
        t = Consumer(page_queue,img_queue)
        t.start()


if __name__ == '__main__':
   main()
 __name__ == '__main__':
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-08-02 23:45
关注
https://blog.csdn.net/qq_28352347/article/details/54707522

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python多进程程序打包后，运行出现多个窗口，应该如果解决 python
2021-04-13 21:29

回答 1 已采纳 multiprocessing.freeze_support() 放在入口py文件（你的主程序）的if __name__=="__main__":的后面
python简单的多线程运行问题为什么RUN和控制台运行结果不同？ python 其他
2022-05-16 17:19

回答 2 已采纳只看你贴出来的代码，需要把daemon=True去掉；daemon=True是设置当前线程为守护线程，而如果剩下的线程只有守护线程的话，python程序就直接退出了。看你贴出来的代码，就是这种情况，只
为什么python程序不能使所有线程都运行 python
2022-08-15 09:34

回答 1 已采纳有报错？？啥报错啊？是不是在你获取头像的时候被反扒了？
斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！
2021-01-20 02:18

最近python基础课讲到了多线程，老师让交个多线程的实例练习。于是来试试多线程爬虫，正好复习一下mooc上自学的嵩天男神的爬虫知识。想法很美好，过程却很心酸，从早上开始写，每次出现各种奇怪问题，到现在晚上了...
python多线程代码简化，求帮助 python
2022-11-06 12:03

回答 2 已采纳你定义的main函数内容都一样，只是参数不同，为什么不在Process里指定参数呢？这样就只需要一个函数了比如这样： def main1(i): try: start_tem_
我想多线程爬取笔趣阁的一部小说但是函数不执行 python
2021-09-14 08:26

回答 5 已采纳流程如下代码所示，但是笔趣阁服务器不咋地，也没啥太大限制的反爬，所以开50个线程基本上就是反馈503了，如果你有代理ip可以加进去，然后就是线程开少点，爬取速度限制一下，比如在每个章节获取里slee
请问为啥不能运行 python多线程 multiprocessing python
2021-09-19 13:42

回答 1 已采纳 python的多线程使用部分要用main包裹,不然会出错(而且这个包是多进程)
【Python 爬虫】多线程爬取
2022-03-20 15:03

骑着蜗牛ひ追导弹'的博客文章目录前言一、多进程库（multiprocessing）二、多线程爬虫三、案例实操四、案例解析1、获取网页内容2、获取每一章链接3、获取每一章的正文并返回章节名和正文4、将每一章保存到本地5、多线程爬取文章前言简单...
Python多线程子线程无故"消失" python 有问必答
2022-07-18 16:29

回答 5 已采纳应该是出现异常导致线程异常退出了，建议增加日志，看看线程在什么地方退出的
python多线程报错 python
2023-02-12 12:19

回答 3 已采纳传递方式改下，data后加个逗号 ,theard = threading.Thread(target=RUN.unit,args=(data,))
树莓派运行cv2调用摄像头拍照线程多次运行之后程序异常中止 python
2022-06-08 14:47

回答 3 已采纳从代码上看，你的线程只运行一次就会退出，然后你不断开启线程，可能导致了不可预料的结果，我建议是使用线程池，不要这么频繁地启动线程
python使用多线程爬取
2021-08-19 21:38

hqw921054的博客通过Python的threading模块，实现多线程功能。不过爬太快还是会遭封禁... 所以本次的代码不一定能完全成功，可以选择加个延时或者代理池。这里人物情况是网上找的，相对来说还是比较完全的。所以...
python如何在多线程下完成键盘输入 python 有问必答
2022-05-12 17:23

回答 4 已采纳我给另一个例子你看看参考一下吧，是一个实际应用，多线程生成随机4位字符串，然后通过外部输入中断线程 import string import threading import time import
python多线程爬虫爬取多个网页_Python 多线程抓取网页
2020-12-04 01:37

weixin_39520595的博客最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。...4、larbin对文件的相关操作做了很多工作5、在larbin里有连接池，通过创建套接字，向目...
python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序
2020-12-04 01:37

weixin_39607836的博客不仅仅是小说，一些其他的数据在多线程爬取时也有类似情况，比如：漫画：漫画其实是由大量图片组成，一般一本漫画会保存为一个pdf文件，在此过程要保证图片的顺序。视频：现在网络上的视频大部分是由多个ts...
没有解决我的问题, 去提问

悬赏问题

¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序