python3多进程爬虫的每个进程停止运行但是程序没有退出？

我写了一个多进程和多线程结合的爬虫（我不知道多进程和多线程怎样结合使用）所以我先说一下**我的思路**：

首先我爬取的是某车之家的文章
汽车之家有很多种车，比如奥迪，宝马，奔驰，我创建一个进程池pool, 对应每一种车创建一个进程下载它的文章
然后，因为每种车下面有很多篇文章，我创建一个线程池，对应每一篇文章，创建一个线程来下载文章
创建进程池我使用的是multiprocessing.Pool
创建线程池使用的是concurrent.futures.ThreadPoolExecutor

那么现在问题来了

当我刚开始运行我的代码的时候，因为我创建的进程池大小是cpu_count()=8,所以打开任务管理器可以看到8个python进程正在运行
然后，当代码运行一段时间后，进程池中的8个进程全部停止运行了

可以看到此时代码并没有运行完毕，而且代码运行卡在这里无论等多久都不会继续运行

我观察发现，这些进程在下载某辆车如本田-雅阁的所有文章后，注意是将所有文章下载完毕才会停止运行，而且不再运行

我想知道进程池中的进程为什么会停止运行，而我的函数没有停止？可以确定的是我的爬虫任务并没有全部完成，仅仅完成了一小部分。进程池中的每一个进程在爬取几辆车的所有文章后停止运行，求大佬解答，不甚感激。

代码如下

# coding=utf-8
import requests
import os
import re
import json
import time
import random
import threading
import multiprocessing
import concurrent.futures
from bs4 import BeautifulSoup


def change_title(title):
    rstr = r"[\/\\\:\*\?\"\<\>\|]"
    return re.sub(rstr, "", title)


USER_AGENTS = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]

http_ip = list()
https_ip = list()
with open(r'D:\pycharm\Spider\99mm\useful_ip.txt', 'r') as fp:
    lines = fp.readlines()
    for line in lines:
        ips = eval(line)
        if str(ips['kind']) == 'HTTP':
            http_ip.append(ips['proxy'])
        else:
            https_ip.append(ips['proxy'])


def get_all_cars(main_url, file_path):
    car_dict = {}

    html = requests.get(main_url)
    soup = BeautifulSoup(html.text, "html.parser")
    catalog = soup.find("div", id="hotcar-1").find_all("div", class_="name")

    for cata in catalog[-1:]:
        # suv, 紧凑型车, 中型车
        cata_a = cata.find("a")
        print(cata_a["href"])
        print(cata_a.get_text())
        car_url = main_url + cata_a["href"]
        car_html = requests.get(car_url)
        car_soup = BeautifulSoup(car_html.text, "html.parser")
        # 有4个 class_="tab-content-item"
        car_letter_boxes = car_soup.find("div", class_="tab-content-item").find_all("div", class_="uibox")
        for car_letter_box in car_letter_boxes[:]:
            # 车牌按字母排序 A~Z, 一个字母下有很多车牌, 对每个字母进行处理
            car_brand_info = car_letter_box.find("div", class_="uibox-con rank-list rank-list-pic")
            if car_brand_info:
                car_brands = car_brand_info.find_all("dl", olr=re.compile("^.*$"))
                for car_brand in car_brands:
                    # 一个车牌有很多种车型, 对每个车牌进行处理
                    brand_name = car_brand.find("div").find("a").get_text()
                    print("-car brand-", brand_name)
                    car_dict[cata_a.get_text() + "-" + brand_name] = {}
                    car_brand_path = main_path + "\\" + cata_a.get_text() + "-" + brand_name
                    if not os.path.exists(car_brand_path):
                        os.mkdir(car_brand_path)
                    # os.chdir(car_brand_path)
                    car_name_lists = car_brand.find_all("ul", class_="rank-list-ul")
                    for car_name_list in car_name_lists:
                        car_name_lis = car_name_list.find_all("li", id=re.compile("^.*$"))
                        for car_name_li in car_name_lis:
                            car_a_tag = car_name_li.find("h4").find("a")
                            specific_car_url = "https:" + car_a_tag["href"]
                            car_name = car_a_tag.get_text()
                            print("\t", car_name, "\t", specific_car_url)
                            car_dict[cata_a.get_text() + "-" + brand_name][car_name] = specific_car_url
                            brand_cars_path = car_brand_path + "\\" + car_name
                            if not os.path.exists(brand_cars_path):
                                os.mkdir(brand_cars_path)
                            # os.chdir(brand_cars_path)
                            # 至此, 找到了每一辆车的url, 需要从这个url中找到它对应的一系列文章
                            # get_each_car_articles(main_url, specific_car_url)
            else:
                continue
    return car_dict


def get_each_car_articles(main_url, specific_car_url, file_path, headers, proxies, info):
    # main_url, specific_car_url, file_path, headers, proxies, info = args
    # 传入的是每一种车的url, 即specific_car_url
    article_dict = {}
    specific_car_html = requests.get(url=specific_car_url, headers=headers, proxies=proxies)
    specific_car_soup = BeautifulSoup(specific_car_html.text, "html.parser")
    art_temp = specific_car_soup.find("div", class_="athm-sub-nav__channel athm-js-sticky")
    if art_temp:
        art = art_temp.find_all("li")
    else:
        print(f"\t\t****article is None, url is {specific_car_url}****")
        return
    part_url = art[6].find("a")["href"]
    specific_car_article_url = main_url + part_url
    right_pos = specific_car_article_url.rfind("/")
    specific_car_article_url = specific_car_article_url[:right_pos + 1]
    specific_car_article_html = requests.get(specific_car_article_url, headers=headers, proxies=proxies)
    specific_car_article_soup = BeautifulSoup(specific_car_article_html.text, "html.parser")
    page_info = specific_car_article_soup.find("div", class_="page")
    page_num = 1
    if page_info:
        pages = page_info.find_all("a", target="_self")
        page_num = int(pages[-2].get_text())
    for i in range(1, page_num + 1):
        if i == 1:
            page_url = specific_car_article_url
        else:
            page_url = specific_car_article_url[:-4] + str(i) + specific_car_article_url[-3:]
        # print("\t"*2, f"正在查找第{i}页的文章\t", page_url)
        page_html = requests.get(page_url, headers=headers, proxies=proxies)
        page_soup = BeautifulSoup(page_html.text, "html.parser")
        articles = page_soup.find("div", class_="cont-info").find_all("li")
        for article in articles:
            each_article = article.find("h3").find("a")
            each_article_url = "https:" + each_article["href"]
            each_article_title = each_article.get_text()
            article_dict[each_article_title] = each_article_url
    os.chdir(file_path)
    with concurrent.futures.ThreadPoolExecutor(max_workers=8) as t_executor:
        for key, value in article_dict.items():
            t_executor.submit(download_each_article, *(value, key,info))
    # thread_list = []
    # for key, value in article_dict.items():
    #     thread_list.append(threading.Thread(target=download_each_article, args=(value, key,info)))
    # [thread.start() for thread in thread_list]
    # [thread.join() for thread in thread_list]


def download_each_article(each_article_url, each_article_title, info):
    headers = {
        "User-Agent": random.choice(USER_AGENTS),
        "Referer": "https://www.autohome.com.cn"
    }
    proxies = {"proxy": random.choice(http_ip)}
    # each_article_url, each_article_title, headers, proxies, info = args
    print(f"\t\t--下载文章-- {info}\t{each_article_title}\t{each_article_url}")
    article_html = requests.get(each_article_url, headers=headers, proxies=proxies)
    article_soup = BeautifulSoup(article_html.text, "html.parser")
    article_content = article_soup.find("div", class_="container article")
    if article_content:
        with open(f"{change_title(each_article_title)}.txt", "w+", encoding="utf-8") as f:
            time_span = article_content.find("div", class_="article-info").find("span", class_="time")
            time = time_span.get_text()
            time_dict = {"time": time}
            f.write(json.dumps(time_dict) + "\n\n")
            article_content_div = article_content.find("div", id="articleContent")
            for content in article_content_div.find_all("p"):
                if content.get_text().strip():
                    content_dict = {"content": content.get_text()}
                    f.write(json.dumps(content_dict) + "\n")
                else:
                    try:
                        imgs = content.find_all("a")
                        for i in imgs:
                            img = i.find("img")
                            img_dict = {f"<[image] {img['alt']}> ": "https:" + img["src"]}
                            f.write(json.dumps(img_dict) + "\n")
                    except:
                        continue
            pages = article_content.find("div", class_="athm-page__num")
            if pages:
                for a in pages.find_all("a", target="_self")[1:]:
                    next_page_url = "https://www.autohome.com.cn" + a["href"]
                    pages_html = requests.get(next_page_url, headers=headers, proxies=proxies)
                    pages_soup = BeautifulSoup(pages_html.text, "html.parser")
                    pages_content_div = pages_soup.find("div", class_="container article").find("div", id="articleContent")
                    for content in pages_content_div.find_all("p"):
                        if content.get_text().strip():
                            content_dict = {"content": content.get_text()}
                            f.write(json.dumps(content_dict) + "\n")
                        else:
                            try:
                                imgs = content.find_all("a")
                                for i in imgs:
                                    img = i.find("img")
                                    img_dict = {f"<[image] {img['alt']}> ": "https:" + img["src"]}
                                    f.write(json.dumps(img_dict) + "\n")
                            except:
                                continue
            # 下载评论
            f.write("\n")
            article_comment_span = article_content.find("div", "article-tools").find("span", class_="comment")
            article_comment_url = "https:" + article_comment_span.find("a")["href"]
            # print(article_comment_url)
            basic_reply_url = "https://reply.autohome.com.cn/api/comments/show.json?count=50&" \
                              "page={}&id={}&appid=1&datatype=jsonp&order=0&replyid=0"
            html = requests.get(article_comment_url, headers=headers, proxies=proxies)
            html_soup = BeautifulSoup(html.text, "html.parser")
            article_id = re.search(r"articleid=([\d]*)#", article_comment_url).groups()[0]
            first_json_dict = json.loads(requests.get(basic_reply_url.format(1, article_id), headers=headers, proxies=proxies).text[1:-1])
            page_num = int(first_json_dict["commentcount"]) // 50 + 1
            for i in range(1, page_num + 1):
                json_dict = json.loads(requests.get(basic_reply_url.format(i, article_id)).text[1:-1])
                comment_dicts = json_dict["commentlist"]
                for comment in comment_dicts:
                    comment_dict = {}
                    comment_dict["RMemberId"] = comment["RMemberId"]
                    comment_dict["RMemberName"] = comment["RMemberName"]
                    comment_dict["replydate"] = comment["replydate"]
                    comment_dict["ReplyId"] = comment["ReplyId"]
                    comment_dict["RObjId"] = comment["RObjId"]
                    comment_dict["RTargetReplyId"] = comment["RTargetReplyId"]
                    comment_dict["RTargetMemberId"] = comment["RTargetMemberId"]
                    comment_dict["RReplyDate"] = comment["RReplyDate"]
                    comment_dict["RContent"] = comment["RContent"]
                    comment_dict["RFloor"] = comment["RFloor"]
                    f.write(json.dumps(comment_dict) + "\n")
        print(f"**{info}-{each_article_title} completed")
    else:
        print(f"\tPicture article, passed. URL is {each_article_url}")


if __name__ == '__main__':
    main_url = r"https://www.autohome.com.cn"
    main_path = r"D:\pycharm\python_work\autohome\汽车之家"

    start_time = time.time()

    proxies = {'proxy': random.choice(http_ip)}

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                      "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
        "Referer": "https://www.autohome.com.cn"
    }

    car_dict = get_all_cars(main_url, main_path)
    # print(car_dict)

    # with concurrent.futures.ProcessPoolExecutor(max_workers=8) as p_executor:
    #     for keys, values in car_dict.items():
    #         for key, value in values.items():
    #             file_path = main_path + "\\" + str(keys) + "\\" + key
    #             info = f"-{keys}-{key}-"
    #             p_executor.submit(get_each_car_articles, *(main_url, value, file_path, headers, proxies, info))

    pool = multiprocessing.Pool()
    for keys, values in car_dict.items():
        print(keys, values)
        for key, value in values.items():
            print("\t", key, value)
            file_path = main_path + "\\" + str(keys) + "\\" + key
            info = f"-{keys}-{key}-"
            pool.apply_async(get_each_car_articles, args=(main_url, value, file_path, headers, proxies, info))


    pool.close()
    pool.join()

    end_time = time.time()

    print("##########已完成##########")
    print(f"spend time {end_time-start_time}")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
猫兮ぃCatci 2020-04-02 12:16
关注
建议：
使用协程进行多线程批处理，一般出现进程自动关闭的情况有很多可能
1.主进程没有分发任务给其他线程，可以通过打上断点进行调试，查看任务走向
2.其他线程没有接受到主进程交予的任务，导致线程nothing to do

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pyThon爬虫多进程报错 python
2022-10-05 08:14

回答 3 已采纳带插件的浏览器，一个配置文件只能打开一个浏览器。想要多进程，需要有多个浏览器配置文件。利用生成器输出配置文件路径，避免多进程用到同一个路径。进程不能太多，不然程序会在某一个进程中卡死不动……没有具体的
Python怎么一个进程生产，多个进程队列处理生产出来的内容呢？ python 爬虫
2023-01-16 16:38

回答 3 已采纳您可以使用Python的多进程库multiprocessing来实现这个需求。在这种情况下，您可以使用一个进程负责获取URL，并将获取的URL放入一个队列中。然后，您可以使用多个进程并行地从队列中获取
多进程在运行的时候只有一个子进程会运行，怎么解决？ linux python
2020-05-13 16:47

回答 1 已采纳这段代码，每次循环都是start一个线程，并等待结束后再开始下一个线程。 ``` for t in processes: t.start() t.joi
python爬虫之多线程、多进程爬虫
2021-02-24 07:23

多线程对爬虫的效率提高是非凡的，当我们使用python的多线程有几点是需要我们知道的：1.Python的多线程并不如java的多线程，其差异在于当python解释器开始执行任务时，受制于GIL(全局解释所)，Python的线程被限制到...
多进程的爬虫，如何实现两个进程直接的通信 python
2021-07-22 19:16

回答 1 已采纳给你个多线程的实例至少我下了一步电视剧 # 下载m3u8视频(多线程下载) import re, requests, os, json, datetime import threa
python selenium 多开浏览器能够同步做一样的动作吗 python selenium 爬虫
2022-05-06 09:33

回答 1 已采纳可以做到，使用thread里面的event函设置等待事件，比如说在一个线程（一个游览器）完成点击事件后设置一个等待（event().wait()），只有在全部完成后才能进行下一步，这儿要在主线程里面设
关于python网络爬虫多线程下载图片到本地的问题 python
2019-11-18 17:47

回答 2 已采纳 pool map的使用参考这篇：[https://blog.csdn.net/weixin_36637463/article/details/86496763](https://blog.csdn.n
Python多线程爬虫，小米应用商城app信息爬虫程序，多线程和多进程两种实现思路
2021-01-20 03:50

爬取量还是很大的，游戏应用有2000个左右，其他像实用工具，聊天软件讲道理要少很多，没想到这些app的数量都在2000个左右。最大页码数在67页，没有超过这个页数的，小米这个应用商店属实做的不咋地呀。不过页数...
给以前写的一个python程序，用pyqt5加了gui但多进和无响应 python
2018-09-27 14:50

回答 1 已采纳你这个进程没有做同步或者异步处理吗，有可能是阻塞了。
关于python pandas 模块和 py7zr 模块的错误问题 python 有问必答
2022-02-16 22:50

回答 2 已采纳这个是文件处理的时候文件格式有问题，你解压的时候输出解压文件名，然后重试一下这个文件名会不会出现一样错误
如何解决pycharm爬取数据存入mysql时总会重复存入？ python
2021-10-25 14:23

回答 2 已采纳 1、mysql设置主键,2、入库前先去重1比较好点儿，如果是两份文件有重复的用2没法避免
python3爬虫中多线程的优势总结
2021-01-19 23:22

有些小伙伴跟小编讨论了python中使用多线程原理的问题，就聊到了关于python多线程的弊端问题，这点可能在使用的过程中大家会能感觉到。而且之前讲过的GIL也是对python多线程的一种限制。那么，我们为什么还要用多...
爬取动态渲染页面（js）的库&加快爬虫速度的方法 python selenium 爬虫
2022-04-07 23:14

回答 1 已采纳抛弃selenium可以大大加快速度。动态渲染的js翻译成py代码，如果有复杂逻辑的代码，人工解这段代码，解不了还有exejs，pydom这些库直接跑借助cython可以大大加快你的速度，在py中异步
Python多线程、异步＋多进程爬虫实现代码
2020-12-23 19:30

异步用到了tornado，根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考下最新的文档学习下。 pip install tornado 异步爬虫 #!/usr/bin/env python # -*- coding:utf-8 -*- import time from datetime ...
python3爬虫中异步协程的用法
2020-12-17 09:19

1. 前言在执行一些 IO 密集型任务的时候，程序常常会因为等待 IO 而阻塞。比如在网络爬虫中，如果我们使用 requests ...在了解异步协程之前，我们首先得了解一些基础概念，如阻塞和非阻塞、同步和异步、多进程和协程。
没有解决我的问题, 去提问

悬赏问题

¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)
¥20 matlab yalmip kkt 双层优化问题
¥15 如何在3D高斯飞溅的渲染的场景中获得一个可控的旋转物体
¥88 实在没有想法，需要个思路
¥15 MATLAB报错输入参数太多
¥15 python中合并修改日期相同的CSV文件并按照修改日期的名字命名文件
¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入

python3多进程爬虫的每个进程停止运行但是程序没有退出？

那么现在问题来了

可以看到此时代码并没有运行完毕，而且代码运行卡在这里无论等多久都不会继续运行

我想知道进程池中的进程为什么会停止运行，而我的函数没有停止？可以确定的是我的爬虫任务并没有全部完成，仅仅完成了一小部分。进程池中的每一个进程在爬取几辆车的所有文章后停止运行，求大佬解答，不甚感激。

代码如下

2条回答 默认 最新

悬赏问题

2条回答默认最新