多进程爬取豆瓣电影出现异常

完整代码如下

#多进程爬取豆瓣TOP250
import requests
from bs4 import BeautifulSoup
import time
from multiprocessing import Process,Queue


def open_url(url):
    proxies = {'http':'121.230.210.200:3256','http':'203.82.253.47:80','http':'118.117.189.17:3256'}
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62'}
    html = requests.get(url,headers = headers,proxies = proxies).text
    return html
    
def parse_url(url):
    html = BeautifulSoup(open_url(url),features="html.parser")
    
    #获取每一页所有电影名
    movies = []
    targets = html.find_all('span',class_="title")
    for each in targets:
        movies.append(each.text)
    
    #获取每一页所有电影得分
    marks = []
    targets = html.find_all('span',class_="rating_num",property="v:average")
    for each in targets:
        marks.append(each.text)
    
    #将数据储存到队列中
    for i in range(len(movies)):
        dataqueue.put(movies[i]+'  mark：'+marks[i])
        
    
    

def main():
    start_t = time.time()
    num = 1
    dataqueue = Queue()
    process_list = []
    
    #循环创建10个进程
    for i in range(10):
        url = 'https://movie.douban.com/top250?start=%d&filter=' % i*25
        process = Process(target = parse_url,args = url)
        process.start()
        process_list.append(process)
    
    #父进程等待所有子进程结束再进行下面的语句
    for process in process_list:
        process.join()
    
    #输出内容
    while not dataqueue.empty():
        print('排名：',num,'  title：',dataqueue.get())
        num+=1
        
    end_t = time.time()
    print('用时：',end_t - start_t)

if __name__ == '__main__':
    main()

但是每次运行都会报错，每一个进程都会出现以下异常

Traceback (most recent call last):
Traceback (most recent call last):
  File "D:\下载\python\lib\multiprocessing\process.py", line 313, in _bootstrap
    self.run()
  File "D:\下载\python\lib\multiprocessing\process.py", line 108, in run
    self._target(*self._args, **self._kwargs)
TypeError: parse_url() takes 1 positional argument but 1175 were given

为什么会出现如此多参数
该怎样解决

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python收藏家 2021-08-10 16:53
关注
Process(target = parse_url,args = url) 这里的args 参数需要是一个元组形式，可以写成args=（url，）

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python多进程出现问题 python
2022-06-22 23:27

回答 1 已采纳启动一个进程是很耗时间的，你这样主进程运行完循环后，子进程还在“慢慢”启动，所以看到这样的效果。有2种方法可以改变运行效果：1.主进程中的循环加大到5000等更大的数值; 2、主进程中添加time
Python多进程输出问题 python
2022-05-13 19:24

回答 1 已采纳就因为你这里是多进程呀，你这里起了3个进程，而进程间是不共享全局变量的：data_frame所以对于每个进程都是从count为4开始的。
pyThon爬虫多进程报错 python
2022-10-05 08:14

回答 3 已采纳带插件的浏览器，一个配置文件只能打开一个浏览器。想要多进程，需要有多个浏览器配置文件。利用生成器输出配置文件路径，避免多进程用到同一个路径。进程不能太多，不然程序会在某一个进程中卡死不动……没有具体的
项目二：python爬取豆瓣电影信息并分析
2021-02-25 19:51

&黄焖鸡米饭&的博客对豆瓣电影top250的爬取与分析爬虫时主要运用的库是re，request，Beautifulsoup，lxml，分析时主要运用的是pandas，matplotlib。通过 F12 查看网页源代码，ctrl+shift+i ctrl+shift+n，检查元素，定位要爬取的...
python简易多进程函数问题 python
2022-06-04 08:16

回答 3 已采纳你是windows 还是Linux 里用，linux 比较容易，windows 比较麻烦，需要调试一下
Python多进程修改共享变量的问题 python
2020-04-25 19:46

回答 4 已采纳多线程共享变量一般这么写： ``` from multiprocessing import freeze_support,Lock,Process,Value import time cn
python 多进程消息队列问题 python
2021-08-22 10:18

回答 1 已采纳进程间使用队列通讯时，队列应作为进程函数的参数传递进去。另外，子进程通常要设置进程守护。 from multiprocessing import Process, Queue q = Queue()
PycharmProjects:pymysql爬取豆瓣top250电影
2021-03-28 22:14

"PycharmProjects:pymysql爬取豆瓣top250电影" 这个标题表明我们正在处理一个使用PyCharm IDE的项目，该项目专注于使用Python的pymysql库来爬取并可能存储豆瓣网站上排名前250的电影数据。PyCharm是流行的Python开发...
python 多进程运行类的问题 python qt
2022-04-18 09:27

回答 1 已采纳类也可以啊，你给类专门写一个方法比如run，然后就跟函数调用一样了，
python多进程程序打包后，运行出现多个窗口，应该如果解决 python
2021-04-13 21:29

回答 1 已采纳 multiprocessing.freeze_support() 放在入口py文件（你的主程序）的if __name__=="__main__":的后面
请教 python多个子进程如何共用一个全局变量？ python
2021-09-22 07:21

回答 1 已采纳那你就应该用20个线程，而不是20个进程，进程不是这么玩的。你非要进程之间通信，那只能另开一个tcp服务，然后20个进程跟它通信；或者共享文件，或者共同连接同一个数据库，总之都是会占用IO，跟你并行计
Scrapy 框架爬取豆瓣电影的信息(包括图片)和电影评论-2
2022-01-05 04:01

Cappuccino_Luo的博客 Scrapy 框架爬取豆瓣电影的信息(包括图片)和电影评论存入 mongodb
Python 学习 02 —— Python如何爬取数据
2021-07-08 23:24

老板来碗小面加蛋~的博客文章目录系列文章二、Python爬虫1、任务介绍2、爬虫简介3、基本流程3.1、准备工作3.1.1、分析页面3.1.2、编码规范3.1.3、导入模块3.1.4、程序流程3.2、获取数据3.3、解析数据3.4、保存数据3.4.1、Excel表存储3.4.1、...
python爬取信息保存至excel_Python爬取电影信息并保存至Excel
2020-12-06 23:13

weixin_39928099的博客将电影信息根据评分进行排序并保存在电子表格里将电影封面图片插入对应的单元格里运用多进程爬取电影信息用户未登录情况下不要使用多进程频繁请求，否则可能会出现如下提示: 检测到有异常请求从你的 IP 发出，请 ...
python爬取数据并存到excel,python爬取数据的意义
2024-06-22 19:07

2401_85887359的博客爬虫的学习按照任务驱动的方式进行，最终实现douban电影Top250的基本信息抓取，包括电影的名称、douban评分、评价数、电影概括、电影链接等。后续会再以可视化的方式展现，比如统计图。是什么网络爬虫是一种按照特定...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月10日

悬赏问题

¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境

多进程爬取豆瓣电影出现异常

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新