如何在爬取网页数据时用多线程？（python）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

CSDN专家-HGJ 2021-05-12 23:49

关注

可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例：

import requests
from bs4 import BeautifulSoup as bs
import time
from concurrent.futures import ThreadPoolExecutor
cookies = {
    '__cfduid': 'xxx',
    'PHPSESSID': 'xxx',
}#从页面分析获取

headers = {
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1',
    'DNT': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Referer': 'http://www.enagames.com/escape-game/top10newgames-rescue-the-tiger-2',
    'Accept-Language': 'en-US;q=0.6',
}

response = requests.get('http://www.enagames.com/escape-game/top10newgames-rescue-the-tiger-2',headers=headers, cookies=cookies, verify=False)
soup=bs(response.text,'html.parser')

game_link = set([x['href']  for x in soup.select(
    'div.home_game_image_featured center a')])
gl=list(game_link)

def get_swf(url):
    r=requests.get(url,headers=headers,cookies=cookies)

    s=bs(r.text,'html.parser')

    sl =s.select_one('div#flash_container1 object param')['value']
    with open(f'./{url.split("/")[-1]}.swf', 'wb') as f:
        try:
            req = requests.get(sl, headers=headers)
            f.write(req.content)
        except:
            pass
with ThreadPoolExecutor(max_workers=5)  as ex:
    ex.map(get_swf,gl[:5])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(5条)

报告相同问题？

关注问题

如何在爬取网页数据时用多线程？（python） python 有问必答
2021-05-12 18:21

回答 6 已采纳可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例： import requests from bs4 import Beautifu
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
关于python 爬虫项目 多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
Python爬虫进阶之多线程爬取数据并保存到数据库
2020-12-21 21:54

今天刚看完崔大佬的《python3网络爬虫开发实战》，顿时觉得自己有行了，准备用appium登录QQ爬取列表中好友信息，接踵而来的是一步一步的坑，前期配置无数出错，安装之后连接也是好多错误，把这些错误解决之后，找APP...
python多线程threading库和pyqt5界面交互问题 python selenium 有问必答
2021-04-30 22:16

回答 4 已采纳主线程不能直接操作子线程
python爬取所有K线速度太慢 python 区块链
2021-12-27 21:48

回答 4 已采纳把这个文件复制n份，每份for循环部分币种，同时开始运行，相当于物理多线程，效果就看你电脑性能
python爬虫爬取数据存储进数据库的问题 flask mysql python
2019-04-22 20:43

回答 3 已采纳首先，我建议你主键最好不要设在userId上。让ID自增长。然后把userId作为一个普通的字段。其次，我个人建议也不要设置外键关系。你可以通过把某一张表的ID放到另一张表里作为关联，但是不建议设
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
python使用requests大批量请求卡住怎么解决？ linux python
2019-01-29 16:24

回答 6 已采纳首先你的request最好设置一下超时，如果某个链接长时间没响应，你就会阻塞在那里；然后得百分百确认你的xpath是正确的，且是匹配里面所有url的，这个地方可以打个日志，看看是阻塞在某次循环了，还是
Python爬取网页数据
2018-08-29 17:20

你缺少想象力的博客都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备 IDE：pyCharm 库：requests、...
python爬图片，代码没报错但是没有结果 python
2022-06-29 05:32

回答 2 已采纳直接运行这个脚本文件的话，图片并不是存在桌面上。而是在这个py文件同目录下，即“C:/Users/AUB/Desktop/Final Year/Python 练习/p54爬虫”
Python之多线程爬虫抓取网页图片的示例代码
2020-12-25 12:50

那么请使用python语言，构建一个抓取和下载网页图片的爬虫。当然为了提高效率，我们同时采用多线程并行方式。思路分析 Python有很多的第三方库，可以帮助我们实现各种各样的功能。问题在于，我们弄清楚我们需要...
python多线程爬取多个网页_python多线程爬取网页
2021-01-12 15:10

GG Fong的博客 _main__‘: # 线程数，默认为cpu核心数 pool = pl(4) # url列表收集 all_url = [] for url in get_all_urls(100): all_url.append(url) # 多线程爬取 pool.map(spider_detail, all_url) pool.close() pool.join() ...
没有解决我的问题, 去提问

悬赏问题

¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂

码龄粉丝数原力等级 --

如何在爬取网页数据时用多线程？（python）

6条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何在爬取网页数据时用多线程？（python）

6条回答 默认 最新

悬赏问题

6条回答默认最新