如何在爬取网页数据时用多线程？（python）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

CSDN专家-HGJ 2021-05-12 23:49

关注

可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例：

import requests
from bs4 import BeautifulSoup as bs
import time
from concurrent.futures import ThreadPoolExecutor
cookies = {
    '__cfduid': 'xxx',
    'PHPSESSID': 'xxx',
}#从页面分析获取

headers = {
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1',
    'DNT': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Referer': 'http://www.enagames.com/escape-game/top10newgames-rescue-the-tiger-2',
    'Accept-Language': 'en-US;q=0.6',
}

response = requests.get('http://www.enagames.com/escape-game/top10newgames-rescue-the-tiger-2',headers=headers, cookies=cookies, verify=False)
soup=bs(response.text,'html.parser')

game_link = set([x['href']  for x in soup.select(
    'div.home_game_image_featured center a')])
gl=list(game_link)

def get_swf(url):
    r=requests.get(url,headers=headers,cookies=cookies)

    s=bs(r.text,'html.parser')

    sl =s.select_one('div#flash_container1 object param')['value']
    with open(f'./{url.split("/")[-1]}.swf', 'wb') as f:
        try:
            req = requests.get(sl, headers=headers)
            f.write(req.content)
        except:
            pass
with ThreadPoolExecutor(max_workers=5)  as ex:
    ex.map(get_swf,gl[:5])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(5条)

报告相同问题？

关注问题

如何在爬取网页数据时用多线程？（python） python 有问必答
2021-05-12 18:21

回答 6 已采纳可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例： import requests from bs4 import Beautifu
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
关于python 爬虫项目 多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
Python爬虫进阶之多线程爬取数据并保存到数据库
2020-12-21 21:54

今天刚看完崔大佬的《python3网络爬虫开发实战》，顿时觉得自己有行了，准备用appium登录QQ爬取列表中好友信息，接踵而来的是一步一步的坑，前期配置无数出错，安装之后连接也是好多错误，把这些错误解决之后，找APP...
python多线程threading库和pyqt5界面交互问题 python selenium 有问必答
2021-04-30 22:16

回答 4 已采纳主线程不能直接操作子线程
python爬取所有K线速度太慢 python 区块链
2021-12-27 21:48

回答 4 已采纳把这个文件复制n份，每份for循环部分币种，同时开始运行，相当于物理多线程，效果就看你电脑性能
python爬虫爬取数据存储进数据库的问题 flask mysql python
2019-04-22 20:43

回答 3 已采纳首先，我建议你主键最好不要设在userId上。让ID自增长。然后把userId作为一个普通的字段。其次，我个人建议也不要设置外键关系。你可以通过把某一张表的ID放到另一张表里作为关联，但是不建议设
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
python使用requests大批量请求卡住怎么解决？ linux python
2019-01-29 16:24

回答 6 已采纳首先你的request最好设置一下超时，如果某个链接长时间没响应，你就会阻塞在那里；然后得百分百确认你的xpath是正确的，且是匹配里面所有url的，这个地方可以打个日志，看看是阻塞在某次循环了，还是
Python爬取网页数据
2018-08-29 17:20

你缺少想象力的博客都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备 IDE：pyCharm 库：requests、...
python爬图片，代码没报错但是没有结果 python
2022-06-29 05:32

回答 2 已采纳直接运行这个脚本文件的话，图片并不是存在桌面上。而是在这个py文件同目录下，即“C:/Users/AUB/Desktop/Final Year/Python 练习/p54爬虫”
Python之多线程爬虫抓取网页图片的示例代码
2020-12-25 12:50

那么请使用python语言，构建一个抓取和下载网页图片的爬虫。当然为了提高效率，我们同时采用多线程并行方式。思路分析 Python有很多的第三方库，可以帮助我们实现各种各样的功能。问题在于，我们弄清楚我们需要...
python多线程爬取多个网页_python多线程爬取网页
2021-01-12 15:10

GG Fong的博客 _main__‘: # 线程数，默认为cpu核心数 pool = pl(4) # url列表收集 all_url = [] for url in get_all_urls(100): all_url.append(url) # 多线程爬取 pool.map(spider_detail, all_url) pool.close() pool.join() ...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

码龄粉丝数原力等级 --

如何在爬取网页数据时用多线程？（python）

6条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何在爬取网页数据时用多线程？（python）

6条回答 默认 最新

悬赏问题

6条回答默认最新