把这个抓取新闻标题改用并发来完成

非并发：

import newspaper
from newspaper import Article

def get_headlines():

URLs = ['http://www.foxnews.com/',
'http://www.cnn.com/',
'http://www.derspiegel.de/',
'http://www.bbc.co.uk/',
'https://theguardian.com',]

for url in URLs:
result = newspaper.build(url, memoize_articles=False)
print(result)
print('\n''The headlines from %s are' % url, '\n')
for i in range(1,6):
art = result.articles[i]
art.download()
art.parse()
print(art.title)

if __name__ == '__main__':
import timeit
elapsed_time = timeit.timeit("get_headlines()", setup="from __main__ import get_headlines", number=2)/2
print(elapsed_time)

用with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor改为并发

提高抓取速度

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

liqiang94 2021-03-19 10:40

关注

from concurrent.futures import ThreadPoolExecutor, as_completed


def search(url):
    '''这里完成一个对一个url的操作，自己写搜索逻辑'''
    return url  # 这里返回url，用于在主线程中观察哪些url完成操作


pool = ThreadPoolExecutor(max_workers=5)
all_task = [pool.submit(search, url) for url in urls]  # urls是你定义的待抓取url列表
for future in as_completed(all_task):
    target_url = future.result()
    print('该url【{}】已完成抓取'.format(target_url))

代码还是要自己多写写，熟练熟练

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

把这个抓取新闻标题改用并发来完成 python
2021-03-18 22:25

回答 2 已采纳 from concurrent.futures import ThreadPoolExecutor, as_completed def search(url): '''这里完成一个对一个
这个C网站的抓取方式探讨 python
2022-05-03 13:50

回答 2 已采纳可以尝试用postman工具测试
为什么这个python代码只能抓取豆瓣top250最后一页的内容 python 有问必答
2021-08-06 14:39

回答 2 已采纳因为解析语句没有在for循环当中，下面这样就可以有帮助，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: YangPC @QQ:3
Python 多进程 multiprocessing 使用示例
2022-07-11 07:38

「已注销」的博客 multiprocessing 文档：https://docs.python.org/zh-cn/3.10/library/multiprocessing.html Process、Lock、Semaphore、Queue、Pipe、Pool：...把一个多线程改成多进程，主要有下面几种方法：...
一个Python抓取网页数据的问题 python 有问必答
2021-04-21 08:19

回答 7 已采纳这个长的字符串, 前面后面各加一个[ ], 就成了'[[],[]]'' 这种格式, 可以用eval()再转换一下, 就成了[[],[]] 可以生成数组或者dataframe,dataframe可转成
如何使用这个python程序 python 爬虫
2022-10-24 06:54

回答 4 已采纳希望可以帮上你,对你有启发 from selenium import webdriver from lxml import etree import numpy as np def arr_si
python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
Python 异步 IO 、协程、asyncio、async/await、aiohttp
2022-07-11 07:36

「已注销」的博客 From ：廖雪峰异步IO ：https://www.liaoxuefeng.com/wiki/1016959663602400/1017959540289152 Python Async/Await入门指南：https://zhuanlan.zhihu.com/p/27258289 Python 生成器和 yield 关键字：https:/...
Python 问财网搜索界面新闻爬取 python 爬虫
2021-12-25 00:39

回答 7 已采纳先用postman 测试headers里面那些内容不是必须的。分析那些cookie 是浏览器生成的，那些是服务器返回的。去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这
python如何抓取类型为EventStream的数据 php python 有问必答
2023-02-13 09:35

回答 4 已采纳使用stream参数和iter_content方法 s="" resp=requests.get(url,stream=True) print(resp.headers) for chunk in r
python抓取图片无法正常显示 python
2021-03-06 19:08

回答 1 已采纳 import os import requests import re import time import random if __name__ == "__main__" : # 创
python异步编程asyncio
2022-03-11 11:21

hbase丶的博客协程运行在线程上，所以一样是单线程，但是却能实现并发，遇见io耗时操作a，会把这个a操作挂后台执行，程序接着执行下一个操作b，当后台操作a结束后，程序再回去解决操作a的返回结果。类似前端js的编程思想。当然了...
这个应该怎么改才能抓取详情信息 python 有问必答
2021-06-24 09:17

回答 2 已采纳 name = link["title"]，，link没有title这个属性，应该是定位问题吧如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
Python网络爬虫入门
2021-12-12 08:40

学习&实践爱好者的博客 Python网络爬虫入门网络爬虫（web crawler），也叫网络蜘蛛(Web Spider)、网络机器人（Internet Bot）。简单地说，抓取万维网（World Wide Web）上所需要的数据的程序就叫网络爬虫。网络爬虫常见分类：通用...
python多线程执行_Python多线程编程
2020-11-24 08:31

weixin_39714164的博客本文大纲进程与线程Python的GIL多线程编程及线程间通信进程与线程程序就是一堆代码也就是在磁盘上的一个或多个文件。当程序运行起来也就被加载到内存中开始执行它的指令这时候才是真正的进程。运行中的QQ、Word就是...
没有解决我的问题, 去提问

悬赏问题

¥15 高价求中通快递查询接口
¥15 解决一个加好友限制问题或者有好的方案
¥15 关于#java#的问题，请各位专家解答！
¥15 急matlab编程仿真二阶震荡系统
¥20 TEC-9的数据通路实验
¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
¥50 MATLAB实现圆柱体容器内球形颗粒堆积
¥15 python如何将动态的多个子列表，拼接后进行集合的交集
¥20 vitis-ai量化基于pytorch框架下的yolov5模型
¥15 如何实现H5在QQ平台上的二次分享卡片效果？

码龄粉丝数原力等级 --

把这个抓取新闻标题改用并发来完成

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

把这个抓取新闻标题改用并发来完成

2条回答 默认 最新

悬赏问题

2条回答默认最新