weixin_45824694 2021-03-18 22:25 采纳率: 100%
浏览 31
已采纳

把这个抓取新闻标题改用并发来完成

非并发:

import newspaper
from newspaper import Article

def get_headlines():

    URLs = ['http://www.foxnews.com/',
            'http://www.cnn.com/',
            'http://www.derspiegel.de/',
            'http://www.bbc.co.uk/',
            'https://theguardian.com',]

    for url in URLs:
        result = newspaper.build(url, memoize_articles=False)
        print(result)
        print('\n''The headlines from %s are' % url, '\n')
        for i in range(1,6):
            art = result.articles[i]
            art.download()
            art.parse()
            print(art.title)

if __name__ == '__main__':
    import timeit
    elapsed_time = timeit.timeit("get_headlines()", setup="from __main__ import get_headlines", number=2)/2             
    print(elapsed_time) 

 

用with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor改为并发

提高抓取速度

  • 写回答

2条回答 默认 最新

  • liqiang94 2021-03-19 10:40
    关注
    from concurrent.futures import ThreadPoolExecutor, as_completed
    
    
    def search(url):
        '''这里完成一个对一个url的操作,自己写搜索逻辑'''
        return url  # 这里返回url,用于在主线程中观察哪些url完成操作
    
    
    pool = ThreadPoolExecutor(max_workers=5)
    all_task = [pool.submit(search, url) for url in urls]  # urls是你定义的待抓取url列表
    for future in as_completed(all_task):
        target_url = future.result()
        print('该url【{}】已完成抓取'.format(target_url))

    代码还是要自己多写写,熟练熟练

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 高价求中通快递查询接口
  • ¥15 解决一个加好友限制问题 或者有好的方案
  • ¥15 关于#java#的问题,请各位专家解答!
  • ¥15 急matlab编程仿真二阶震荡系统
  • ¥20 TEC-9的数据通路实验
  • ¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
  • ¥50 MATLAB实现圆柱体容器内球形颗粒堆积
  • ¥15 python如何将动态的多个子列表,拼接后进行集合的交集
  • ¥20 vitis-ai量化基于pytorch框架下的yolov5模型
  • ¥15 如何实现H5在QQ平台上的二次分享卡片效果?