协程中请求url过慢问题

我在爬虫中使用了协程，但是运行起来还是同步操作，没有达到异步效果，请问是哪里出了问题了，还请指正一下代码
不胜感激

import requests
from lxml import etree
import aiohttp
import asyncio
import aiofiles
import time

# 提取第二页URL
async def index_url(number):
    img_urls = []
    async with aiohttp.ClientSession() as session:
        async with await session.get(f'https://wallpaperscraft.com/catalog/anime/page{number}') as resp:
            tree = etree.HTML(await resp.text()).xpath('/html/body/div/div[2]/div[2]/div/div[2]/div[1]/ul/li//a/@href')
            for t in tree:
                url = 'https://wallpaperscraft.com' + t
                img_urls.append(url)
    return img_urls

# 请求第二页URL
async def to_imgurl(url):
    async with aiohttp.ClientSession() as session:
        async with await session.get(url) as resp:
            src = etree.HTML(await resp.text()).xpath('/html/body/div/div[2]/div[2]/div/div[2]/div[1]/div[1]/img/@src')
            print(src)


if __name__ == '__main__':
    for i in range(1, 4):
        list_url = asyncio.run(index_url(i))
        for l in list_url:
            asyncio.run(to_imgurl(l))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MarkHan_ 2023-02-22 19:45
关注
该回答引用GPTᴼᴾᴱᴺᴬᴵ
你的代码实现了协程，但是却是在同步的方式下调用协程，导致没有实现异步效果。
-
在你的代码中，for循环依次遍历每一页的URL，然后再依次遍历每个URL中的图片链接，每次遍历都会调用asyncio.run()函数，此函数会启动一个事件循环来执行协程，并且会阻塞当前线程，直到事件循环结束。也就是说，当前循环的执行是同步的，每个URL中的协程只有前一个协程结束后才会开始执行。
-
如果想要实现异步效果，可以考虑将整个循环改为异步方式，每个URL中的协程使用asyncio.gather()函数包装起来，一次性启动并发执行，例如：

import requests from lxml import etree import aiohttp import asyncio import aiofiles import time # 提取第二页URL async def index_url(number): img_urls = [] async with aiohttp.ClientSession() as session: async with await session.get(f'https://wallpaperscraft.com/catalog/anime/page{number}') as resp: tree = etree.HTML(await resp.text()).xpath('/html/body/div/div[2]/div[2]/div/div[2]/div[1]/ul/li//a/@href') for t in tree: url = 'https://wallpaperscraft.com' + t img_urls.append(url) return img_urls # 请求第二页URL async def to_imgurl(url): async with aiohttp.ClientSession() as session: async with await session.get(url) as resp: src = etree.HTML(await resp.text()).xpath('/html/body/div/div[2]/div[2]/div/div[2]/div[1]/div[1]/img/@src') print(src) async def main(): tasks = [] for i in range(1, 4): list_url = await index_url(i) for l in list_url: task = asyncio.create_task(to_imgurl(l)) tasks.append(task) await asyncio.gather(*tasks) if __name__ == '__main__': asyncio.run(main())

在上述代码中，main()函数使用asyncio.create_task()函数创建协程任务，并使用asyncio.gather()函数启动协程任务的并发执行，以实现异步效果。此外，asyncio.run()函数也改为了asyncio.run(main())的方式来启动事件循环，以便正确处理异步操作。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

协程中请求url过慢问题 python 后端爬虫
2023-02-22 18:10

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ你的代码实现了协程，但是却是在同步的方式下调用协程，导致没有实现异步效果。-在你的代码中，for循环依次遍历每一页的URL，然后再依次遍历每个URL中的图片链接，每次遍历都
go 匿名函数协程中直接修改上级切片的安全性 golang 后端开发语言
2022-04-19 11:35

回答 5 已采纳从代码逻辑来看，没毛病，并且结果也是与你的预期一致的：由于这里是用的传值匿名函数，go func(wz int)(i)，所有没有多协程问题。后面的sleep 5秒很关键，但是如果等待的时间不够，上面
retrofit + kotlin 协程进行并发访问网络请求async { }.await()，通过输出log日志，发现是串行执行 android kotlin
2022-04-11 18:32

回答 1 已采纳写错了
爬虫速度太慢用异步协程提速
2018-08-13 21:07

魔都飘雪的博客比如在网络爬虫中，如果我们使用 requests 库来进行请求的话，如果网站响应速度过慢，程序一直在等待网站响应，最后导致其爬取效率是非常非常低的。为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的...
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
关于python异步协程的问题，求解？ python 其他可用性测试有问必答
2021-10-08 22:10

回答 1 已采纳首先看你的数据对象不是json类型呀，报错说他是text类型,至于携程方面知识的我也好久没看了，看样子，携程方面应该没问题
关于爬虫同步方法修改为异步协程的问题 python 可用性测试
2021-09-25 16:10

回答 1 已采纳报错来自于aiohttp，传递给aiohttp的URL有误，解析不了所以报错了URL有误是因为正则结果不对，把提取URL的正则改一下就好了 obj2 = re.compile( r'<l
Python 中异步协程的使用方法介绍
2022-07-11 07:36

「已注销」的博客静觅崔庆才的个人博客：Python中异步协程的使用方法介绍：https://cuiqingcai.com/6160.html Python 异步 IO 、协程、asyncio、async/await、aiohttp：...
[Python]asyncio异步协程停止问题 python 有问必答
2021-11-10 14:03

回答 3 已采纳 RuntimeError: no running event loop的错误没有在运行的事件循环应该是这里的问题吧，loop = asyncio.get_event_loop()
golang：协程和通道的奇怪问题
2017-03-09 21:13

回答 1 已采纳 with 2 channels, this work: package main import ( "fmt" "time" ) var ch chan int = make
写多任务异步协程出了点问题，但报错信息很不对劲 python
2022-08-15 22:40

回答 2 已采纳将进程分离关了或者重启pycharm
python并发编程：协程asyncio、多线程threading、多进程multiprocessing
2022-03-17 22:48

Zzzzzzzzzzzaa2的博客 tasks用于并发调度协程，通过asyncio.creat_task(协程对象)的方式可以创建Task对象，这样可以让协程加入事件循环中等待被调度执行。除了使用asyncio.creat_task()以外，还可以用低层级的loop.creat_task()或asyncio....
go 协程处理。终止一个可能在运行的协程 golang
2023-01-06 16:52

回答 1 已采纳如果希望在收到新的请求时终止正在运行的 goroutine，可以使用带缓冲的通道来实现。具体来说，可以在主 goroutine 中创建一个带缓冲的通道，并在新的 goroutine 中监听这个通道。
py并发编程：GIL锁、进程、线程、协程
2021-04-20 21:43

Sunny_Future的博客数据集则是程序在执行过程中所需要使用的资源；进程控制块用来记录进程的外部特征，描述进程的执行变化过程，系统可以利用它来控制和管理进程，它是系统感知进程存在的唯一标志。这里需要注意的是程序和进程的...
Python中异步协程的使用方法介绍
2022-02-25 10:04

寰宇C++的博客比如在网络爬虫中，如果我们使用 requests 库来进行请求的话，如果网站响应速度过慢，程序一直在等待网站响应，最后导致其爬取效率是非常非常低的。为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月22日

悬赏问题

¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么

协程中请求url过慢问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新