关于爬虫同步方法修改为异步协程的问题

具体过程就是，在写爬取一个小说网站的小爬虫
大概架构是：
1、先从目录页入手找到各个子页面的地址
2、再通过子页面地址用正则抓取到正文内容
3、将上述第二部，抓取正文内容的过程，改为异步协程的方法，同时抓取

现在1、2步以实现，在同步状态下可以正常运行；但是根据小子网上学的改为异步协程方法进行修改后；却报错无法执行，望老鸟指教
以下是拿来练手的小说地址：

https://book.qidian.com/info/1030136856/#Catalog

报错截图

源代码：

import re 
import requests
import asyncio  
import aiohttp  
import aiofiles 
import json

#用来提取子页面地址的正则
obj1=re.compile(r'<a class="subscri" href="//read.qidian.com/hankread/1030136856/94755936/" target="_blank"><!--<em class="btn"><b class="iconfont">&#xe636;</b>分卷阅读</em>--></a>.*?<ul class="cf">(?P<all>.*?) <div class="book-content-wrap cf">',re.S)
obj2=re.compile(r'<li data-rid=.*?><a href="(?P<url>.*?)'
                r'title=".*?">(?P<name>.*?)</a>',re.S)

#用来提取小说正文的正则
obj3=re.compile(r'<div class="read-content j_readContent" id="">(?P<main>.*?)</div>.*?<div class="admire-wrap">',re.S)

headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 OPR/78.0.4093.184'
}

#提取到的页面子链接需要补充：https:
child_supplement='https:'

#拿到章节子页面地址
async def getintroduction(url,headers):
    resp=requests.get(url)
    chapter=resp.text
    #print(resp.text)
    urls=[]  #准备一个列表放提取到的url
    #用正则提取章节子页面地址
    #第一次先提取整个网页中的目录模块
    result=obj1.finditer(chapter)
    for it in result:
        #print(it.group('all'))
        table=it.group('all')
    #第二次再分开提取每个章节的URL
    content=obj2.finditer(table)
    for it in content:
        #print(it.group('name'))
        #print(it.group('url'))
        name = it.group('name')
        url =child_supplement+it.group('url')  #对提取到的链接进行拼接
        #准备异步任务，把提取到的url，放到一个列表里
        urls.append(aiodownload(url,name))
        #print(urls)
    resp.close()
    await asyncio.wait(urls)



#读取子页面的正文内容
async def aiodownload(url,name):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:  # 得到每个章节子页面的信息
            content=await resp.json()  #读到的内容存储
            #print(content)
            result=obj3.finditer(content)
            for it in result:
                #print(it.group('main'))
                book=it.group('main')
                async with aiofiles.open('4.8-book/'+name,mode='w',encoding='UTF-8') as f: 
                    await f.write(book)
                print('完成')





if __name__=='__main__':
    b_id='1030136856'
    url='https://book.qidian.com/info/'+b_id+'/#Catalog'
    #getintroduction(url,headers=headers)
    asyncio.run(getintroduction(url,headers=headers))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
咕泡-三木 2021-09-26 13:46
关注
报错来自于aiohttp，传递给aiohttp的URL有误，解析不了所以报错了
URL有误是因为正则结果不对，把提取URL的正则改一下就好了

obj2 = re.compile( r'<li data-rid=.*?><a href="(?P<url>.*?)".*? title=".*?">(?P<name>.*?)</a>', re.S )
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python3爬虫中异步协程的用法
2020-12-17 09:19

为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应用到网络爬虫中，爬取效率甚至可以成百倍地提升。注：本文协程使用 async/await 来实现，需要 ...
超牛逼的异步协程爬虫
2020-12-21 15:28

【超牛逼的异步协程爬虫】这篇文章主要探讨了如何利用Python的异步协程提高爬虫的效率。异步IO和协程技术在爬虫编程中扮演着重要角色，尤其对于处理大量网络请求时，能显著提升程序性能。 **一、引入** 在爬取网页...
Python爬虫-使用python实现的超高速异步协程爬虫项目.zip
2024-03-09 21:30

本项目聚焦于使用Python实现的超高速异步协程爬虫，旨在提高爬虫的效率和性能，应对大规模网页抓取的需求。下面将详细阐述Python爬虫、异步编程以及协程的基本概念，以及如何利用它们来构建高效的爬虫项目。 **...
爬虫--多任务异步协程
2024-06-24 21:19

qq_57346203的博客而当前使用了协程，程序执行时间仍为9s+，是因为函数中的time.sleep(x)是同步操作，会造成io中断，当程序出现同步操作时，异步就中断了。该程序如果是没有用到协程，可以看出三个函数最少要消耗9s，加上程序执行的...
python爬虫之异步协程代码
2021-08-19 18:21

本篇文章将深入探讨Python中的异步协程代码在爬虫开发中的应用，以提高爬虫的性能和效率。首先，我们要理解Python的异步编程模型。Python标准库中的`asyncio`模块提供了对异步操作的支持，它基于事件循环（Event ...
python爬虫进阶|异步协程
2021-06-22 13:14

- 打小就隔路à的博客 python爬虫进阶 | 异步协程前言一、基本概念二、异步协程前言之前爬虫使用的是requests+多线程/多进程，后来随着前几天的深入了解，才发现，对于爬虫来说，真正的瓶颈并不是CPU的处理速度，而是对于网页抓取时候...
爬虫速度太慢用异步协程提速
2018-08-13 21:07

魔都飘雪的博客 1. 前言在执行一些 IO 密集型任务的时候，程序...为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应用到网络爬虫中，爬取效率甚至可以成百倍地提...
超高速异步协程Python爬虫.zip
2023-12-30 13:29

在Python编程领域，异步协程（Asyncio）是一种高效处理I/O密集型任务的技术，尤其在爬虫开发中有着广泛的应用。超高速异步协程Python爬虫的设计旨在利用Python的非阻塞特性，提高数据抓取的速度和效率。本压缩包文件...
Python通过协程实现异步爬虫--asyncio技巧
2023-12-29 14:59

景天科技苑的博客很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上，很少有人能够在项目中真正的使用异步实现高性能的相关操作。接下来，咱们就一起来学习一下，爬虫中如何使用异步实现高性能的数据爬取操作。
Python网络爬虫中的同步与异步示例详解
2020-12-23 12:47

一、同步与异步 #同步编程（同一时间只能做一件事，做完了才能做下一件事情） <-a_url-><-b_url-><-c_url-> #异步编程 (可以近似的理解成同一时间有多个事情在做，但有先后) <-a_url-> <-b_url-> ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家修改了标签 10月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月1日
展开全部

关于爬虫同步方法修改为异步协程的问题

1条回答 默认 最新

问题事件

1条回答默认最新