关于爬虫同步方法修改为异步协程的问题

具体过程就是，在写爬取一个小说网站的小爬虫
大概架构是：
1、先从目录页入手找到各个子页面的地址
2、再通过子页面地址用正则抓取到正文内容
3、将上述第二部，抓取正文内容的过程，改为异步协程的方法，同时抓取

现在1、2步以实现，在同步状态下可以正常运行；但是根据小子网上学的改为异步协程方法进行修改后；却报错无法执行，望老鸟指教
以下是拿来练手的小说地址：

https://book.qidian.com/info/1030136856/#Catalog

报错截图

源代码：

import re 
import requests
import asyncio  
import aiohttp  
import aiofiles 
import json

#用来提取子页面地址的正则
obj1=re.compile(r'<a class="subscri" href="//read.qidian.com/hankread/1030136856/94755936/" target="_blank"><!--<em class="btn"><b class="iconfont">&#xe636;</b>分卷阅读</em>--></a>.*?<ul class="cf">(?P<all>.*?) <div class="book-content-wrap cf">',re.S)
obj2=re.compile(r'<li data-rid=.*?><a href="(?P<url>.*?)'
                r'title=".*?">(?P<name>.*?)</a>',re.S)

#用来提取小说正文的正则
obj3=re.compile(r'<div class="read-content j_readContent" id="">(?P<main>.*?)</div>.*?<div class="admire-wrap">',re.S)

headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 OPR/78.0.4093.184'
}

#提取到的页面子链接需要补充：https:
child_supplement='https:'

#拿到章节子页面地址
async def getintroduction(url,headers):
    resp=requests.get(url)
    chapter=resp.text
    #print(resp.text)
    urls=[]  #准备一个列表放提取到的url
    #用正则提取章节子页面地址
    #第一次先提取整个网页中的目录模块
    result=obj1.finditer(chapter)
    for it in result:
        #print(it.group('all'))
        table=it.group('all')
    #第二次再分开提取每个章节的URL
    content=obj2.finditer(table)
    for it in content:
        #print(it.group('name'))
        #print(it.group('url'))
        name = it.group('name')
        url =child_supplement+it.group('url')  #对提取到的链接进行拼接
        #准备异步任务，把提取到的url，放到一个列表里
        urls.append(aiodownload(url,name))
        #print(urls)
    resp.close()
    await asyncio.wait(urls)



#读取子页面的正文内容
async def aiodownload(url,name):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:  # 得到每个章节子页面的信息
            content=await resp.json()  #读到的内容存储
            #print(content)
            result=obj3.finditer(content)
            for it in result:
                #print(it.group('main'))
                book=it.group('main')
                async with aiofiles.open('4.8-book/'+name,mode='w',encoding='UTF-8') as f: 
                    await f.write(book)
                print('完成')





if __name__=='__main__':
    b_id='1030136856'
    url='https://book.qidian.com/info/'+b_id+'/#Catalog'
    #getintroduction(url,headers=headers)
    asyncio.run(getintroduction(url,headers=headers))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
咕泡-三木 2021-09-26 13:46
关注
报错来自于aiohttp，传递给aiohttp的URL有误，解析不了所以报错了
URL有误是因为正则结果不对，把提取URL的正则改一下就好了

obj2 = re.compile( r'<li data-rid=.*?><a href="(?P<url>.*?)".*? title=".*?">(?P<name>.*?)</a>', re.S )
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于爬虫同步方法修改为异步协程的问题 python 可用性测试
2021-09-25 16:10

回答 1 已采纳报错来自于aiohttp，传递给aiohttp的URL有误，解析不了所以报错了URL有误是因为正则结果不对，把提取URL的正则改一下就好了 obj2 = re.compile( r'<l
关于python异步协程的问题，求解？ python 其他可用性测试有问必答
2021-10-08 22:10

回答 1 已采纳首先看你的数据对象不是json类型呀，报错说他是text类型,至于携程方面知识的我也好久没看了，看样子，携程方面应该没问题
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
python3爬虫中异步协程的用法
2020-12-17 09:19

为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应用到网络爬虫中，爬取效率甚至可以成百倍地提升。注：本文协程使用 async/await 来实现，需要 ...
写多任务异步协程出了点问题，但报错信息很不对劲 python
2022-08-15 22:40

回答 2 已采纳将进程分离关了或者重启pycharm
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
python爬虫进阶|异步协程
2021-06-22 13:14

- 打小就隔路à的博客 python爬虫进阶 | 异步协程前言一、基本概念二、异步协程前言之前爬虫使用的是requests+多线程/多进程，后来随着前几天的深入了解，才发现，对于爬虫来说，真正的瓶颈并不是CPU的处理速度，而是对于网页抓取时候...
关于爬虫爬取动态网站的问题 python 有问必答爬虫
2022-04-17 18:40

回答 2 已采纳你这个网页中的内容通过 js代码读取外部json数据来动态更新的。可以通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。或者参考selenium滚动到页面底部的几种解决方案
关于爬虫selenium遇到的问题 python 爬虫
2022-08-10 20:28

回答 3 已采纳因为网址更新了，现在是iframe[title = 'livere-comment']
关于爬虫基础的一个小问题。。逻辑方面 python 爬虫
2022-09-27 15:30

回答 2 已采纳 init少了下划线
爬虫速度太慢用异步协程提速
2018-08-13 21:07

魔都飘雪的博客 1. 前言在执行一些 IO 密集型任务的时候，程序...为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应用到网络爬虫中，爬取效率甚至可以成百倍地提...
关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
Python网络爬虫中的同步与异步示例详解
2020-12-23 12:47

一、同步与异步 #同步编程（同一时间只能做一件事，做完了才能做下一件事情） <-a_url-><-b_url-><-c_url-> #异步编程 (可以近似的理解成同一时间有多个事情在做，但有先后) <-a_url-> <-b_url-> ...
python3异步协程爬虫_python爬虫(十三、异步协程基本的使用)
2021-03-05 18:04

weixin_39601642的博客使用协程,第一步创建协程对象\color{Red}使用协程,第一步创建协程对象使用协程,第一步创建协程对象第二步,创建事件循环对象第二步,创建事件循环对象第二步,创建事件循环对象第三步,把协程对象注册到事件循环对象去并...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家修改了标签 10月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月1日
展开全部

悬赏问题

¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题

关于爬虫同步方法修改为异步协程的问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新