关于python异步协程的问题，求解？

具体过程就是，在写爬取一个小说网站的小爬虫
大概架构是：
1、先从目录页入手找到各个子页面的地址
2、再通过子页面地址用正则抓取到正文内容
3、将上述第二步，抓取正文内容的过程，改为异步协程的方法，同时抓取

现在1、2步以实现，在同步状态下可以正常运行；但是根据小子网上学的改为异步协程方法进行修改后；却报错无法执行，望老鸟指教
以下是拿来练手的小说地址：https://book.qidian.com/info/1030136856/#Catalog

以下为报错内容：

import requests
import asyncio  
import aiohttp  
import aiofiles 
import json
import re  

#用来提取子页面地址的正则
obj1=re.compile(r'<a class="subscri" href="//read.qidian.com/hankread/1030136856/94755936/" target="_blank"><!--<em class="btn"><b class="iconfont">&#xe636;</b>分卷阅读</em>--></a>.*?<ul class="cf">(?P<all>.*?) <div class="book-content-wrap cf">',re.S)
obj2=re.compile(r'<li data-rid=.*?><a href="(?P<url>.*?)'
                r'title=".*?">(?P<name>.*?)</a>',re.S)

#用来提取小说正文的正则
obj3=re.compile(r'<div class="read-content j_readContent" id="">(?P<main>.*?)</div>.*?<div class="admire-wrap">',re.S)

headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 OPR/78.0.4093.184'
}

#提取到的页面子链接需要补充：https:
child_supplement='https:'

#拿到章节子页面地址
async def getintroduction(url,headers):
    resp=requests.get(url)
    chapter=resp.text
    #print(resp.text)
    urls=[]  #准备一个列表放提取到的url
    #用正则提取章节子页面地址
    #第一次先提取整个网页中的目录模块
    result=obj1.finditer(chapter)
    for it in result:
        #print(it.group('all'))
        table=it.group('all')
    #第二次再分开提取每个章节的URL
    content=obj2.finditer(table)
    for it in content:
        #print(it.group('name'))
        #print(it.group('url'))
        name = it.group('name')
        url =child_supplement+it.group('url')  #对提取到的链接进行拼接
        #准备异步任务，把提取到的url，放到一个列表里
        urls.append(aiodownload(url,name))
        #print(urls)
    resp.close()
    await asyncio.wait(urls)


#读取子页面的正文内容
async def aiodownload(url,name):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:  # 得到每个章节子页面的信息
            content=await resp.json()  #读到的内容存储
            #print(content)
            result=obj3.finditer(content)
            for it in result:
                #print(it.group('main'))
                book=it.group('main')
                async with aiofiles.open('4.8-book/'+name,mode='w',encoding='UTF-8') as f:  #保存文件，注意wb模式是不能使用encoding的
                    await f.write(book)
                print('完成')





if __name__=='__main__':
    b_id='1030136856'
    url='https://book.qidian.com/info/'+b_id+'/#Catalog'
    #getintroduction(url,headers=headers)
    asyncio.run(getintroduction(url,headers=headers))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱音斯坦牛全栈领域优质创作者 2021-10-09 15:33
关注
首先看你的数据对象不是json类型呀，报错说他是text类型,至于携程方面知识的我也好久没看了，看样子，携程方面应该没问题

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于python异步协程的问题，求解？ python 其他可用性测试有问必答
2021-10-08 22:10

回答 1 已采纳首先看你的数据对象不是json类型呀，报错说他是text类型,至于携程方面知识的我也好久没看了，看样子，携程方面应该没问题
python异步协程和多线程问题 python 有问必答爬虫
2021-11-25 21:18

回答 1 已采纳 aiohttp的高并发用了协程，而request+线程只是多线程，这个不一样。理论上是aiohttp速度比request+线程的快，但爬虫太快很容易被反爬
python异步协程 python
2022-06-08 19:20

回答 1 已采纳凡是调用async开头的函数，调用的时候一定要await你这样写肯定不对，建议补充一下python协程的基础知识
python 中异步，并发，多线程，协程的区分等
2017-12-18 22:55

yangxiaodong88的博客写这篇的缘由一直以来一直在说异步，并发，多线程，协程等，觉得很高大上，虽然也看过一些文章但是还是并没有真正的理解，并不敏感。可能是自己比较菜，没有开发中去碰触到这些东西了。以前一直觉理我很遥远，现在...
[Python]asyncio异步协程停止问题 python 有问必答
2021-11-10 14:03

回答 3 已采纳 RuntimeError: no running event loop的错误没有在运行的事件循环应该是这里的问题吧，loop = asyncio.get_event_loop()
python 的多线程和协程？ python 有问必答
2021-05-25 23:59

回答 2 已采纳协程，英文Coroutines，是一种比线程更加轻量级的存在。正如一个进程可以拥有多个线程一样，一个线程也可以拥有多个协程。最重要的是，协程不是被操作系统内核所管理，而完全是由程序所控制（也就是在用户
如何使用selenium进行多协程填写表单？ python
2020-01-06 15:34

回答 1 已采纳录单一般都是post发送的吧，你可以抓包看下录单是不是通过post方法发送数据的，如果是的话你就可以先拿到登录cookie然后遍历进行post了，效率也很快
python重复输出_python,_Python logging模块重复打印？，python - phpStudy
2020-11-24 23:13

weixin_39863008的博客 Python logging模块重复打印？Python logging日志模块在使用时会进行重复打印，是否代码不对？还是？贴上代码：logme.py:#!/usr/bin/env python# _*_ coding: utf-8 _*___author__ = 'neilsun'import loggingimport ...
如何用python求解三角函数方程呢？ python 有问必答
2021-11-02 11:55

回答 2 已采纳 math中的sin()函数有错误，用sympy的sin()函数；另外，solve(fx,x)你的x的位置写到solve外面去了；另外，我改好了以后发现程序也是执行不出来，拆解成两部分运行后，发现后半部
python语法问题求解 python
2023-02-28 15:30

回答 3 已采纳 int改为init
关于#python#的问题，如何解决？ python
2023-03-13 14:35

回答 4 已采纳用python实现一元二次方程求解代码,望采纳！！！： import math def qiujie(a, b, c): d= b**2 - 4*a*c if d < 0:
python3.6及scikit-learn包
2017-12-10 17:48

Python 3.6还引入了异步IO的改进，使得处理并发任务更加灵活，如使用`async`和`await`关键字编写协程。 Scikit-learn（也称为sklearn）是Python中最受欢迎的机器学习库之一，它基于NumPy、SciPy和matplotlib构建。...
python问题求解 python 有问必答
2022-12-07 17:08

回答 3 已采纳望采纳这是一个简单的递归函数，用来求解斐波那契数列的某一项的值： def fibonacci(n): if n == 0: return 0 elif n == 1: ret
python变量定义问题_python 定义n个变量方法 (变量声明自动化)
2020-11-24 13:17

weixin_39832448的博客 python 定义n个变量方法 (变量声明自动化)code：for i in range(100):cmd = "t%s = 1" % iexec cmdeval("t%s" % i)print t10输出 1 ，表示我们创建了 t0 - t99 这样的变量以上这篇python 定义n个变量方法 (变量声明...
python高手之路
2017-07-09 08:22

2. **SciPy**：了解如何使用SciPy来进行科学计算，包括数值积分、优化问题求解等。 3. **Matplotlib**：学习如何使用Matplotlib绘制各种图表，提高数据可视化的技能。 #### 四、Web开发与框架 1. **Flask**：一个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月8日

悬赏问题

¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据

关于python异步协程的问题，求解？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新