如何在爬取百度小说中的西游记时，最后的文章内容存储在“content”中，但是运行代码就显示 “ KeyError: 'content' ”？（相关搜索：python爬虫）

在爬取百度小说中的西游记时，最后的文章内容存储在“content”中，但是运行代码就显示 “ KeyError: 'content' ” ，下面是我的代码


```python
# https://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"}
# 所有章节的内容（名称，cid）

# https://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4306063500","cid":"4306063500|1569782244","need_bookinfo":1}
# 具体内容

import requests
import asyncio
import aiohttp
import json
import aiofiles

async def aiodownload(cid,b_id,title):
    date = {
        "book_id": b_id,
        "cid": f"{b_id}|{cid}",
        "need_bookinfo": 1
    }
    date_json = json.dumps(date)
    url = f"https://dushu.baidu.com/api/pc/getCatalog?data={date_json}"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            dic = await resp.json()

            async with aiofiles.open(title, "w", encoding="utf-8") as f:
                await f.write(dic['data']['novel']['content']) # 把小说内容写出


async def getCatalog(url):
            resp = requests.get(url)
            dic = resp.json()
            tasks = []
            for item in dic['data']['novel']['items']:  # item 对应每一个章节的内容
                title = item['title']
                cid = item['cid']
                # 准备异步任务
                tasks.append(aiodownload(cid, b_id, title))
            
            await asyncio.gather(*tasks)

if __name__ == '__main__':
    b_id = "4306063500"
    data = json.dumps({"book_id": b_id})
    # 构建 URL
    url = f'https://dushu.baidu.com/api/pc/getCatalog?data={data}'
    asyncio.run(getCatalog(url))

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

白驹_过隙算法领域新星创作者 2024-09-30 09:08

关注

回答参考gpt4
出现 KeyError: 'content' 错误的原因是，代码尝试访问 JSON 响应中的 'content' 键，但实际返回的数据结构中可能没有这个键，或者路径不正确。因此，我们需要确认两点：

请求的 URL 和 JSON 响应格式：确保从 API 获取的数据结构中确实包含 'content' 字段。
修正 JSON 响应的路径：有时响应的结构并非如预期，所以我们要检查并找到正确的路径。

改进代码的步骤：

检查获取章节内容的 URL 是 https://dushu.baidu.com/api/pc/getChapterContent 而不是 getCatalog，因为 getCatalog 仅提供章节列表，具体的内容应该通过 getChapterContent 来获取。
确保正确解析 getChapterContent 返回的内容并正确提取 'content' 字段。

修改后的代码：

import requests
import asyncio
import aiohttp
import json
import aiofiles

# 异步下载章节内容
async def aiodownload(cid, b_id, title):
    # 构建请求数据
    data = {
        "book_id": b_id,
        "cid": f"{b_id}|{cid}",
        "need_bookinfo": 1
    }
    data_json = json.dumps(data)
    # 请求具体章节内容
    url = f"https://dushu.baidu.com/api/pc/getChapterContent?data={data_json}"
    
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            # 确保响应是JSON格式
            dic = await resp.json()
            # 检查返回数据中是否有 'data' 和 'novel' 键
            try:
                content = dic['data']['novel']['content']  # 获取小说内容
            except KeyError as e:
                print(f"Error fetching content for {title}: {e}")
                return

            # 异步写入章节内容到文件
            async with aiofiles.open(f"{title}.txt", "w", encoding="utf-8") as f:
                await f.write(content)  # 把小说内容写入文件

# 获取章节目录
async def getCatalog(url, b_id):
    resp = requests.get(url)
    dic = resp.json()
    tasks = []
    
    # 获取所有章节的 'title' 和 'cid'
    for item in dic['data']['novel']['items']:  # item 对应每一个章节的内容
        title = item['title']
        cid = item['cid']
        # 准备异步任务
        tasks.append(aiodownload(cid, b_id, title))
    
    # 等待所有任务完成
    await asyncio.gather(*tasks)

if __name__ == '__main__':
    b_id = "4306063500"  # 西游记的书ID
    data = json.dumps({"book_id": b_id})
    # 构建获取章节目录的 URL
    url = f'https://dushu.baidu.com/api/pc/getCatalog?data={data}'
    asyncio.run(getCatalog(url, b_id))

关键改动：

请求章节内容的 URL：章节内容的获取应该使用 getChapterContent API 而不是 getCatalog。
错误处理：增加了 try-except 来捕获 KeyError 错误并进行打印，方便调试和确保程序不崩溃。
异步写文件：将章节内容保存到文本文件中，使用章节名作为文件名。

注意事项：

在运行该代码之前，确保实际的 API 返回格式与期望一致，特别是 dic['data']['novel']['content'] 路径是否正确。如果该路径仍然导致错误，可以通过打印整个响应 JSON 检查其实际结构，并调整相应路径。

报告相同问题？

关注问题

jieba库西游记统计词频报错 list python
2022-05-24 21:11

回答 1 已采纳是路径不对，如果你这个西游记的文件是放在桌面的话，可以在桌面右击这个文件，然后选择最下面的属性，然后复制下图中的路径，添加到代码中的 journeytothewest.txt前面，然后把 \ 都换成
模仿西游记定义师徒四人的模型类，首先创建一个Monk类，具体情况如下： java
2021-10-21 15:34

回答 1 已采纳你都写这么清楚了。还需要啥？
为什么我的这个数组会是输出这些来？以下是代码和输出内容 eclipse java 前端有问必答
2021-11-22 18:05

回答 3 已采纳需要重写toString方法。因为你直接输出的是对象，只有重写了方法才能自动输出对象中的内容。参考下面格式：
Python爬取网站数据
2024-03-17 20:08

Vermouth-1的博客 Python爬取网站数据前言什么是爬虫？通过编写程序，模拟浏览器上网，然后让其去...在使用、传播爬取到的数据时，审查抓取到的内容如果发现涉及到用户隐私或者商业机密等敏感内容需要及时停止爬取并及时进行删除
地图坐标转换到屏幕坐标,给出A地图坐标和B地图坐标算出A和B在屏幕坐标。求易语言详细的算法算法
2023-02-16 12:35

回答 4 已采纳基于Monster 组和GPT的调写：要将地图坐标转换为屏幕坐标，需要知道地图的比例尺，即每个地图单位对应多少个屏幕像素。假设地图比例尺为1：100，即地图上每个单位对应100个像素，那么可以用以下算
百度阅读抓取不到目录 python 有问必答
2021-06-05 08:34

回答 3 已采纳可能百度做了处理，文字用的控件加载所以你找不到数据是有span标签的啊
手机连接vpn显示错误其他
2022-05-29 00:58

回答 1 已采纳解决方法1、排查下你的手机VPN信息是否配置正确2、查看你的手机VPN版本是否跟别人一致，是否进行了其它设置3、最后，卸载重装软件，重启手机试下如有问题及时沟通
超详细的 Python 方法、函数总结
2021-05-17 18:11

Amo Xiang的博客英语中最著名的一个回文，是拿破仑被流放到Elba岛时说的一句话：Able was I ere I saw Elba（在我看到Elba岛之前，我曾所向无敌），这句话不论是从左向右看，还是从右向左看，内容都一样。下面我们就用Python来检测...
求java代码所有的题目： java 开发语言有问必答
2021-11-08 09:58

回答 4 已采纳 public class Demo{ public static void main(String[] args) { int age=16; if (age!
百度阅读改怎么抓取目录呢？ python
2021-06-05 09:47

回答 1 已采纳他的目录就在文档里，不过做了unicode编码，在第140行，bookInfo['catalogs']后边就是目录信息了，你需要把他用ascii码和汉字替换掉里面的内容用js的eval这个内容，就
为什么我的西游四人组这个样子 css 有问必答
2022-03-08 09:42

回答 3 已采纳很明显你的png图片不是透明的，还存在白色的底，需要去掉的
2020-10-18 今天来说说如何爬取猫眼上的电影信息
2020-10-18 19:42

_落红_的博客今天来说说如何爬取猫眼上的电影信息最近小编试图使用requests+BeautifulSoup取去抓取猫眼上的电影信息,但尝试一番后,发现输出的电影评分是乱码,
C语言存取文件正常，但文件中有乱码
2017-10-19 09:43

回答 1 已采纳 memset将字符串数组清空下再赋值，再写入
Python Unitest 自动化测试框架（V2.0）生成测试报告发送邮件 excel用例数据驱动接口自动化 Selenium 页面自动化测试结果记录数据库
2018-12-07 18:37

meiguopai1的博客 Lib：测试项目相关的公用代码 Projects：按项目存放测试程序及所需数据、产生的报告等文件 Projects目录： BaseTest：自动化测试的公共模块，如：登录、用户管理等。 IDC：用于存...
Python爬虫学习笔记
2021-09-04 19:27

Die Kunst的博客文章目录Python爬虫学习笔记写在前面第一章初识爬虫1.1 什么是爬虫1.2 需要使用的软件1.3 第一个小爬虫1.4 Web请求过程剖析1.5 Http协议1.6 Requests入门1.6.1 爬取搜狗搜索页面1.6.2 快速获取百度翻译结果1.6.3 ...
python+tkinter实现图书管理系统(首发)
2023-08-11 21:22

天天501的博客本文将用tkinter模块来写一个图书管理系统，将...温馨提示，最好是在本文所要求环境运行，避免程序可能出现报错。数据操作是对数据进行操作，如增删改查，用户在界面上的操作实际就是对数据的操作，只不过用户看到
SpiderMan：Selenium，模拟登录，APP&PC，其他案例
2021-10-13 19:43

燕双嘤的博客通过在后台与服务器进行少量数据交换，AJAX可以使网页实现异步更新，这意味着不需要刷新就可以对网页的某部分进行更新。类似于简书网个人主页，并没有分页信息，而是一直可以浏览下去。通过爬虫代码发现，爬取不到...
python爬虫个人学习笔记
2020-09-10 22:05

Roxannekkk的博客来判断是来自于代码的访问，还是来自于浏览器，比如python访问，显示为python加上版本号）所以我们通过修改headers来模拟正常访问下图为，正常访问网页时，user-agent数据在urllib.request.Request()方法中有参数...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题今天

悬赏问题

¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？
¥15 nasm x86 变量归零
¥65 Tree 树形控件实现单选功能,可以使用element也可以手写一个,实现全选为全选状态
¥60 寻抓云闪付tn组成网页付款链接
¥16 寻字节跳动内部人员帮推简历