python小说爬虫爬取不全

每次代码运行爬取的小说章节不一样有的时候多有的时候少并且不能全部爬取下来
希望有人帮忙解决
代码如下：

 importrequests
 from bs4 import BeautifuLSoup
 num=1
 while True:
    #伪装
    wZ=fuser-agent':Mozilla/5.0（Windows NT 10.0;Win64;x64）AppleWebKit/537.36（KHTML，ike Gecko） Chrome/139.0.0.0 Safari/537.36Edg/
    #网址
    UrL=f'https://www.shuhai.com/read/57004/num.html
    #请求
    res=requests.get(ur，headers=Wz）
    ifres.status_code！=200:
         break
    else:
         soup=BeautifulSoup(res.text，                                    features:lxmL'）
         #文章名
         title=soup.find_al(name:div'，class_="chapter-nametext-es"）
         #print（title）
         iftitle:
             comtent=titelo].get_text（strip=True）
         else:
             print（未找到div目标）
             break
        print(comtent）
        #文章
        p= soup.find_all('p'）
         #print（p）
        #因为p现在还是列表所以要将文本先拿出来再保存
         foriinp:
             WZ=i.get_text(strip=True）+'n
             #print（wZ）
             withopen(f·跑腿爸爸/fcomtent.text，a+l，encoding=utf-8'）asf:
                 f.write（wZ）
        num +=1

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-08-20 14:25
关注
下午好🌅🌅🌅
本答案参考通义千问

你的Python小说爬虫在运行时出现章节不一致、爬取不全的问题，这可能是由于以下几个原因导致的：

一、问题分析

URL构造错误：num.html 中的 num 应该是动态变化的，但你的代码中没有正确构造 URL。
请求头（headers）格式错误：User-Agent 的格式不正确，可能影响服务器识别。
网页结构解析错误：你使用的CSS选择器或标签名可能与实际网页结构不符。
文件写入方式错误：使用 a+ 模式可能导致重复写入，且文件名不规范。
异常处理不足：缺少对网络请求失败、页面结构变化等异常情况的处理。

二、解决方案

1. 修复URL构造逻辑

确保每次循环都访问正确的章节页，例如：https://www.shuhai.com/read/57004/1.html, https://www.shuhai.com/read/57004/2.html 等。

2. 正确设置 User-Agent

修正 User-Agent 字符串，使其符合标准格式。

3. 使用正确的HTML解析方法

确保使用 BeautifulSoup 正确解析 HTML 结构，并查找对应的内容。

4. 文件写入优化

避免重复写入，使用 w 模式打开文件，并为每章生成独立文件。

5. 异常处理和调试

加入异常处理机制，便于排查问题。

三、修改后的完整代码

import requests from bs4 import BeautifulSoup # 设置User-Agent headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36 Edg/' } base_url = 'https://www.shuhai.com/read/57004/' num = 1 while True: url = f"{base_url}{num}.html" try: res = requests.get(url, headers=headers, timeout=10) if res.status_code != 200: print(f"第 {num} 章节请求失败，状态码：{res.status_code}") break soup = BeautifulSoup(res.text, 'lxml') # 获取章节标题 title_div = soup.find('div', class_='chapter-name text-es') if not title_div: print(f"未找到第 {num} 章节标题") break title = title_div.get_text(strip=True) print(f"正在爬取：{title}") # 获取章节内容 content_p = soup.find_all('p') if not content_p: print(f"第 {num} 章节无内容") num += 1 continue # 写入文件 with open(f'跑腿爸爸/{title}.txt', 'w', encoding='utf-8') as f: for p in content_p: line = p.get_text(strip=True) if line: # 避免空行 f.write(line + '\n') num += 1 except Exception as e: print(f"发生异常：{e}") break

四、重点说明

URL构造：使用 f"{base_url}{num}.html" 动态生成每个章节的URL。
User-Agent 格式：确保格式正确，如 Mozilla/5.0 (Windows NT 10.0; Win64; x64)。
HTML 解析：使用 BeautifulSoup(res.text, 'lxml') 更稳定。
文件写入：使用 'w' 模式，避免重复写入；每章单独保存为一个 .txt 文件。
异常处理：通过 try-except 块捕获异常，防止程序崩溃。

五、建议

如果网站有反爬机制，可以考虑添加 time.sleep() 控制请求频率。
可以使用 logging 模块替代 print()，更方便调试。
如果需要抓取更多章节，可先手动访问网页查看最大章节号，再设定循环上限。

如果你能提供目标网站的具体页面结构（如 HTML 代码），我可以进一步帮你优化 CSS 选择器。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python语言爬虫爬取歌曲代码.txt
2024-12-12 21:30

本内容将围绕Python语言进行网络爬虫编程的基础知识点进行详细阐述，尤其侧重于如何通过Python爬虫技术来爬取和下载网络上的歌曲资源。首先，Python是当前爬虫开发中最常用的语言之一，其简洁易懂的语法和丰富的第...
Python爬虫爬取漫画
2024-11-22 16:22

使用Python爬虫爬取漫画不仅能够帮助用户快速收集漫画资源，也能够为相关研究提供便利。 Python爬虫技术主要涉及网络请求、网页解析、数据存储等几个方面。在爬取漫画时，首先需要发送网络请求到目标漫画网站，获取...
python编程实现百度贴吧爬虫爬取帖子项目
2025-07-17 09:36

其中，Python编程语言因其强大的数据处理能力和丰富的库支持，在网络爬虫领域得到了广泛的应用。百度贴吧作为中国最大的社区平台之一，拥有大量的用户生成内容，这使得它成为了数据爬取的重要目标。本项目旨在利用...
Python爬虫(小说爬取)
2025-05-12 17:47

夜思红尘的博客本文介绍了如何使用Python编写爬虫程序来爬取小说网站中的小说内容。首先，需要安装requests和bs4模块，用于发送HTTP请求和解析HTML内容。接着，通过分析目标网页的URL和HTML结构，使用BeautifulSoup库提取小说正文...
基于Python及多语言技术的小说爬取设计源码
2024-09-29 06:58

本项目提供的是一种基于Python编程语言和多语言技术的小说内容爬取设计源码。它的主要功能是高效地从互联网上抓取并解析小说内容，同时支持多种编程语言的协同工作，以达到信息获取与整理的高效率和稳定性。项目...
python音乐爬虫爬取歌曲程序.zip
2024-09-22 21:18

Python作为一门广泛应用于数据科学、网络开发、自动化脚本编写等领域的编程语言，具有简洁的语法和强大的库支持。在音乐爬虫领域，Python提供了如requests、BeautifulSoup、Scrapy等强大的库，使得开发者可以轻松...
python爬虫爬取网页数据并解析数据
2020-09-24 10:46

Python作为一门功能强大的编程语言，提供了丰富的第三方库用于网络爬虫的开发，例如requests用于发送网络请求，BeautifulSoup用于解析HTML文档等。网络爬虫的基本概念涉及到了其功能的广义性。它可以用于搜索引擎...
一个python爬虫，爬取Python官网案列
2025-07-28 17:05

而Python作为一门简洁明了的编程语言，以其强大的网络库和简洁的语法，成为了开发网络爬虫的首选语言。本文章将重点介绍一个利用Python语言编写的简单网络爬虫实例，该实例专注于爬取Python官方网站的信息，并将爬取...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科的信息。百度百科是中国最大的中文百科全书，其内容丰富、涵盖广泛，是爬虫技术学习者非常...
网页爬虫，爬取小说-python爬虫
2025-10-05 01:05

Python作为一种高级编程语言，其简洁的语法和强大的库支持使其成为开发网络爬虫的理想选择。通过使用Python，开发者可以利用各种第三方库，如Requests用于网络请求、BeautifulSoup和lxml用于解析HTML/XML文档、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月20日

python小说爬虫爬取不全

4条回答 默认 最新

一、问题分析

二、解决方案

1. 修复URL构造逻辑

2. 正确设置 User-Agent

3. 使用正确的HTML解析方法

4. 文件写入优化

5. 异常处理和调试

三、修改后的完整代码

四、重点说明

五、建议

问题事件

4条回答默认最新