【Python|爬虫】如何爬取下一页

小说只爬取了59章还有其他目录页没有爬取，
目录页总共11页只爬取了1页

```python
import requests
from lxml import etree
 
url='https://www.qb5200.la/book/116524/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
 
res=requests.get(url,headers=headers)
html=etree.HTML(res.text)
chapter_name=html.xpath("//*/dl[@class='zjlist']/dd//text()")
href=html.xpath("//*/dl[@class='zjlist']/dd/a/@href")
base_url="https://www.qb5200.la/book/116524/"
for i in range(len(chapter_name)):
    
    data=requests.get(base_url+href[i],headers=headers)
    html=etree.HTML(data.text)
    content=html.xpath("//*/div[@id='content']//text()")
    with open(f'e:/123/{chapter_name[i]}.txt', 'w',encoding="utf-8") as f:
        for d in content:
            f.write(d.replace("\xa0\xa0\xa0\xa0",'\n'))

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

cjh4312 2023-07-23 14:51

关注

很简单加个循环就行了


import requests
from lxml import etree
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

for n in range(1,12): 
    url=f'https://www.qb5200.la/book/116524/index_{n}.html'
    res=requests.get(url,headers=headers)
    html=etree.HTML(res.text)
    chapter_name=html.xpath("//*/dl[@class='zjlist']/dd//text()")
    href=html.xpath("//*/dl[@class='zjlist']/dd/a/@href")
    base_url="https://www.qb5200.la/book/116524/"
    for i in range(len(chapter_name)):
        data=requests.get(base_url+href[i],headers=headers)
        html=etree.HTML(data.text)
        content=html.xpath("//*/div[@id='content']//text()")
        with open(f'e:/123/{chapter_name[i]}.txt', 'w',encoding="utf-8") as f:
            for d in content:
                f.write(d.replace("\xa0\xa0\xa0\xa0",'\n'))
        print(f'"{chapter_name[i]}" 保存完毕')
        f.close()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(2条)

报告相同问题？

关注问题

超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
Python爬虫：爬取2023中国软科大学排行榜
2024-01-16 23:55

**Python爬虫：爬取2023中国软科大学排行榜** 在信息技术高速发展的今天，数据已经成为企业、研究机构和个人决策的重要依据。Python作为一种强大的编程语言，因其简洁易学的语法和丰富的第三方库，尤其在数据抓取和...
Python爬虫(小说爬取)
2025-05-12 17:47

夜思红尘的博客本文介绍了如何使用Python编写爬虫程序来爬取小说网站中的小说内容。首先，需要安装requests和bs4模块，用于发送HTTP请求和解析HTML内容。接着，通过分析目标网页的URL和HTML结构，使用BeautifulSoup库提取小说正文...
python爬虫爬取github项目里的评论.zip
2024-01-20 20:18

【Python爬虫爬取GitHub项目评论】：在Python编程领域，爬虫技术是获取网络数据的重要手段，尤其在处理像GitHub这样的大型平台时，爬虫能够帮助我们自动化地收集和分析大量的公开信息，如项目评论。这个项目的核心是...
Python爬虫—爬取微博评论数据
2023-12-09 09:49

白帽黑客艾登的博客 Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，...
Python实现某网站爬取小说（爬虫）
2023-07-11 10:58

f12sec的博客 Python实现某网站爬取小说（爬虫）
Scrap爬虫框架，使用python编程实现
2024-10-03 13:52

Python作为一种广泛使用的高级编程语言，因其简洁的语法和强大的功能库，在编写网络爬虫方面表现出色。Scrapy是Python中最著名的爬虫框架之一，它是一个快速、高层次的屏幕抓取和网页抓取框架，用于抓取网站并从页面...
Python爬虫项目之爬取知乎数据.zip
2024-05-30 06:00

总结来说，Python爬虫项目爬取知乎数据涉及到的关键知识点包括：Python基础知识、HTTP协议、requests库、HTML解析（BeautifulSoup/PyQuery）、网页动态加载处理（Selenium）、模拟登录、分页爬取、数据存储（pandas/...
Python爬虫-爬取药膳食谱数据
2024-04-06 10:18

一只程序猿子的博客本文将介绍如何编写Python爬虫，爬取心食谱网站的一些与药膳相关的食谱信息，当然，通过修改对应食谱的URL，可以爬取其他食谱信息。爬取到的数据可用于数据分析和可视化，适用于学年设计或者毕设的数据来源。
Python爬虫实例：爬取豆瓣电影TOP250
2024-04-28 21:28

这个实例不仅可以帮助我们学习Python爬虫技术，还能让我们实际操作，体验从数据抓取到数据处理的全过程，提升我们的编程能力。同时，这也是一个生活娱乐的实用案例，可以用于个人兴趣的电影推荐系统开发。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月23日

【Python|爬虫】如何爬取下一页

3条回答 默认 最新

问题事件

3条回答默认最新