python爬取小说的代码没有执行循环

想爬取这个网站的小说章节

import requests

from bs4 import BeautifulSoup

if name == 'main':
url = 'http://guoxue.lishichunqiu.com/gdxs/sanguoyanyi/' #对首页数据进行爬取
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ('
'KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27'}
page_text = requests.get(url=url,headers=headers).text
#在首页中解析出章节的标题和详情页的url
#1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
soup = BeautifulSoup(page_text,'lxml')
#解析章节标题和详情页url
li_list = soup.select('body > table:nth-child(8) > tbody > tr > td > table.box.no_doc > tbody > tr > td')
fp = open('./sanguo.txt','w',encoding='utf-8')
for li in li_list:
title = li.a.string
detail_url = li.a['href']
print(detail_url)
#对详情页发起请求，解析出章节内容
detail_page_text = requests.get(url=detail_url,headers=headers).text
#解析出详情页相关的章节内容
detail_soup = BeautifulSoup(detail_page_text,'lxml')
div_tag = detail_soup.find('div',id='content')
#解析到了章节的内容
content = div_tag.text
fp.write(title+':'+content+'\n')
print(title,'ok')

运行结果是只爬取了第一章，没有循环

试了url没什么问题，就是循环不执行，可能是title = li.a.string这条出了问题，但是我不知道怎么改

想要他执行循环爬取所有章节

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

梦里逆天 2022-09-08 12:35

关注

这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。


import requests
from bs4 import BeautifulSoup

if __name__ == '__main__':
    url = 'http://guoxue.lishichunqiu.com/gdxs/sanguoyanyi/'  # 对首页数据进行爬取
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ('
                             'KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27'}
    page_text = requests.get(url=url, headers=headers).text
    # print(page_text)
    # 在首页中解析出章节的标题和详情页的url
    # 1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text, 'lxml')
    # 提取含标题及链接的a标签
    list1 = soup.select('table.line_bottom > tbody > tr > td > table > tbody > tr > td > a')
    # print(list1)
    with open('./sanguo.txt', 'w', encoding='utf-8') as fp:
        for li in list1:
            # print(li)
            # 解析章节标题和详情页url
            title = li['title']
            detail_url = li['href']
            print(title, detail_url)
            # 对详情页发起请求，解析出章节内容
            detail_page_text = requests.get(url=detail_url, headers=headers).text
            # 解析出详情页相关的章节内容
            detail_soup = BeautifulSoup(detail_page_text, 'lxml')
            div_tag = detail_soup.find('div', id='content')
            # 解析到了章节的内容
            content = div_tag.text
            fp.write(title + ':' + content + '\n')
            print(title, 'ok')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬取小说的代码没有执行循环 python 开发语言爬虫
2022-09-07 22:06

回答 1 已采纳这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。 import requests from bs4 import BeautifulSoup if __name__ == '__m
python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
python爬取github代码时无法获得作者名和库名 github python 爬虫
2022-11-13 00:01

回答 2 已采纳你这就没获取到信息。肯定得不到需要cookie信息的。否则你得不到信息
Python爬虫实战 | 爬取网络中的小说
2023-09-21 18:30

爱编程的小辞的博客网络文学是新世纪我国流行文化中的重要领域，年轻人对网络小说更是有着广泛的喜爱。本文以抓取网络小说正文为例编写一个简单、实用的爬虫脚本。
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬图片，代码没报错但是没有结果 python
2022-06-29 05:32

回答 2 已采纳直接运行这个脚本文件的话，图片并不是存在桌面上。而是在这个py文件同目录下，即“C:/Users/AUB/Desktop/Final Year/Python 练习/p54爬虫”
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
利用Python爬取小说（附源码）
2023-06-10 15:56

程序员源源的博客利用Python爬取小说（附源码）
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
怎么用python爬取network里面网页代码没有的网址，不用手动查看的 python
2022-02-19 08:16

回答 3 已采纳 import datetime import random import time import re from selenium.webdriver.chrome.options import O
python爬取的内容想添加到代码里面 python
2022-01-07 14:44

回答 6 已采纳 Python有两个相关的东西，一个叫eval，一个叫exec。它们可以实现执行字符串中的代码（不同的是eval不支持复杂代码）。不够是吧？对不起，我们还有一个叫runfile的东西。Debugger
学会用Python爬取小说网站，想看什么就爬什么，广告也不用看了~
2023-12-15 10:33

程序员晓晓的博客之后，我们还可以用 jieba 库对这个 txt 文档进行词频的统计，获得这本小说的高频词汇等信息，这也是一件非常有意思的事，这个下次我再写一篇如何使用 jieba 库。Python所有方向的技术点做的整理，形成各个领域的...
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
喜马拉雅音频文件爬取python
2024-02-25 18:19

能学到什么：①python爬取喜马拉雅音频文件，修改专辑id即可。②循环依赖都是如何设计和实现的。阅读建议：此资源不仅是代码编写实现也更注重内容上的需求分析和方案设计，所以在学习的过程要结合这些内容一起来...
python爬取股票数据——基础篇
2023-11-03 15:09

程序员晓晓的博客这里需要注意，baostock爬取的股票复权数据采用的是涨跌幅复权法，这种方式计算的股票复权价与你的股票交易软件计算的结果是不同的。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月7日

悬赏问题

¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan