python爬虫爬取小说网站

可以帮我把代码改进一下吗？加一个翻页爬取和爬取第11页后面的，网页要验证登入才可以
我要爬取1000页的数据


# -*- coding: utf-8 -*-
from urllib import request
from bs4 import BeautifulSoup
from lxml import etree
import csv
def initUrs():
    urls = [
        'https://www.jjwxc.net/bookbase.php?fw0=0&fbsj0=0&xx0=0&mainview0=0&sd0=0&lx0=0&fg0=0&bq=-1&sortType=4&isfinish=0&collectiontypes=ors&searchkeywords=&page=12']
    return urls
def get(urls):
    for url in urls:
        try:
            data = request.urlopen(url).read().decode('gb18030')
            pData = parse(data)
            out(pData)
        except request.HTTPError as e:
            print(f"HTTP error: {e}")
        except request.URLError as e:
            print(f"URL error: {e}")
        except etree.XPathSyntaxError as e:
            print(f"XPath syntax error: {e}")
        except Exception as e:
            print(f"An error occurred: {e}")
def parse(data):
    pData = etree.HTML(data)
    items = pData.xpath('//tr')[1:]
    itemDatas = []
    for item in items:
        itemData = {}
        tds = item.xpath('./td')
        texts = tds[0].xpath('./a//text()')
        itemData['作者'] = '' if (len(texts) == 0) else texts[0]
        texts = tds[1].xpath('./a//text()')
        itemData['书名'] = '' if (len(texts) == 0) else texts[0]
        texts = tds[2].xpath('.//text()')
        itemData['类型'] = '' if len(texts) == 0 else texts[0].strip().replace('\n', '')
        # .replace('-', '') 去除 原创-纯爱-近代现代-剧情 中的-
        texts = tds[3].xpath('./font//text()')
        itemData['进度'] = '' if (len(texts) == 0) else texts[0]
        texts = tds[4].xpath('.//text()')
        itemData['字数'] = '' if (len(texts) == 0) else texts[0]
        texts = tds[5].xpath('.//text()')
        itemData['积分'] = '' if (len(texts) == 0) else texts[0]
        itemDatas.append(itemData)
    return itemDatas
# 输出并且保存为csv文档
def out(data):
    print(data)
    with open('xiaoshuo3.csv', 'w',encoding='utf-8',newline='') as f:
        csvf = csv.DictWriter(f, fieldnames=['作者', '书名', '类型','进度','字数','积分'])
        csvf.writeheader()
        csvf.writerows(data)
get(initUrs())

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2023-11-07 17:20
关注
def initUrs(): urls = [ f'https://www.jjwxc.net/bookbase.php?fw0=0&fbsj0=0&xx0=0&mainview0=0&sd0=0&lx0=0&fg0=0&bq=-1&sortType=4&isfinish=0&collectiontypes=ors&searchkeywords=&page={i}' for i in range(1, 1000) ] return urls
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬虫爬取小说（供学习使用）
2023-02-03 10:57

Python爬虫技术是一种用于自动化网络数据抓取的编程方法，尤其在处理大量文本信息时，如小说网站的数据，显得尤为实用。在这个项目中，我们利用Python来爬取蚂蚁**网上的小说内容，供学习和研究使用。这个过程涉及到...
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取网页数据并解析数据
2020-09-24 10:46

Python作为一门功能强大的编程语言，提供了丰富的第三方库用于网络爬虫的开发，例如requests用于发送网络请求，BeautifulSoup用于解析HTML文档等。网络爬虫的基本概念涉及到了其功能的广义性。它可以用于搜索引擎...
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬虫爬取智联招聘
2018-05-29 16:44

在本篇文章中，作者王强介绍了如何使用Python语言开发爬虫程序，用以从智联招聘网站中爬取职位信息。文章分为基础版和进阶版两个部分。基础版详细介绍了构建URL、使用urllib库的urlencode函数、requests库的使用以及...
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
Python实现某网站爬取小说（爬虫）
2023-07-11 10:58

kukuromi的博客 Python实现某网站爬取小说（爬虫）
python爬虫爬取小说-31-多for实现列表推导式.ev4.rar
2023-10-18 22:31

本教程“python爬虫爬取小说-31-多for实现列表推导式”将深入探讨如何利用列表推导式来处理爬取的小说数据。一、列表推导式基础列表推导式是Python中的一个语法特性，允许我们用一行代码生成新的列表。它的基本...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月7日

悬赏问题

¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错
¥15 模电中二极管，三极管和电容的应用
¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
¥15 气象网格数据与卫星轨道数据如何匹配
¥100 java ee ssm项目悬赏，感兴趣直接联系我
¥15 微软账户问题不小心注销了好像
¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused

python爬虫爬取小说网站

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新