爬虫问题,如何爬去一本免费小说 5C

python 如何爬去一整本小说,目前可以通过xpath爬取小说一章的内容,如何爬去多个章节。

目前分析得出:
第一章的内容xxx/898989/789.html
第二章的内容xxx/898989/900.html
第三章的内容xxx/898989/988.html

很变态,从789,900,到988,没有什么规律,跪求大师点拨,谢谢。如何一次搞定爬去多章。

0

9个回答

网页上总有下一章、上一章、回目录这些链接吧,先在页面上得到这里的链接,然后再爬对应的页面。

1
qq_42884258
规划弩弓 下载爬虫孤寂我给已广汇股份i543忙不过女程序模块连续年限是看吧出口段11女kvv www..app.pachong666.com
12 个月之前 回复
caozhy
贵阳挖掘机马善福,自备车辆专业挖游泳池 回复darklinboxs: 你得到html源代码,里面有下一页的链接地址(一般是一个 <a href=xxx>下一章</a>这样的标签)其中xxx就是地址。得到下一页地址,又可以得到它的html,再可以得到再下一页的地址,如此下去。
12 个月之前 回复
darklinboxs
darklinboxs 回复darklinboxs: 有好点的办法不。
12 个月之前 回复
darklinboxs
darklinboxs 有下一章的链接,关键怎么通过这个链接去爬,比如:小说有20章,我要写20个URL,要疯呀。
12 个月之前 回复

从每章的页面里肯定有下一页的链接,每次访问这个就行。
或者直接从目录的页面爬取所有章节链接,逐个访问爬取。
有些网站有防爬设置,我建议可以爬一章 或几章 等一会等待一会 再访问,这样比较稳定,我个人就是这么爬取的。

1
darklinboxs
darklinboxs 我也是这么爬的,自己解决了
11 个月之前 回复

数字不连续很正常啊,比如全站所有的文章都统一编号,那么在这个作者传某一章的间隙,有另一个作者传另一本书的某一章,那么就这个小说来说,id就不连续了。
再比如,网站可能删除了一些文章,也会造成id跳跃。所以这个不可能去找规律,也没有规律可以找。

0

数字不连续很正常啊,比如全站所有的文章都统一编号,那么在这个作者传某一章的间隙,有另一个作者传另一本书的某一章,那么就这个小说来说,id就不连续了。

0

卧槽我的答案怎么被删了,就是读第一章的地址存内容然后获取下一章的地址存内容然后继续获取下一章的地址直到没有下一章,你只需要代码里写好第一章的地址

0

1.先爬取目录所有章节url地址
2.再根据爬取到的章节url地址按顺序爬取具体内容

0

每一页应该都有上一章或者下一章的标签,根据每页下一章的标签取得URL 连续爬取,直到没有为止,爬虫最好限定间隔(通常2秒以上好点)

0
0

先爬取所有链接,再抓取每个链接下的内容,再匹配自己所需要的部分

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
爬虫|菜鸟的学习之路——爬取一本小说
前言:本次爬取的是全书网的某一本小说并以.TXT格式下载到本地。工具:python3 和 pycharmPython库:urllib.request 和 re注意:python是用3以上的版本,库可以在Windows命令提示符里输入pip install+库名第一步:1.首先我们要了解要爬取网站的页面,查看网页源代码。2.其次要想好代码的步骤和思路。#获取主页面源代码#获取章节超链接#获取小说内容...
爬虫爬取小说内容
PS:我使用的环境是Spyder(python3.6)n大概思路:小说,章节,逐层爬取信息,在以小说名建立文件夹,以章节名为名建立.tex文件,将小说内容保存到文件中。nimport requestsnfrom lxml import etreenimport osnn#设计模式---面向对象,继承,封装nclass Spider(object):n n #函数功能:请求小说网站,拿到...
初入爬虫-爬小说的代码
最近在学python爬虫 写了一个爬小说的代码(直接上代码) n首先是获取网页的urlnnimport sslnimport renimport requestsnnnssl._create_default_https_context = ssl._create_unverified_contextnnurl = 'http://www.biquge5200.cc/75_75597/'nnhead...
Python3爬取免费小说网小说
一、准备工作nnnn第一步,先查看一下python3是否有requests 和 BeautifulSoup4 这两个模块nn1) 在命令行中输入python, 进入编辑模式 n2) 输入下面指令:nnnnimport requestsnfrom bs4 import BeautifulSoupnnnn如果报错了, 请在有网络的环境在控制台下使用下面的命令nnnnpip install reques...
爬虫(一) java爬取起点中文网小说
n获取数据n1. 原生JDKnnn创建URL对象n获取连接n设置请求方式nnpost方式要打开输出流,因为参数在请求体中. conn.setDoOutput(true);nnn流的方式获取数据nnnpackage com.hrh.jdk;nnimport java.io.IOException;nimport java.io.InputStream;nimport java.io.OutputSt...
轻松上手------node.js爬虫(一部小说)
用函数式编程,编写第一个node.js的爬虫,目的是爬取笔趣看网站一部叫做元尊的小说nn代码如下:nnvar fs = require(&quot;fs&quot;);nvar cheerio = require(&quot;cheerio&quot;);nvar charset = require(&quot;superagent-charset&quot;);nvar request = charset(require(&quot;superagent&quot;));n...
超简单的JAVA爬虫爬取晋江小说的简介和评论
Java爬取晋江书城的某个分类下小说的简介和评论n写在前面,一开始是因为书荒又找不到自己喜欢的,就打算去晋江书城看看,结果排在前面的也不是我的菜,一本本挑又嫌太麻烦就打算把数据爬下来慢慢的看。分析了一下晋江的网页,发现可以爬下来的数据有书名、作者、类型、简介、标签、收藏、下载、点赞数、评论等,而我已经在晋江的网页上做过分类筛选,且萝卜白菜各有所爱,收藏和下载量高的也不能代表就是我喜欢的,所以我最
基于java的Jsoup爬取起点小说(暂时只能爬取一本)
因为爬取起点目录页找不到各个章节的url,因此只能一章一章的往下爬nn分析下起点网页htmlnnnnnnnn首先导入相关jar包 (我用的是gradle)nnnn上代码nnnurl=&quot;https://read.qidian.com/chapter/6xbxCkvMZqw1/OCcwrQf_B4Qex0RJOkJclQ2&quot;;n//伪装浏览器nDocument document = Jsoup.con...
【起点阅读】java小说爬虫
【起点阅读】java小说爬虫nn写一个可以在起点网站爬小说的爬虫n缺点就是vip无法完整的爬取n废话不多说,上代码了】nnnpom.xml 完整各种包的引用nn&amp;amp;lt;parent&amp;amp;gt;n &amp;amp;lt;groupId&amp;amp;gt;org.springframework.boot&amp;amp;lt;/groupId&amp;amp;gt;n &amp;amp;lt;artifactId&amp;amp;gt;spring-
python网络爬虫实战之爬取OJ所有问题信息
rn更多爬虫内容请关注博主的专栏python3网络爬虫rnrnimport requestsrnfrom bs4 import BeautifulSouprnimport rernrn'''rn @author: Face_to_sunrn @modify:2018-12-01rnrn'''rndef getHTMLText(url, page):rn headers = {rn 'Host'...
java小说网站爬虫
在学习java的工程中,我们总想做出一个属于自己的东西。本资源是关于java爬虫做一个自己的小说网站,十分适合新手(亲测,已做出小说网站)。该资源涉及maven的相关知识,未学到maven知识的也不要紧;另外,在写web前端的时候,可能有外部样式链接失效,该外部样式可以不必管它。
练手实例:Scrapy爬取一本完整小说
戳这里查看此小说n整体都很简单,没啥多说的,10分钟搞定n外循环在主页面找url进行拼接,小循环解析详细页内容提取小说文本。nnnnbiquge.pynimport scrapynfrom scrapy.selector import Selectornnclass BiqugeSpider(scrapy.Spider):n name = 'biquge'n allowed_domai...
爬虫-scrapy使用爬去笔趣阁小说链接+章节内容
n先放个图,休息下回来写解说nnnn
爬虫初体验-- 爬取当当书籍
爬虫初体验– Python爬虫爬取当当网书籍n简单的加入Headers伪装浏览器n存储到文件中n面向对象编程,个人写的小框架
五分钟写一个小爬虫,爬取小说并写入txt文件
先上代码:nnn#-*- coding:UTF-8 -*-nimport requestsnfrom lxml import htmlnurl='http://www.shuge.net/html/111/111781/6593021.html' #需要爬数据的网址npage=requests.Session().get(url)ntree=html.fromstring(page.text)nr...
java简单爬虫实现打印小说章节至控制台
 nn最近公司比较闲,就想着研究研究爬虫,因为平时爱看点小说,那就对小说下手吧。话不多少,上源码nn目录结构:nnnn主处理方法:nnnpackage controller;nnimport java.io.BufferedInputStream;nimport java.io.FileInputStream;nimport java.io.FileOutputStream;nimport jav...
爬取起点小说
倒霉催的熊博主又回来了,恩。。你没有看错,本熊并没有冬眠,而是在各种搞事搞事搞事(这样说话是会挨揍的)。。。我们的目标是搞事情!!!!进入正题,应用BS和正则爬取起点小说所有免费完本小说(听起来就好口怕)nnn这一篇与接下来的一篇将会是姊妹篇,先剧透下,下一篇博文同样是爬取起点小说的所有免费完本小说,区别在方法不同,bs+re   VS  scrapy 。Begin   Fight!!!
如何用爬虫爬去一张图片
这次是一只简单的爬虫, 代码只有五行, 目的是爬去一张网页上的图片nn先展示代码吧nnimport urllib.requestnnr = urllib.request.urlopen('http://image.samanlehua.com/mh/25933.jpg')nr = r.read()nwith open('picture.jpg', 'wb') as f:n f.write(r...
爬虫---爬小说案例:
爬小说案例:nfrom urllib import requestnnimport requestsnfrom bs4 import BeautifulSoupnnurl = &quot;http://www.shicimingju.com/book/rulinwaishi.html&quot;nnheaders = {'Host': 'www.shicimingju.com',n 'Connec...
python爬虫爬取小说网源码
使用python语言,通过爬虫技术,爬取qidian小说数据的源码。 python爬虫学习的必备技能,从这里开始。
运用python3 爬取盗版小说——一个最简单的爬虫
声明:本文只作为技术交流,看小说,请支持正版。n n一次在网吧玩,看到旁边人在盗版网站上网络小说,多瞄了几眼,记下了网站,既然正好在学python,就拿它练练手。这样的小说网站没有APP,只能通过网页看,而且广告非常多,当然这就是他们的盈利手段。一般这样的盗版小说的结构非常简单,直接废话不多说,开始工作。nnnn1.    获取一章的内容n这次是拿 笔趣阁http://www.biq
Python3网络爬虫:使用Beautiful Soup爬取小说
本文是http://blog.csdn.net/c406495762/article/details/71158264的学习笔记 n作者:Jack-Cui n博主链接:http://blog.csdn.net/c406495762 运行平台: OSX nPython版本: Python3.x nIDE: pycharm n一、Beautiful Soup简介    简单来说,Beautiful
Python爬虫:爬取一部自己喜欢的小说
这里不多介绍Python和爬虫,话不多说,直接开整。nn我们首先从最简单的爬虫开始学习,我知道的一个小说网站——笔趣阁(http://www.biquw.com),无须登录,无须进行header验证,而且响应返回的是标准的HTML页面,可以说是对新手非常友好了。博主建议大家,爬取网站本身就不算什么合法的行为,所以至少,给你的每次请求加上一个时间间隔,不要让人家的服务器挂掉。nn本文写于2018-1...
超简易Scrapy爬取知乎问题,标签的爬虫
上课的作业,备份一下,以免不时之需。rn知乎的问题的网页都是 https://www.zhihu.com/question/ 带8位神秘数字,我们只需要依次遍历就解决问题啦,遇到404的情况就直接跳过。用scrapy框架快速开发。rn例子:https://www.zhihu.com/question/22913650rn获取知乎问题标题的代码rntitle = response.selector.xpat...
爬取知乎的一些思路
简介:在之前的一个爬取知乎问题和答案的项目中遇到了许许多多的问题,写下此篇文章作为总结和回顾项目文章:http://blog.csdn.net/sinat_34200786/article/details/78449499模拟登录知乎模拟登录就是模拟正常登录的流程构造数据包发送给服务器,让服务器认为请求是正常操作发出的,这样我们就能达到登录的目的。那么首先我们就需要知道当点击登录按钮的时候究竟发送了
Java爬虫--页面跳转爬数据
java爬取中关村相关页面数据
Python网络爬虫(二):多线程爬取小说
这里我们爬取的小说是网站:笔趣阁,其中一本小说:一念永恒。 n(一)准备阶段 n1、网站URL:http://www.biqukan.com/1_1094/ n2、浏览器:搜狗 n3、我们打开网址,找到搜狗浏览器的审查元素(F12),可以看到标签中的内容是我们想要的小说每个章节的链接地址。 n n4、我们单击其中一个章节的链接。我们发现,每个章节的正文内容放在了 标签中。 n 有了这些了解,
爬虫实战之分布式爬取知乎问答数据
分布式爬取知乎nn一、环境nnwindow7n scrapyn pycharmn redisn other PCn MySQLn二、简介nn   之所以选择爬取知乎,一是很多人都在爬,那么一定有它爬取价值的地方;二呢分析后才发现,知乎是一个模拟登录、信息解析清洗、反反爬等较为经典的练习素材;我们在这次爬取中将会涉及到IP代理、随机更换UserAgent、scrapy-redis分布式。nn数据维度...
基于JSoup的网络爬虫爬取小说内容
网上的一些小说是可以直接看的,不需要登陆与购买,现在我们需要做的就是把这些小说的内容下载到本地。首先,准备工作: n下载JSoup的jar包,并且创建一个新的工程。 n n接下来在浏览器上找到需要下载的小说: n n这是有正文的界面,然后复制链接,作为爬取的初始链接 n代码如下:/**n * 获取链接的document对象n * @param urln * @return d
python3.5爬虫完成笔趣阁小说的爬取
本文主要是利用python3.5完成了笔趣阁小说的爬虫程序存储章节txt到本地,方便阅读。
使用python爬取小说
使用python爬虫爬取小说nn喜欢看网络小说的朋友们,经常需要从网上下载小说。有些人不想向正版网页交钱,也不想注册其他网站的账号,那么对于某些比较冷门的小说或者是正在更新的小说来说,就很难下载到txt或者其他格式的小说。我就是不想花太多时间找冷门小说的下载资源,因此稍微学习了python的爬虫知识。nnnn新建scrapy爬虫项目nnscrapy是python的爬虫框架。使用以下语句安装scra...
爬虫爬取小说具体章节
一   因为要爬取的网站比较简单也没有反爬机制,所以话不多说,直接看代码nnn#!/usr/bin/python n#coding:utf-8 ...
爬虫练习一,爬取京东图片
爬虫入门小项目,爬取京东的图片。还不会处理动态加载,只是简单的爬取图片和名称。#-*- coding: utf-8 -*-nfrom urllib import requestnfrom urllib import errornimport chardetnimport redef crawler(urladdr,page,img_id):n urladdr = urladdr + str(
初探scrapy(用scrapy爬取一部小说)
讲起来我跟笔趣看真有不解之缘,之前刚学习python时就是用笔趣看作为试验网站,现在刚接触scrapy框架也是用它来练手。今天说的是用scrapy爬取一步小说 n假设你已经安装了scrapy!第一步:创建一个scrapy’项目 n在命令行输入n scrapy startproject biqukanproject n 这样就创建了一个scrapy项目n第二步:在项目内创建一个爬虫 n在项目命令行
初学者教程:第一只爬虫——爬取招聘信息(三)
在前面两篇教程中,我们学习了如何从网上爬取信息。下面我们会迎来最激动人心的时刻:训练一个model,让它自动分类数据。nn由于是面向初学者的教程,这里暂时不对算法进行更详细的介绍。感兴趣的话可以阅读[逻辑回归]。nn我们使用的函数库是Dato家的Graphlab Creat(https://dato.com/products/create/),非商业的个人和学生可以申请免费使用。当然,也可以使用其它的库。这样,我们就不关心算法具体的实现,把它当成一个黑盒子,仅仅关心数据的处理。
python 爬虫爬去虾米音乐 赵雷歌词
#/usr/bin/env pythonrn# *-*coding:utf-8 *-*rnrnrn#python 3 爬取赵雷歌词rn"""rn"""rnrnfrom collections import Counterrnfrom urllib import requestrnfrom bs4 import BeautifulSoup as BSrnimport jiebarnimport os
Python爬虫之爬取动态页面数据
很多网站通常会用到Ajax和动态HTML技术,因而只是使用基于静态页面爬取的方法是行不通的。对于动态网站信息的爬取需要使用另外的一些方法。n先看看如何分辨网站时静态的还是动态的,正常而言含有“查看更多”字样或者打开网站时下拉才会加载内容出来的进本都是动态的,简便的方法就是在浏览器中查看页面相应的内容、当在查看页面源代码时找不到该内容时就可以确定该页面使用了动态技术。n对于动态页面信息的爬取,一
Java爬虫历险记 -- (1)爬取百度首页的logo
Java爬虫历险记 – (1)爬取百度首页的logo在这篇文章里,介绍两种方式来获取百度网页的logo: (1)Httpclient (2) jsoup + Httpclient ,详细的运行结果可以参看文章末的参考资料。代码使用的.jar包,如下图: n n第一种:只使用Httpclientimport java.io.BufferedOutputStream;nimport java.io
Python Scrapy爬虫爬取微博和微信公众号热门消息
爬取微博需要以字典的形式设置自己的cookie。用于初学者学习,分别用了bf4和xpath,数据处理还不完善,存入了mysql数据库,改写sql语句就可以写入自己的表中
python爬虫:爬去Json响应内容(第六感别墅度假别墅列表)学习笔记
# -*- coding: utf-8 -*-rn"""rnCreated on Sat Oct 22 21:01:23 2016rnrnrn@author: hhxsymrn"""rnrnrnimport requestsrnimport jsonrnimport osrnrnrninpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"rninpath =
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python爬去学校排名 python爬去携程航班