我想多线程爬取笔趣阁的一部小说但是函数不执行

import re
import time
import os
import requests
from lxml import etree
from threading import Thread
import threading
from queue import Queue
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}
'''要爬取小说的网址'''
url = '

您访问的页面不存在 - 新笔趣阁 https://www.xbiquge.la/0/951/'

'这个网址是笔趣阁任意一部小说的网址'
'''对这页发起请求'''
resp = requests.get(url=url, headers=headers)
contentpage = resp.content.decode('utf-8', 'ignore')
html = etree.HTML(contentpage)
print(resp.status_code)
'''章节和内容队列+'''
titles_quenue = Queue(50)
text_urls = Queue(50)

'''定义生产者'''
'''获取数据
1.---获取小说名字
2.获取每一章的内容和标题'

title1 = html.xpath('/n//dd/a/text()')
for k in title1:
    titles_quenue.put(k)#标题
text_newurl = []
text_url2 =  html.xpath('/n//dd/a/@href')
for i in text_url2:
    j = 'https://www.biquwx.la/1_1760/' + i
    text_newurl.append(j)
for j in text_newurl:
    text_urls.put(j)

'''定义消费者'''
def consumer():

'''小说名字'''
name = re.findall('<h1>(.+?)</h1>', contentpage, re.DOTALL)[0]
print(name)
'''小说章节'''
title = titles_quenue.get()
'''小说链接--发起请求获取数据'''
text_url = text_urls.get()
resp = requests.get(url=text_url,headers =headers)
content = resp.content.decode('utf-8')
html1 = etree.HTML(content)
text = html1.xpath('//div[@id="content"]/text()')
text = "".join(text)
while len(text) == 0:
    '''如果没有内容，再次发起请求'''
    resp2 = requests.get(url=text_url, headers=headers)
    content2 = resp2.content.decode('utf-8')
    html2 = etree.HTML(content2)
    text = html2.xpath('//div[@id="content"]/text()')
    text = "".join(text)
    if len(text) != 0:
        break
if len(text) != 0:
    with open('D:\AAAA桃花青帝\Python文件\爬虫\爬取小说\{}/'.format(name) + '{}'.format(title) + '.txt', 'a', encoding='utf-8') as  f:
        f.write(text)
    print(title+'下载完成！！！！')

def multi():

#定义生产者
for i  in range(50):
    t = threading.Thread(target=producer)
    t.start()
for  j in range(50):
    t= threading.Thread(target=consumer)
    t.start()

multi()

章节链获取不到，一直卡在resp.staus的哪里，

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

唯妮 2021-09-14 11:44

关注

流程如下代码所示，但是笔趣阁服务器不咋地，也没啥太大限制的反爬，所以开50个线程基本上就是反馈503了，如果你有代理ip可以加进去，然后就是线程开少点，爬取速度限制一下，比如在每个章节获取里sleep一下。可以的话，希望能采纳！


import os
from queue import Queue
import threading
import requests
from lxml import etree


class BQG:
    def __init__(self):
        self.url_queue = Queue()
        self.prefix_url = 'https://www.biquwx.la/1_1760/'
        self.suffix_url = None
        self.dir_path = os.path.join(os.getcwd(), '武炼巅峰')
        self.create_dir()
        self.get_links()
        self.get_consumers()

    def create_dir(self):
        """创建目录"""
        if not os.path.exists(self.dir_path):
            os.mkdir(self.dir_path)

    def get_links(self):
        """获取所有url"""
        top_res = requests.get(self.prefix_url)
        top_html = etree.HTML(top_res.content.decode())
        suffix_url = top_html.xpath('//div[@id="list"]/dl/dd/a/@href')
        for i in suffix_url:
            url = self.prefix_url + i
            print(url)
            self.url_queue.put(url)

    def get_consumers(self):
        """多线程爬取"""
        for i in range(50):
            t = threading.Thread(target=self.get_content)
            t.start()

    def get_content(self):
        """获取章节内容"""
        url = self.url_queue.get()
        res = requests.get(url)
        html = etree.HTML(res.content.decode())
        title = ''.join(html.xpath('//h1/text()'))
        content = '\n'.join(html.xpath('//div[@id="content"]//text()'))
        file_path = os.path.join(self.dir_path, '{}.txt'.format(title))
        with open(file_path, 'w', encoding='utf-8') as f:
            f.write(title)
            f.write(content)


if __name__ == '__main__':
    bqg = BQG()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

我想多线程爬取笔趣阁的一部小说但是函数不执行 python
2021-09-14 08:26

回答 5 已采纳流程如下代码所示，但是笔趣阁服务器不咋地，也没啥太大限制的反爬，所以开50个线程基本上就是反馈503了，如果你有代理ip可以加进去，然后就是线程开少点，爬取速度限制一下，比如在每个章节获取里slee
Python爬取笔趣阁小说只保存第一章，哪里出错了 python
2021-04-06 12:31

回答 3 已采纳您的soup只访问了一次，就是说getinfo()这个函数一直在对第一章进行操作您可以在每次使用getinfo()这个函数时，先更改一下soup
爬取笔趣阁的小说出现错误，正则表达式和网页解码 python 爬虫
2021-08-20 17:11

回答 1 已采纳原文是双引号，你写成单引号了，所以识别不到章节目录有帮助望采纳
Python高级进阶--多线程爬取下载小说(基于笔趣阁的爬虫程序)
2024-02-11 22:55

在猴站学知识的博客本帖将详细演示爬取笔趣阁中的一本小说，将其下载到本地。内容详实，代码详解。对爬虫感兴趣的小伙伴们和新手小白都可进入学习！学会之后，可以爬取自己感兴趣的小说内容！！！
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
让字符串中的反斜杠不作为转义符号 python 有问必答
2021-06-04 22:28

回答 2 已采纳可以用字符串替换方法，先把/全部替换成空的字符，应该就能解决你的问题啦。
Python实例（爬虫第一期）Python3.7 多线程爬取笔趣阁（buquge.tv）完本小说（原创）
2020-04-28 16:28

梁峻搞Python的博客原创，未经授权请勿转载！开发基于python3.7（非Python2）； IDE是pycharm2019社区版（足够用了）；...1、代码可以将笔趣阁完本小说分栏（共800多部）每本小说的简介和章节链接爬取下来，存入本地的csv文件或者m...
使用多线程爬取笔趣阁
2019-11-06 14:22

Miles_sudo的博客今日目标：新笔趣阁的全部小说目录爬取分析：暂无任何严重反爬爬取思路： Step1：从base网页获取所有小说名字+小说链接 Step2：请求小说链接，获得章节名+章节链接 Step3：请求章节链接，获得小说内容 ...
python3.6.5爬虫之四：多线程同时爬取笔趣阁小说
2018-05-06 19:52

Rambo.Fan的博客之前爬取笔趣阁小说都是单一的一本小说，爬取多本一般也是一本爬取爬取完成再爬取下一本，本节主要是消除这个弊端，利用多线程同时爬取多本小说，这种方式比较适合，用高性能服务器来爬取数据，这个主要技巧是在之前...
爬取笔趣阁小说
2024-05-22 13:27

一笑_奈何的博客 笔趣阁小说爬虫
python爬取笔趣阁小说
2020-04-20 10:33

uukuvv的博客笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。所以可以通过python爬取文本信息保存，从而...
Python 爬虫复习之爬取笔趣阁小说网站（不用正则）
2019-02-28 18:15

WangGangdan的博客 笔趣阁是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名...
python爬取笔趣阁小说的代码微小调整修改
2021-02-21 21:23

liups的博客一、要pip install lxml和pip install lxml和requests 二、完整代码修改后如下 # -*- coding:UTF-8 -*- from bs4 import BeautifulSoup import requests, sys, ...类说明:下载《笔趣看》网小说《一念永恒》 Par..
1-4 python爬取笔趣阁小说（附带完整代码）
2019-06-19 12:18

So灬低调的博客笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。所以可以通过python爬取文本信息保存，从而...
记第一个python爬虫项目：笔趣阁小说爬取
2020-07-03 14:56

So4ms的博客最近考完试了，开始学习python爬虫，由于一些盗版小说网站几乎没有反爬机制，且网页结构简单，所以选择了小说网站笔趣阁来进行python爬虫的学习。 0X00、准备工作安装标准库lxml、requests、re和requests....
从零开始写Python爬虫 --- 1.5 爬虫实践： 笔趣阁小说批量下载
2021-07-25 11:15

安替-AnTi的博客我们的目的很明确：找到各类排行旁的的每一部小说的名字和在该网站的链接。网站分析首先观察一下网页的结构：我们很容易就能发现，每一个分类都是包裹在如下标签里 <div class="row row-rank"> 这种调理...
python+正则表达式爬取笔趣阁小说
2020-02-13 13:34

weixin_43784212的博客 python正则表达式爬取笔趣阁小说爬取笔趣阁小说算是爬虫中相对简单的部分了，这里采用正则表达式进行爬取下载。开始的时候怕被封ip就先做了一个无多线程的简易版，代码如下： import threading import time import...
xpath爬取笔趣阁小说
2020-10-25 14:12

weixin_45115418的博客 from lxml import etree ...url = 'http://www.xbiquge.la/5/5395/' # 小说连接 headers = { 'User-Agent': UserAgent().firefox } response = requests.get(url, headers=headers) # 伪装成浏览器 response.encod
python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子
2020-12-18 06:38

weixin_40007541的博客今天给大家带来一个爬虫案例，爬取糗事百科搞笑内涵段子。爬取糗事百科段⼦，假设⻚⾯的 URL 是：http://www.qiushibaike.com/8hr/page/1一、爬取要求：使⽤requests 获取⻚⾯信息，⽤XPath / re 做数据提取。获取每...
python爬虫篇（知识讲解+爬取小说）
2023-11-21 09:45

screamn的博客 GET请求的参数信息可以在URL中被看到，因此不适合传输敏感信息。GET请求可以通过浏览器直接访问和书签保存。# 发送GET请求# 获取响应数据# 处理响应数据...POST请求用于向服务器提交数据。POST请求将参数包含在请求...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月14日

悬赏问题

¥15 python-遗传算法-求最优解-程序优化
¥15 该如何接线运行这个交通灯程序？
¥15 java：opc正常字段读取时，突然出现0错误，之后恢复正常后，无法继续读取字段
¥15 c# modbustcp 汇川读写mx地址值
¥15 C# Soket UnsafeNclNativeMethods.OSSOCK.recv 错误
¥15 Ubuntu 在sudo reboot之后的报错
¥15 有偿求抢运动场地的插件
¥100 驱动程序在\device\raidport1 上检测到控制器错误
¥15 JS报错变量未定义，如何解决？
¥20 找辅导初学者想实现一个项目没有方向

我想多线程爬取笔趣阁的一部小说但是函数不执行

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新