Python爬虫|爬取小说|为什么爬取不出来


import json
import re

import requests
import os
import sys
import traceback
sys.tracebacklimit=0
url='https://www.qb5200.la/book/116524/'
ajax_url='https://pagead2.googlesyndication.com/getconfig/sodar?sv=200&tid=gda&tv=r20230718&st=env'
headers={
':authority: pagead2.googlesyndication.com',
':method: GET',
':path: /getconfig/sodar?sv=200&tid=gda&tv=r20230718&st=env',
':scheme: https',
'accept: */*',
'accept-encoding: gzip, deflate, br',
'accept-language: zh-CN,zh;q=0.9',
'origin: https://www.qb5200.la',
'referer: https://www.qb5200.la/',
'sec-ch-ua: ";Not A Brand";v="99", "Chromium";v="94"',
'sec-ch-ua-mobile: ?0',
'sec-ch-ua-platform: "Windows"',
'sec-fetch-dest: empt',
'sec-fetch-mode: cors',
'sec-fetch-site: cross-site',
'user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
}
start_url=requests.get(url,headers=headers).content.decode('gbk','ignore')
ajax_urlz=requests.get(ajax_url,headers=headers).content.decode('gbk','ignore')

def get_toc(html):

      toc_url_list=[]
      toc_block=re.findall('<dl class="zjlist>(.*?)</dl>',html,re.S)[0]
      toc_url=re.findall('href="(.*?)"',toc_block,re.S)
      for url in toc_url:
         toc_url_list.append(start_url+url)
         return toc_url_list
def get_article(html):
     chapter_name=re.search('<div class="border">(.*?)</div>',html,re.S).group(1)
     chapter_namez=chapter_name.select('h1:nth-of-type(1)')
     text_block=re.search('<div id="content">(.*?)</div>',html,re.S).group(1)
     text_block=text_block.replace('<br>','')
     return chapter_namez,text_block
def save(chapter_namez,text_block):
     os.makedirs('星门',exist_ok=True)
     with open(os.path.join('星门',chapter_namez+'.txt'),'w',encoding='gbk')as f:
         f.write(text_block)

修改后还是爬不出来

import json
import re
import requests
import os
import sys
import traceback

sys.tracebacklimit = 0

url = 'https://www.qb5200.la/book/116524/'
ajax_url = 'https://pagead2.googlesyndication.com/getconfig/sodar?sv=200&tid=gda&tv=r20230718&st=env'

headers = {
    'authority': 'pagead2.googlesyndication.com',
    'method': 'GET',
    'path': '/getconfig/sodar?sv=200&tid=gda&tv=r20230718&st=env',
    'scheme': 'https',
    'accept': '*/*',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'origin': 'https://www.qb5200.la',
    'referer': 'https://www.qb5200.la/',
    'sec-ch-ua': '";Not A Brand";v="99", "Chromium";v="94"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'cross-site',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
}

start_url = requests.get(url, headers=headers).content.decode('gbk', 'ignore')
ajax_urlz = requests.get(ajax_url, headers=headers).content.decode('gbk', 'ignore')


def get_toc(html):
    toc_url_list = []
    toc_block = re.findall('<dl class="zjlist>(.*?)</dl>', html, re.S)[0]
    toc_url = re.findall('href="(.*?)"', toc_block, re.S)
    for url in toc_url:
        toc_url_list.append(start_url + url)
    return toc_url_list


def get_article(html):
    chapter_name = re.search('<div class="border">(.*?)</div>', html, re.S).group(1)
    chapter_name = chapter_name.select('h1:nth-of-type(1)')
    text_block = re.search('<div id="content">(.*?)</div>', html, re.S).group(1)
    text_block = text_block.replace('<br>', '')
    return chapter_name, text_block


def save(chapter_namez, text_block):
    os.makedirs('星门', exist_ok=True)
    i = 0;
    while i < 627 in chapter_namez:
        i += 1;
        chapter_name = chapter_namez[i]
        if chapter_name:
            break
        else:
            'Unknown_Chapter_Name'
    with open(os.path.join('星门', chapter_namez + '.txt'), 'w', encoding='gbk') as f:
        f.write(text_block)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

cjh4312 2023-07-20 12:56

关注

爬虫用xpath，比re好使

import requests
from lxml import etree

url='https://www.qb5200.la/book/116524/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

res=requests.get(url,headers=headers)
html=etree.HTML(res.text)
chapter_name=html.xpath("//*/dl[@class='zjlist']/dd//text()")
href=html.xpath("//*/dl[@class='zjlist']/dd/a/@href")
base_url="https://www.qb5200.la/book/116524/"
for i in range(len(chapter_name)):
    print(chapter_name[i],base_url+href[i])
    data=requests.get(base_url+href[i],headers=headers)
    html=etree.HTML(data.text)
    content=html.xpath("//*/div[@id='content']//text()")
    print(content)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(7条)

报告相同问题？

关注问题

python爬虫——爬取小说
2022-07-29 20:04

m0_67401228的博客深知大多数初中级java工程师，想要升技能，往往是需要自己摸索成长或是报班学习，但对于培训机构动则近万元的学费，着实压力不小。因此我收集了一份《java开发全套学习资料》送给大家，初衷也很简单，就是希望帮助到...
Python爬虫 | 爬取豆瓣电影Top250的数据
2024-11-08 10:41

聪明的墨菲特i的博客简单记录一下，实现爬取豆瓣电影Top 250的数据。
基于Python和JavaScript的招聘网站爬虫数据爬取设计源码
2024-10-11 03:15

在当前网络信息时代，数据爬取作为一项基础而关键的技术，已经广泛应用于各个领域。该项目是一个针对招聘网站的数据爬取系统，其核心在于实现自动化地从互联网上的招聘网站提取各类信息。系统采用Python语言进行后端...
python爬虫，爬取网站数据；生成二维码；代码雨；照片墙等
2022-02-27 08:50

1. **Python爬虫**：Python中的网络爬虫是通过编写程序模拟浏览器行为，自动抓取网页内容的技术。常用的库有`requests`用于发送HTTP请求，`BeautifulSoup`或`lxml`用于解析HTML和XML文档，`re`进行正则表达式匹配，...
Python爬虫:从后端分析为什么你爬虫爬取不到数据
2023-06-08 21:44

坚持不懈的大白的博客最简单的爬虫代码也就是各位最常使用的，直接利用requests模块访问当前网站链接，利用相关解析模块从而获取得到自己想要的数据，如下(利用python爬虫爬取自己csdn个人主页的简介数据)： # -*- coding: utf-8 -*- ...
Python网络爬虫爬取数学建模论文
2023-01-18 07:01

本资源旨在基于Python语言使用网络爬虫爬取2019年高教社杯全国大学生数学建模竞赛优秀答题稿。代码中使用到的第三方库有： os、shutil、pathlib、request、re、BeautifulSoup: os模块主要用来发送HTTP请求。 ...
Pyspider框架——Python爬虫实战之爬取V2EX网站帖子
2021-02-20 14:41

Pyspider框架学习时走过的一些坑我所遇到的一些错误：首先，本爬虫目标：使用Pyspider框架爬取V2EX网站的帖子中的问题和内容，然后将爬取的数据保存在本地。V2EX中大部分的帖子查看是不需要登录的，当然
python爬取北京连家租房数据，可运行的python程序，打开你的爬虫之旅
2022-05-09 15:43

同时也可以关注我，以后会发一些更加神奇的程序，并且不仅仅是python爬虫，还有flask框架、数据算法、数据可视化、matlibplot、pyecharts、以及软件开发、数据库的操作、hadoop、spark等等。欢迎大家前去关注，将来...
python爬取自如租房网站租房数据最详细的讲解
2023-03-30 09:05

详细的讲解为你指引爬虫学习道路上前进的方向，也可以为学习过python的同学但是不熟练的同学梳理思路，以便于之后对python爬虫又更深的理解，同时也可以学的更好。这会是广大python学习爬虫的一大“利器”，辅助你在...
Python爬虫教程：爬取热点新闻数据
2025-03-12 23:25

Python爬虫项目的博客通过本篇博客，我们介绍了如何使用 Python 爬虫爬取新闻网站的数据，重点介绍了如何应对静态页面和动态页面的爬取，如何应对反爬虫机制以及如何使用 Scrapy 框架高效地抓取新闻数据。掌握这些技术后，你可以构建自己...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月20日
展开全部

Python爬虫|爬取小说|为什么爬取不出来

8条回答 默认 最新

问题事件

8条回答默认最新