Python爬虫爬取微信小说

https://weread.qq.com/web/category/100000
https://weread.qq.com/web/category/200000
Python爬虫爬取微信小说的指定字段，书名、作者、阅读人数、评价、简介，爬取10万条数据。求解

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

7*24 工作者 2023-10-08 14:53

关注

简单的python示例代码就是

import requests
from time import sleep
data = {}

url = 'https://weread.qq.com/web/bookListInCategory/100000?maxIndex={}'
headers = {
    "Accept":"application/json, text/plain, */*",
    "authority":"weread.qq.com",
    "Referer":"https://weread.qq.com/web/category/200000",
    "Sec-Ch-Ua":'"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    "Sec-Ch-Ua-Platform":'"Windows"',
    "Sec-Fetch-Dest":"empty",
    "Sec-Fetch-Mode":"cors",
    "Sec-Fetch-Site":"same-origin",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}


for i in range(0,201,20):
    # 因为url是动态变化请求，根据滚轮位置
    result = requests.get(url.format(str(i)),headers=headers).json()['books']
    sleep(2)   #主要是防止IP被封掉，时间还可以延长一些
    # 书名、作者、阅读人数、评价、简介
    for item in result:
        info = item.get('bookInfo')
        title = info.get('title','')
        author = info.get('author','')
        readingCount = item.get('readingCount',0)  #阅读人数
        newRating = info.get('newRating',0)   #推荐值，评价还需要进入到详情页里面去，暂时没有做
        intro = info.get('intro','')   #简介
        if title in data.keys():
            continue
        else:
            data[title] = {
                '书名':title,
                '作者':author,
                '阅读人数': readingCount,
                '推荐值':newRating,
                '简介':intro.strip()
            }


print(data)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
2020-12-07 13:36

weixin_39742392的博客另一部分主要的技术内容是风控系统的构建，这部分主要使用python。作者本人主要从事数据分析、风控建模等工作，团队大部分成员和作者之前都有从事手机游戏数据平台搭建、数据分析、BI等方面经历。对...
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
Python爬虫爬取微信朋友圈
2020-12-01 12:28

liming89的博客接下来，我们将实现微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 来监听微信朋友圈的接口数据，这是无法实现爬取的，因为数据都是被加密的。而 Appium 不同，Appium 作为一个自动化测试工具可以直接...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python爬取微信小程序数据,python爬取小程序数据
2024-07-12 16:48

2401_86114424的博客最近需要获取微信小程序上的数据进行分析处理，第一时间想到的方式就是采用python爬虫爬取数据，尝试后发现诸多问题，比如无法获取目标网址、解析网址中存在指定参数的不确定性、加密问题等等，经过一番尝试，终于...
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
python爬取微信聊天记录数据_[使用案例]python如何爬取微信好友信息？（上）
2020-12-02 13:53

weixin_39765625的博客 Python3如何爬取微信好友基本信息，并且进行数据清洗?下面跟着IP海带来的教程，我们一起看看具体的操作要怎么实现。1、登录获取好友基础信息：好友的获取方法为get_friends，将会返回完整的好友列表。其中每个好友为...
基础入门学习Python爬取微信公众号文章、标题、文章地址
2022-02-10 14:38

一个锅饼的博客相关的数据加载出来，就有关于数据包，包含了文章标题，链接，摘要，发布时间等等，也可以选择其他的公众号也可以爬取的，但是这需要你有一个微信公众号。要加cookie import pprint import time import requests ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月8日

悬赏问题

¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错
¥15 模电中二极管，三极管和电容的应用
¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
¥15 气象网格数据与卫星轨道数据如何匹配
¥100 java ee ssm项目悬赏，感兴趣直接联系我
¥15 微软账户问题不小心注销了好像
¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused

Python爬虫爬取微信小说

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新