Python：百度vip文档爬取报错，如何解决？

各位大lao们，please！
我想爬取百度文库的vip内容，但是他报错了，报错内容如下：

Traceback (most recent call last):
  File "C:\Users\煎饼狗子\Documents\Python\百度vip.py", line 59, in <module>
    get_num(url)
  File "C:\Users\煎饼狗子\Documents\Python\百度vip.py", line 14, in get_num
    "md5sum": result.group(1),
AttributeError: 'NoneType' object has no attribute 'group'

源代码

import requests
import re
import json
headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36"
}  # 模拟手机
 
 
def get_num(url):
    response = requests.get(url, headers=headers).text
    result = re.search(
        r'&md5sum=(.*)&sign=(.*)&rtcs_flag=(.*)&rtcs_ver=(.*?)".*rsign":"(.*?)",', response, re.M | re.I)  # 寻找参数
    reader = {
        "md5sum": result.group(1),
        "sign": result.group(2),
        "rtcs_flag": result.group(3),
        "rtcs_ver": result.group(4),
        "width": 176,    
        "type": "org",
        "rsign": result.group(5)
    }
 
    result_page = re.findall(
        r'merge":"(.*?)".*?"page":(.*?)}', response)  # 获取每页的标签
    doc_url = "https://wkretype.bdimg.com/retype/merge/" + url[29:-5]  # 网页的前缀
    n = 0
    for i in range(len(result_page)):  # 最大同时一次爬取10页
        if i % 10 == 0:
            doc_range = '_'.join([k for k, v in result_page[n:i]])
            reader['pn'] = n + 1
            reader['rn'] = 10
            reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_10' % (
                reader.get('pn'))
            reader['range'] = doc_range
            n = i
            get_page(doc_url, reader)
    else:  # 剩余不足10页的
        doc_range = '_'.join([k for k, v in result_page[n:i + 1]])
        reader['pn'] = n + 1
        reader['rn'] = i - n + 1
        reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_%s' % (
            reader.get('pn'), reader.get('rn'))
        reader['range'] = doc_range
        get_page(doc_url, reader)
 
 
def get_page(url, data):
    response = requests.get(url, headers=headers, params=data).text
    response = response.encode(
        'utf-8').decode('unicode_escape')  # unciode转为utf-8 然后转为中文
    response = re.sub(r',"no_blank":true', '', response)  # 清洗数据
    result = re.findall(r'c":"(.*?)"}', response)  # 寻找文本匹配
    result = '\n'.join(result)
    print(result)
 
if __name__ == '__main__':
    #url = "https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html"
    url = "https://wenku.baidu.com/view/3e1bb7c3fad6195f302ba6c8.html?rec_flag=default&sxts=1562641356908"
    get_num(url)

有缘还请请教，万分感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-司宇[在线] 2024-07-28 10:07
关注
引自免费微信小程序：皆我百晓生

从报错信息来看，问题出在尝试从返回的文本中搜索特定的模式并获取组时，返回的文本中没有找到匹配的模式，因此返回了None，而你在尝试调用None的group方法时出现了错误。具体来说，问题出在以下这行代码中：

result = re.search(r'&md5sum=(.*)&sign=(.*)&rtcs_flag=(.*)&rtcs_ver=(.*?)".*rsign":"(.*?)",', response, re.M | re.I)

你需要检查你的正则表达式是否正确匹配了你想要抓取的数据的格式。此外，由于网络环境和网页结构的变化，返回的数据可能也会发生变化，因此正则表达式可能需要更新以适应新的数据格式。你可以尝试以下步骤来解决这个问题：

检查你的正则表达式是否正确匹配了你想要抓取的数据的格式。你可以尝试在Python中使用正则表达式的测试工具来验证你的正则表达式是否正确。如果你的正则表达式不能正确匹配你试图抓取的数据，那么你需要更新你的正则表达式以匹配新的数据格式。
由于网页结构可能会发生变化，你可能需要定期检查你的代码以确保它能够正常工作。如果网页结构发生了变化，你可能需要更新你的代码以适应新的结构。这可能包括更新你的正则表达式、URL或其他参数。
你可能需要使用更复杂的网络爬虫技术来抓取数据，例如使用Selenium或Pyppeteer来模拟浏览器行为，这样可以避免由于反爬虫策略导致的问题。这种方法通常比使用requests和正则表达式更复杂，但也可以更有效地处理动态网页和数据反爬虫策略。

此外，从你提供的代码中看，这段代码可能是用于爬取百度文库VIP内容的。我要提醒你的是，爬取网站内容可能涉及到版权问题，你需要确保你有权进行这样的操作。同时，频繁的爬取可能会对网站服务器造成压力，可能会导致你的IP被封禁。在进行网络爬虫操作时，请务必遵守网站的爬虫政策和相关法律法规。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求指导：pygame.error: video system not initialized报错处理？ pygame python
2022-04-23 16:27

回答 1 已采纳 class AlineInvasion: def __int__(self): pygame.init() 这里的__int__改成__init__
Python：RuntimeError报错是为什么？ pycharm python
2022-10-07 21:08

回答 2 已采纳参考https://blog.csdn.net/qq_27149279/article/details/106037681，改成net.load_state_dict(torch.load(model
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
【Python爬虫实战入门】：笔趣阁小说爬取，一篇教你爬虫入门
2024-07-16 18:59

爱喝兽奶的荒天帝的博客 requests简介requests模块官方文档requests 是 Python 编程语言中一个常用的第三方库，它可以帮助我们向 HTTP 服务器发送各种类型的请求，并处理响应。向 Web 服务器发送 GET、POST 等请求方法；在请求中添加自定义...
python爬虫动态网页爬取报错 python 爬虫
2022-11-22 23:06

回答 2 已采纳 news 数据获取错误 import requests import json url = 'https://www.ptpress.com.cn/newsInfo/getCurrentAffairs
python使用pyinstaller封装EXE的时候报错解决？ python 有问必答
2021-06-25 15:53

回答 1 已采纳之前的电脑也是用虚拟环境打包的吗？你的程序是读取python 的模块和包的路径吧？
python import调用自己创建的函数报错，如何解决？ python 开发语言
2022-07-06 09:38

回答 1 已采纳。。。。。你在inheritance.py中是导入student类，不是继承。student没有print_name方法啊；你只是在student.py导入person类，student又不是继承pe
python爬取图片反爬虫_Python爬虫：通过关键字爬取百度图片
2020-11-24 10:21

weixin_39539733的博客使用工具：Python2.7 点我下载...集成Scrapy框架—-输入命令行：pip install Scrapy安装成功界面如下：失败的情况很多，举例一种：解决方案：其余错误可百度搜索。二。开始编程。1.爬取无反爬虫措施的静态网站。...
python中的空格问题，报错该怎么解决？ python
2021-11-01 19:48

回答 2 已采纳把程序发出来啊
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
报错TypeError:怎么解决？具体报错信息如下 python 有问必答深度学习
2021-04-27 11:13

回答 5 已采纳数据类型错误，检查一下BATCH_SIZE是不是int类型，如果是的话，再使用steps= int(len(df_test) / BATCH_SIZE),转换数据类型试试看。
【python爬虫实例】爬取百度翻译，有源码
2023-05-01 09:30

布丁_码到成功的博客现如今,Python在世界编程语言排行榜中排名第一的编程语言，它的语法简单易学，适合初学者入门，同时也具有强大的功能和广泛的应用，可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。而爬虫，无疑也是学...
python报错：lxml.etree.XPathEvalError: Invalid expression，如何解决？ python 有问必答
2022-03-30 23:22

回答 2 已采纳 Bigtit_list = html.xpath('//<div[@class="book-mid-info"]/h2/a/text()') div前面的<去掉改成 Bigtit_li
Python:全国必胜客餐厅信息爬取及其商业价值分析
2019-07-07 16:31

bogedaye的博客这学期开的课程设计是python的课程设计，大概是让我们对全国必胜客餐厅进行信息爬取以及商业价值分析。三人一组，因而东西是大家一起做的。我只不过是写到博客里对这一学期的课程设计总结一下，也供后来者学习与交流...
python自动化办公之爬取目录样式写入word文档实战！
2021-01-12 13:34

pythonlaodi的博客于是想到用Python的自动化办公功能，来解救他！比如，下面这个图就是HTML里的内容，我要把它提取出来写入到word里面，还要带上这本书的标题，给word命名。写好了就可以批量处理！！！是不是很妙o(￣︶￣)o 还好朋友...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月28日

悬赏问题

¥15 前台多人编辑时怎么让每个人保存刷新都互不干扰
¥20 如何用Python删除单元格内连续出现的重复词？
¥15 WangEditor嵌入到geeker-admin中，回车没有办法换行
¥30 stm32f103c8t6制作万能红外遥控器
¥15 有人会fastcrud写前端页面吗
¥15 如何解除Uniaccess管控
¥15 微信小程序跳转关联公众号
¥15 Java AES 算法加密采用24位向量报错如何处理？
¥15 使用X11可以找到托盘句柄，监控到窗口点击事件但是如何在监听的同时获取托盘中应用的上下文菜单句柄
¥45 字符串操作——数组越界问题

Python：百度vip文档爬取报错，如何解决？

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新