python爬小说，报错说正则表达式没有获得正文内容，可是我自己测试4个表达式都是可以提取到内容（测试是在Regexpal网站—成功，爬小说是在pyCharm-报错）


import requests
import re
import os
from multiprocessing.dummy import Pool


start_url = 'https://www.xbiquge.la/58/58814/'

def get_source(url):
    """
    获取网页源代码。
    """
    html = requests.get(url)
    return html.content.decode('utf-8') 


def get_toc(html):
    """
    获取每一章链接，储存到一个列表中并返回。
    """
    toc_url_list = []
    toc_block = re.findall('<dl>(.*?)<div id="footer"', html, re.S)[0]
    toc_url = re.findall("href='(.*?)'", toc_block, re.S)
    for url in toc_url:
        toc_url_list.append(start_url + url)
    return toc_url_list

def get_article(html):
    """
    获取每一章的正文并返回章节名和正文。
    """
    chapter_name = re.search('<title>(.*?)</title>', html, re.S).group(1)
    text_block = re.search('<div id="content">(.*?)</p></div>', html, re.S).group(1)
    text_block = text_block.replace('<br />', '')
    return chapter_name, text_block

def save(chapter, article):
    """
    将每一章保存到本地。
    """
    os.makedirs('白骨大圣', exist_ok=True)  
    with open(os.path.join('白骨大圣', chapter + '.txt'), 'w', encoding='utf-8') as f:
        f.write(article)

def query_article(url):
    """
    根据正文网址获取正文源代码，并调用get_article函数获得正文内容最后保存到本地。
    """
    article_html = get_source(url)
    chapter_name, article_text = get_article(article_html)
    save(chapter_name, article_text)

if __name__ == '__main__':
    toc_html = get_source(start_url)
    toc_list = get_toc(toc_html)
    pool = Pool(4)
    pool.map(query_article, toc_list)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2021-09-10 00:08

关注

1.增加headers请求头，2 章节网址要改下，3.在text_block部分加上try/except异常处理，防止有的不存在。
经修改后可正常运行的代码：

import requests
import re
import os
from multiprocessing.dummy import Pool
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36 Edg/93.0.961.38'}

start_url = 'https://www.xbiquge.la/58/58814'
def get_source(url):
    """
    获取网页源代码。
    """
    html = requests.get(url,headers=headers)
    return html.content.decode('utf-8') 
 
def get_toc(html):
    """
    获取每一章链接，储存到一个列表中并返回。
    """
    toc_url_list = []
    toc_block = re.findall('<dl>(.*?)<div id="footer"', html, re.S)[0]
    toc_url = re.findall("href='(.*?)'", toc_block, re.S)
    for url in toc_url:
        toc_url_list.append('https://www.xbiquge.la' + url)
    return toc_url_list
def get_article(html):
    """
    获取每一章的正文并返回章节名和正文。
    """
    chapter_name = re.search('<title>(.*?)</title>', html, re.S).group(1)
    try:
        text_block = re.search('<div id="content">(.*?)</p></div>', html, re.S).group(1)
        text_block = text_block.replace('<br />', '')
    except:text_block=''
    
    return chapter_name, text_block
def save(chapter, article):
    """
    将每一章保存到本地。
    """
    os.makedirs('白骨大圣', exist_ok=True)  
    with open(os.path.join('白骨大圣', chapter + '.txt'), 'w', encoding='utf-8') as f:
        f.write(article)
def query_article(url):
    """
    根据正文网址获取正文源代码，并调用get_article函数获得正文内容最后保存到本地。
    """
    article_html = get_source(url)
    chapter_name, article_text = get_article(article_html)
    save(chapter_name, article_text)
if __name__ == '__main__':
    toc_html = get_source(start_url)
    toc_list = get_toc(toc_html)
    pool = Pool(4)
    pool.map(query_article, toc_list)

如有帮助，请点击我回答的右上方采纳按钮给予采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

python爬小说，报错说正则表达式没有获得正文内容，可是我自己测试4个表达式都是可以提取到内容（测试是在Regexpal网站—成功，爬小说是在pyCharm-报错） python 有问必答正则表达式爬虫
2021-09-09 23:12

回答 2 已采纳 1.增加headers请求头，2 章节网址要改下，3.在text_block部分加上try/except异常处理，防止有的不存在。经修改后可正常运行的代码： import requests impor
想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
正则表达式去提取网页标题内容，为什么会报错 python
2022-08-21 13:35

回答 8 已采纳这个是正则没有匹配到结果,返回了空列表，空列表没有[0]下标的元素,所以报错，
Python 正则表达式详解（建议收藏！）
2021-10-01 20:05

谢北先生的博客 python中re模块提供了正则表达式的功能，常用的有四个方法(match、search、findall)都可以用于匹配字符串match匹配字符串match方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就...
请问Python正则表达式如何匹配连续的四位数字 python 有问必答
2022-04-29 12:38

回答 5 已采纳题中年份后面表示日月最多6个字符，试试如下代码： import re s=['新书/20200412/价格22.6元','旧书1/2010.3/价格10.5元','旧书2/2008-3-5/价格8.8
Python正则表达式无法提取数字，只能提取文字 python 有问必答
2022-02-28 20:24

回答 2 已采纳 rightlist内容中的括号是英文状态下的，题主正则用的中文状态下的当然无法匹配，而且应该使用非贪婪匹配 import re s='''<center>[<font color=
用爬虫通过正则提取到图片的链接地址 python 有问必答正则表达式
2022-11-22 18:05

回答 2 已采纳 import requests import re import os if __name__ == '__main__': if not os.path.exists('./nbaLibs'
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
2020-09-30 21:07

Eastmount的博客欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给...
python 提取cmd窗口中冒号之后的内容 python 有问必答正则表达式
2022-03-24 09:17

回答 4 已采纳 IPv4 = re.findall('(?<=IPv4 地址 . . . . . . . . . . . . : ).*', result.read())
python正则匹配，如何匹配出(.*)都匹配不出来的文本？ python
2020-12-11 11:47

回答 2 已采纳 re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。 print(re.search('www.g
利用python提取csv文件中特定列的字符（电话号码） python
2022-05-04 15:54

回答 4 已采纳为什么不能直接这样呢：df['phone'] = df['text'].apply(lambda x:re.findall(r"1[3-9]\d{9}",x))
【Pyhton 爬虫】正则表达式
2022-02-27 13:07

骑着蜗牛ひ追导弹'的博客文章目录1、正则表达式...” 的区别4、正则表达式提取技巧4.1 不需使用 compile4.2 先抓大再抓小4.3 括号内和括号外在爬虫的开发中，需要把有用的信息从一大段文本中提取出来，正则表达式是提取信息的方法之一。..
用python爬虫无法导出数据 json python 爬虫
2023-03-01 20:22

回答 3 已采纳回答不易，望采纳！这一行代码报错了应该是连页面内容都没有爬下来，后边更别谈格式化处理了。检查一下你的 cookie 是不是过期了吧
Python 正则表达式
2024-04-23 12:21

JSON_L的博客 Python 正则表达式笔记
python 正则表达式判断_Python 正则表达式
2021-03-05 15:59

吃月亮的人的博客 )(0*)$', '102300').groups() ('1023', '00') 编译当我们在Python中使用正则表达式时，re模块内部会干两件事情：编译正则表达式，如果正则表达式的字符串本身不合法，会报错；用编译后的正则表达式去匹配字符串。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月9日

悬赏问题

¥15 Stata链式中介效应代码修改
¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 添加组件无法加载页面,某块加载卡住
¥15 网络科学导论，网络控制
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错

python爬小说，报错说正则表达式没有获得正文内容，可是我自己测试4个表达式都是可以提取到内容（测试是在Regexpal网站—成功，爬小说是在pyCharm-报错）

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新