是白白 2021-07-04 12:24 采纳率: 100%
浏览 37
已采纳

我用正则sub去替换标配为空,但是爬取出来还是替换不掉

img
我在这里写了正则替换的代码

img
但是爬取出来依然会有这些标签并没有替换成空的

img
我还想把这些也替换掉,麻烦好心人帮我看看是什么问题给我一个思路我该怎么弄才可以

import re
import requests

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64',
    'Cookie': 'bcolor=; font=; size=; fontcolor=; width=; Hm_lvt_26c0596a5f449ac3144f90f3a3202786=1624770759,1625320560; hitme=1; hitbookid=17577; Hm_lpvt_26c0596a5f449ac3144f90f3a3202786=1625320791',
    'Referer': 'http://www.dvdspring.com/b/111582/'
}


def parse_page(url):
    response=requests.get(url,headers=headers)
    text=response.text
    titles=re.findall(r'<div class="bookname">.*?<h1>(.*?)</h1>',text,re.DOTALL)
    contents=re.findall(r'<div id="content">(.*?)</div>',text,re.DOTALL)
    fiction=[]
    for content in contents:
        x=re.sub('r<.*?>','',content,flags=re.S)
        fiction.append(x.strip())
        # print(x.strip())
    pomes=[]
    for value in zip(titles,contents):
        title,content=value
        pome={
            '章节':title,
            '内容':content
        }
        pomes.append(pome)
        for pome in pomes:
            print(pome)
            print('='*40)



def main():
    url='http://www.dvdspring.com/b/111582/479440.html'
    for x in range(441,444):
        url='http://www.dvdspring.com/b/111582/479%s.html'%x
        parse_page(url)


if __name__ == '__main__':
    main()

这里是整个代码片段

  • 写回答

2条回答 默认 最新

  • 碧池阿蒂拉 2021-07-05 11:28
    关注

    额……道理我都懂,为什么要爬笔趣阁呢,不是可以下载的吗?

    img
    别的一时半会也看不出来
    补充一下,按照你的写法,用re.sub是可以替换掉<巴拉巴拉>这样的东西的,但是你第三张图里标注的形如“&nbsp;”这些是处理不掉的,这是放在标签括号外面,也就是标签文本里的东西,是html用的转义符,表示空格,你可以另外写几句代码来处理转义符

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已采纳回答 7月10日

悬赏问题

  • ¥15 目详情-五一模拟赛详情页
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 unity第一人称射击小游戏,有demo,在原脚本的基础上进行修改以达到要求
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
  • ¥15 关于#Java#的问题,如何解决?
  • ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
  • ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
  • ¥15 cmd cl 0x000007b