精神残废 2022-03-07 13:12 采纳率: 70.8%
浏览 251
已结题

爬虫爬取网页标签中的&NBSP消除失败,试了几种方法都失败了

问题遇到的现象和发生背景
问题相关代码,请勿粘贴截图
运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果

 for i in tree.xpath('//*[@id="ctl00_CPHMain_divObjective"]/div'):
                h += i.xpath('string(.)').replace('\n\n','\n').replace('。','。\n').replace('参考答案','\n参考答案').replace(r'\ax0','').replace(' ','')
            # 主观题
            for i in tree.xpath('//*[@id="ctl00_CPHMain_divSubjective"]/div'):
                try:
                    h += i.xpath('string(.)').replace('<br/>','\n').replace('问题:','\n问题:').replace('参考答案','\n参考答案').replace('?','?\n').replace(r'\ax0','').replace(' ','')
                except Exception as e:
                    print(e)

img

img

  • 写回答

1条回答 默认 最新

  • 爱音斯坦牛 优质创作者: 编程框架技术领域 2022-03-07 13:27
    关注

    先用xpath把所有文本提取出来,然后把每一句当成字符串进行replace替换啊

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 3月18日
  • 创建了问题 3月7日