爬虫爬取网页标签中的&NBSP消除失败，试了几种方法都失败了

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果


 for i in tree.xpath('//*[@id="ctl00_CPHMain_divObjective"]/div'):
                h += i.xpath('string(.)').replace('\n\n','\n').replace('。','。\n').replace('参考答案','\n参考答案').replace(r'\ax0','').replace(' ','')
            # 主观题
            for i in tree.xpath('//*[@id="ctl00_CPHMain_divSubjective"]/div'):
                try:
                    h += i.xpath('string(.)').replace('<br/>','\n').replace('问题：','\n问题：').replace('参考答案','\n参考答案').replace('？','？\n').replace(r'\ax0','').replace(' ','')
                except Exception as e:
                    print(e)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱音斯坦牛优质创作者: 编程框架技术领域 2022-03-07 13:27
关注
先用xpath把所有文本提取出来，然后把每一句当成字符串进行replace替换啊

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取内容剔除nbsp_Python正则获取、过滤或者替换HTML标签的方法
2020-12-02 12:34

weixin_39849254的博客本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法，具体内容如下python正则表达式关键内容:python正则表达式转义符:. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s ...
Python爬虫实战之电影爬取过程
2020-08-28 17:03

工程师大胖的博客从网站上爬取采用m3u8分段方式的视频文件，对加密的&nbsp;"ts"文件解密，实现两种方式合并"ts"文件，为防止IP被封，使用代理，最后删除临时文件。环境 &依赖 Win10 64bit IDE：Pycharm Python 3.8 ...
通过实例学Python爬虫(一)——认识HTML网页与爬虫基础框架
2022-09-30 22:40

认真与热爱.的博客爬虫技术入门分享，通过原创代码进行一步步实现Python爬虫，水平有限，仅供参考；此章节主要介绍HTML网页的原理与制作、了解爬虫基本流程。
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
2020-09-30 21:07

Eastmount的博客欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给...
【爬虫】毕设学习记录：python爬取静态网页（只爬取单页）
2021-04-16 10:43

炖鹅小铁锅的博客毕设题目是对指定网页内容进行正负向判断，并输出判断结果。所以只需要爬取单页面的内容即可。目标网页：在途网-哈尔滨酒店评价【第一步：客户端向目标网址（服务器）发起get请求】 import requests def get_...
python爬虫设置下拉框的值_Python selenium —— 操作select标签的下拉选择框
2020-12-04 14:50

weixin_40008339的博客我们通常会遇到两种下拉框，一种使用的是html的标签select，另一种是使用input标签做的假下拉框。后者我们通常的处理方式与其他的元素类似，点击或使用JS等。而对于前者，selenium给了有力的支持，就是Select类。...
Python爬虫入门基础及正则表达式抓取博客案例分享
2020-11-05 14:00

Python_sn的博客文章目录一.什么是网络爬虫二.... 1.re模块 2.complie方法 3.match方法 ...爬取标签中的参数 3.字符串处理及替换五.个人博客爬取实例 1.分析过程 2.代码实现六.总结很多人学习pyt
正经网站爬虫实战，如何快速使用Selenium爬取租房信息
2021-02-17 00:20

兴趣使然的程序猿的博客笔者以前曾经也专门做过爬虫的工作（人称爬哥），后来见各位同行入狱笔者见事不妙跑路了，首先爬虫只是一种工具，望诸君坚守本心，在允许的情况下抓抓数据还是莫得问题的，这次笔者将使用python大法，再配合自动化...
Python网络爬虫：利用正则表达式爬取豆瓣电影top250排行前10页电影信息
2018-09-10 22:16

旭氏美术馆的博客这次我还是利用正则表达式进行爬取，怎么说呢，有人说写正则表达式很麻烦，很多人都不愿意用正则表达式了，不过正则表达式是我第一个学习的爬取方式，也是我最有感觉的一种方法了，我也喜爱用这种方法，当然我现在的...
使用Python爬取分析政府采购网数据
2020-06-04 18:16

叉叉不低头的博客 Leader临时分配给我个任务，要我爬取下政府采购网近一个月公开招标中二三甲医院的数据，这一下可把我难住了，要求还要用Python。 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;自己一直干的是Java开发，学校
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月7日

爬虫爬取网页标签中的&NBSP消除失败，试了几种方法都失败了

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新