正则，xpath，bs4匹配

正则

在字体反爬过程中，解析页面时，使用正则表达式可以匹配到网页源码中的字体代码，如下所示：

print(re.findall(r'<span class="day font".*?>(.*?)</span>', rsp.text)[0])  # 结果：&#xe412&#xf359&#xf359/天

Xpath

而使用xpath解析，得到的却是Unicode字符串列表：

html = etree.HTML(rsp.text)
res = html.xpath('//span[@class="day font"]/text()')  # ['\ue412\uf359\uf359/天']

遍历结果为乱码：

print(res[0])  # 结果：/天

bs4

使用bs4解析，输出的也是乱码，如下所示：

soup = BeautifulSoup(rsp.text, 'lxml')
sal = soup.select('span.day.font')  # [<span class="day font" data-v-98c756d6="">/天</span>]
print(sal[0].text)  # 结果：/天

若在bs4下继续使用正则匹配，匹配结果也是Unicode字符串列表，遍历输出也是乱码

那么问题来了：请问，都是从源代码中解析，为什么后两种解析方式得到的是Unicode而得不到字体代码啊？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
咕泡-三木 2021-09-22 16:58
关注
一、本质原因是Unicode在HTML中和Python中的不同表示方法

以unicode e412为例
在HTML中

 &#xe412 

在python中

'\ue412'

以上代码表达了同一个意思：unicdeo中的e412字符
然后在浏览器渲染（html）和打印的时候（python），会渲染出e412所代表的字符，也就是说：
源码中显示e412，显示时显示字符

二、再来看一下问题中描述的现象

etree和bs4 做的事情

它们会闭合各种标签，构造完整对称的HTML
解析HTML，构造为对象，并提供各种选择器方法

在这个过程中，它们会将HTML语法表达的字符，改为python语法表达的字符，以便解析和输出

lxml.etree 中的解析器可以立即处理 unicode 字符串
在将 XML/HTML 数据传递到解析器之前，您通常应该避免将手动转换为 unicode
--- by lxml 官网

也就是说 &#xe412 会被替换为 \ue412 (这样显示效果才一样)

那么问题来了：为什么使用正则就不会这样呢？
因为&xxxx 是HTML的语法，正则根本就识别不出来这是在表示unicode，当然就忽略了
如果它知道这个是表示unicode，说不定会有所作为。。。

三、如何不进行替换？

可能你想在etree和bs4 做元素定位之后，拿到一个可以在浏览器显示的版本，有两种思路：

让lxml忽略的unicode的处理（理论上可行，但是没有找到相关说明）
将内容重新处理为HTML语法的表达方式（\uxx替换为 &xxx ）

代码示例

from lxml import etree raw_html = "&#xe412&#xf359&#xf359/天" # 原始HTML内容 html = etree.HTML(raw_html) x = html.xpath("//p/text()")[0] # 获取内容 (unicode) print(x) # 展示unicode字符 print(x.encode("unicode-escape").decode()) # 转为Python中unicode语法 print(x.encode("unicode-escape").decode().replace("\\u", "&#")) # 转为HTML中unicode语法

输出结果，注意字符串中的汉字也被转为了unicode代码：

/天 \ue412\uf359\uf359/\u5929 &#e412&#f359&#f359/&#5929

如果帮助，还请点击【采纳】，支持一下

参考链接：

Parsing XML and HTML with lxml
https://www.w3schools.com/charsets/ref_utf_symbols.asp
Unicode HOWTO — Python 3.9.7 documentation
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

正则，xpath，bs4匹配 python 正则表达式
2021-09-22 15:54

回答 1 已采纳一、本质原因是Unicode在HTML中和Python中的不同表示方法以unicode e412为例在HTML中 &#xe412 在python中 '\
python xpath对孙节点内容进行匹配问题 python
2021-03-23 22:38

回答 1 已采纳用following定位，把前面设为顶节点，following后利用属性值再定位子孙节点。 url_cited_post = res_html.xpath( './/div[contain
使用Xpath进行部分匹配 php xml
2019-04-18 17:12

回答 2 已采纳 A few errors here: use of and instead of or, assuming searches are case-insensitive, and passing i
正则表达式 bs4解析 xpath解析
2021-05-09 01:07

itLaity的博客 #bs4 解析 #Xpath解析正则 re import re # list = re.findall(r'\d{11}','我的电话号码是：18047653655,女朋友的电话号码是：15104808753') list = re.findall(r'\d+','我的电话号码是：18047653655,女朋友的...
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
正则表达式匹配调试工具 python 问答团队
2022-07-19 23:44

回答 3 已采纳菜鸟工具网站就很不错https://c.runoob.com/front-end/854/
使用xpath匹配的结果却为空？ python
2018-06-24 16:28

回答 4 已采纳建议用selenium的选择器匹配模式匹配，可以直接通过id或者class名字找到路径，xpath经常匹配不出来，再就是查看获取的网页类容中是否和看到的页面一致，有些会动态渲染
python爬虫基础，正则、xpath、bs4(详细)
2021-05-03 17:02

努力生活的黄先生的博客正则表达式的规则Python的re模块compile函数match函数search函数findall函数finditer函数split函数sub函数匹配中文注意：贪婪模式与非贪婪模式使用正则爬取工作信息xpath什么是XML?XML的节点关系XPath是什么？xpath...
关于xpath和正则表达式应用的问题 python
2021-02-14 20:00

回答 2 已采纳 import re html = ''' <tr style="height:44px;" tridx="3" id="r-3-0"> <td class="fh tac
python xpath实例代码 python 有问必答
2021-09-09 22:28

回答 3 已采纳你要获取什么？代码没问题啊 from lxml import etree text = ''' <ul> <li class="sp item-0" name="two"&g
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
python爬虫之正则，xpath，bs4基础语法
2023-06-19 13:27

小狼总是来武馆做饭的博客正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。—正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式...
关于python中xpath问题 python
2022-12-10 19:34

回答 2 已采纳通过代码提示都可以看出，这个函数在当前库版本中好像已经弃用了，而你把它硬敲了出来肯定是不行的把版本放低点
爬虫正则+bs4+xpath+综合实战详解
2024-01-23 11:26

__如果的博客聚焦爬虫：爬取页面中指定的页面内容编码流程：指定url -> 发起请求 -> 获取响应数据 -> 数据解析 -> 持久化存储数据解析分类：正则、bs4、xpath(本教程的重点)数据解析原理概述：解析的局部的文本内容都会在标签...
爬虫入门实战系列（六）正则/bs4/xpath比较-爬取公众号文章正文
2020-12-20 22:09

目标：爬取介个微信公众号文章的正文内容 ... (也就是红框框里面的内容啦~) 先观察一波网页结构在浏览器网页界面，用熟悉的F12，及快捷键组合“Shift+Ctrl+c”，很容易就定位到正文内容...学习使用正则爬取简述正则首先
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月22日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

正则，xpath，bs4匹配

正则

Xpath

bs4

1条回答 默认 最新

一、本质原因是Unicode在HTML中和Python中的不同表示方法

二、再来看一下问题中描述的现象

三、如何不进行替换？

问题事件

悬赏问题

1条回答默认最新