lxml库的选取问题

代码：

text = '''
<div id="cont">
<ul class="slist">
<li class="item-0">web开发</li>
<li class="item-1"><a href="link2.html">爬虫开发</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">数据分析</span></a></li>
<li class="item-1 active"><a href="link4.html">深度学习</a></li>
<li class="item-0"><a href="link5.html">机器学习</a>
</ul>
'''

from lxml import etree
html = etree.HTML(text)
result = html.xpath('//a')[2]
print(etree.tostring(result, encoding='utf-8', method='html').decode('utf-8'))

为什么输出结果是这么一大坨的？

<a href="link4.html">深度学习</a></li>
<li class="item-0"><a href="link5.html">机器学习</a>
</li></ul>
</div></body></html>

我已经在网上连续试了好几个代码了，直接copy过来测试，但是输出结果都很奇怪（总是会把后面的html也选取了），与网上给出的结果都不一样。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
chuifengde 2022-05-28 11:41
关注
from lxml import etree import lxml print(lxml.__version__) html = etree.HTML(text) result = html.xpath('//a')[2] print(etree.tostring(result, encoding='utf-8', method='html').decode('utf-8')) '''--result 4.8.0 <a href="link4.html">深度学习</a> '''
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python添加lxml库_Python爬虫基础教程——lxml爬取入门
2021-01-09 17:31

ClimberSeven的博客一、lxml介绍引用官方的解释：lxml XML工具箱是C库libxml2和libxslt的Python绑定。它的独特之处在于它将这些库的速度和XML功能的完整性与本机Python API的简单性结合在一起，该Python API大多数都兼容，但优...
利用 lxml 库的XPath()方法在网页中快速查找元素
2024-02-27 00:10

铁松溜达py的博客 XPath() 函数是 lxml 库中 Element 对象的方法。在使用 lxml 库解析 HTML 或 XML 文档时，您可以通过创建 Element 对象来表示文档的元素，然后使用 Element 对象的 XPath() 方法来执行 XPath 表达式并选择相应的元素...
lxml库
2022-06-10 00:47

jiqioC的博客 python lxml实现xpath解析
从 lxml 中选择属性值
2024-10-07 07:04

潮易的博客 4. 如果你的应用场景涉及到人工智能大模型，你可以使用lxml库来处理HTML或XML数据。print(href_value) # 输出：http://example.com 和 http://example2.com。2. 然后，你可以在Python脚本中使用lxml库来解析HTML或...
Python ----- lxml库与Xpath
2022-08-17 17:51

Mr.乐图的博客 lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的数据；lxml和正则一样，也是用C语言实现的，是一款高性能的python HTML、XML解析器，也可以利用XPath语法，来定位特定的元素及节点信息HTML是超文本...
Python爬虫——使用XPath和lxml库解析HTML
2022-05-28 13:45

Mount256的博客文章目录0 安装 XPath Helper 插件1 XPath 语法1.1 节点1.2 谓语2 lxml 库使用实例2.1 解析字符串为 HTML2.2 获取 div 标签2.3 获取某个指定的 div 标签2.4 获取属性为 id='even' 的 div 标签2.5 获取标签下的属性值...
数据提取-XPath语法与lxml库
2019-01-16 21:51

十五十六的博客 XPath和lxml库结合爬取51job某公司招聘的职位列表网页 from lxml import etree import requests url = 'https://jobs.51job.com/all/co4229797.html#syzw' headers = { 'User-Agent' : '...
Python库 | lxml-3.6.3-cp33-cp33m-manylinux1_x86_64.whl
2022-02-17 06:18

3. **CSS选择器**：`lxml`还支持CSS选择器，使得从HTML文档中选取元素变得更直观，对于前端开发者来说尤其友好。 4. **XML Schema验证**：可以验证XML文档是否符合指定的XML Schema，确保数据的规范性和一致性。 5. ...
Python库 | parsel-1.5.1.tar.gz
2022-03-09 14:18

此外，Parsel也与lxml库紧密配合，lxml是一个高效的HTML和XML解析库，提供了XPath和CSS选择器的支持。 **5. 解决问题** Parsel库解决了在处理网页数据时常见的问题，比如网页结构的复杂性、动态加载内容以及跨域...
掌握Python数据处理：lxml库详解
2025-07-17 12:09

柚木i的博客作为libxml2库的Python封装，lxml不仅继承了底层C库的速度和稳定性，同时提供了简洁易用的Python接口。它支持多种不同的解析器，让开发者在解析文档时可以根据需求选择最适合的解析器，从而提高开发效率和程序性能。...
使用 lxml.html 的 CSS 选择器提取教程
2025-08-02 21:06

Ghostycode的博客本文介绍了使用Python的lxml.html库配合CSS选择器提取HTML内容的方法，涵盖12种常用选择...lxml.html库性能优越，CSS选择器语法简单直观，特别适合前端开发者和爬虫初学者使用，也可与XPath结合进行更复杂的数据提取。
lxml与xpath_03
2022-11-07 23:00

Spark_zzz的博客以两个斜杠(//)开头的xpath规则会选取所有符合要求的节点.如果使用'//*',那么会选取整个HTML文档中所有的节点,其中星号(*)表示所有的节点.当然,'//'后面还可以跟更多的规则,如,要选取所有的节点,可以使用'//li'准备...
XPath语法和lxml模块
2022-02-18 10:21

qq_17584941的博客 XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try ...
lxml-4.6.3-cp310-cp310-win.zip
2021-10-19 00:46

除了XPath，lxml还引入了CSS选择器，这使得从HTML文档中选取元素变得更直观，对前端开发者更为友好： ```python elements = tree.cssselect('h1.title') ``` 总结，lxml库是Python中处理XML和HTML的强大工具，无论...
lxml&xpath
2024-05-28 19:44

李ma的博客 urllib.request.urlretrieve函数是Python标准库中urllib.request模块提供的一个方法，用于从指定的URL下载文件并保存到本地。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月28日

lxml库的选取问题

1条回答 默认 最新

问题事件

1条回答默认最新