python中xpath用法

在python中获取div标签下方的文本信息，在xpath中显示是可以的，有内容，但是写到代码里运行却没有内容，是为什么？

import requests                        #导入requests模块
from lxml import etree                #导入etree模块
#定义字符串chapter_url
chapter_url = 'https://www.biqukan.la/book/4273/3062821.html'
r = requests.get(chapter_url)        #发送请求，并将返回结果赋值给r
html = etree.HTML(r.text)            #创建HTML对象html
print(r.text)
#选择h1节点并提取文本，将返回的列表第一项赋值给title
title = html.xpath('//h1/text()')[0]
print(title)                            #输出标题
#选择id属性值为“htmlContent”的div节点并提取文本
contents = html.xpath('//div[@id="htmlContent"]/text()')
for i in contents:                    #遍历列表
    #移除字符串头尾的空格，并赋值给content
    content = i.strip()
    print(content)                    #输出正文

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫雾凌寒新星创作者: 人工智能技术领域 2025-10-29 12:01
关注
让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

如果还有问题，请评论或点击头像私信，如果有帮助到您, 请关注、采纳、点赞

关键点分析：
- 问题核心在于代码中使用XPath获取div标签下文本信息时，在交互环境（如直接在XPath工具中测试）能获取到内容，但在Python代码中却无法获取。这可能涉及到多个方面的原因，比如请求的页面结构与测试时不一致、解析过程中存在编码问题、XPath表达式编写错误等。
解决方案：
- 首先，确保请求到的页面内容是正确的。可以打印出requests.get(url).text来查看获取到的页面原始内容，检查页面结构是否与预期一致。
- 然后，使用lxml库来解析页面并执行XPath查询。示例代码如下：

import requests from lxml import etree url = '目标网址' response = requests.get(url) html = etree.HTML(response.text) div_texts = html.xpath('//div//text()') for text in div_texts: print(text.strip())

在上述代码中，etree.HTML(response.text)将页面内容解析为可操作的树形结构，然后通过html.xpath('//div//text()')获取所有div标签下的文本信息。strip()方法用于去除文本两端的空白字符。
3. 不同方案优缺点：
使用BeautifulSoup库：
优点：
代码相对简洁，有更直观的方法来处理HTML和XML，例如通过find_all等方法查找元素。
对新手友好，文档丰富，容易理解和上手。
缺点：
性能相对lxml可能稍低，尤其是在处理大型文档时。

使用lxml库：
优点：
性能较高，适合处理大型XML和HTML文档。
提供了丰富的XPath支持，功能强大。
缺点：
代码相对复杂一些，需要对XML和XPath有更深入的理解。
4. 总结：

当在Python中使用XPath获取div标签下文本信息失败时，要先检查请求的页面内容是否正确，然后选择合适的解析库（如lxml或BeautifulSoup）来解析页面并执行XPath查询。通过仔细排查和正确的代码编写，可以解决获取不到文本信息的问题。

请注意，在实际使用中，需要将url替换为真实的目标网址。

希望以上解答对您有所帮助。如果您有任何疑问，欢迎在评论区提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python使用xpath实现图片爬取
2020-09-17 11:24

在Python编程中，XPath是一种强大的查询语言，用于在XML或HTML文档中查找信息。在这个场景中，我们将讨论如何使用Python的`lxml`库结合XPath来实现图片的爬取。`lxml`库提供了高效的XML和HTML处理能力，支持XPath ...
Python实用Xpath（超详细）
2024-12-06 15:19

Python_trys的博客我们从使用函数的过程中得到结论，就是有的函数不支持，有的支持，那问题来了，到底哪些函数支持呢。我们在lxml官网找到了答案。。lxml 支持XPath 1.0 ，想使用其他扩展，使用libxml2，和libxslt的标准兼容的方式。...
python定位xpath 节点位置的方法
2020-09-18 18:07

在信息技术中，Python是一种广泛使用的高级编程语言，它支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。Python因其易读性和简洁的语法而受到开发者的青睐。在本文中，我们将深入探讨如何使用Python...
python3 xpath和requests应用详解
2020-09-17 18:29

### Python3中XPath与Requests的应用详解 #### 一、引言在Web开发与数据抓取领域，Python凭借其简洁的语法与强大的第三方库支持，成为处理这些任务时的首选语言之一。其中，`requests` 和 `lxml`（尤其是其中的...
Python 之 XPath 元素定位
2025-05-07 17:18

Looooking的博客 XPath (XML Path Language) 最初是为了在 XML 文档中进行导航而设计的语言，后来被广泛应用于 HTML 文档的解析。在Python中，我们主要通过 lxml 或者 selenium 库来使用 XPath 功能。
python爬虫之xpath入门
2024-03-19 23:24

hjc_042043的博客 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候，选中时，选中的标签会添加属性class=“xh-highlight”
基于Python的xpath与request库封装的小说爬虫设计源码
2024-10-01 17:54

Python作为一门非常适合初学者的编程语言，因其简洁易读的语法、丰富的库支持，成为了网络爬虫开发的首选语言之一。本项目“基于Python的xpath与request库封装的小说爬虫设计源码”是一个专为爬取小说数据而设计的...
Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
Python XPath 介绍
2024-08-04 22:57

detayun的博客 XPath是处理HTML和XML文档的强大工具，通过Python的lxml等库，可以方便地将其集成到数据抓取、自动化测试等场景中。...希望本文能为你提供XPath在Python中应用的初步了解，并激发你进一步探索的兴趣。
python-xpath获取html文档的部分内容
2020-09-17 18:28

在Python编程中，XPath是一种强大的查询语言，常用于XML和HTML文档，用于选取或操作文档中的节点，如元素、属性、文本等。本篇主要讨论如何使用Python的lxml库结合XPath来提取HTML文档中特定部分的内容。首先，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月29日

python中xpath用法

4条回答 默认 最新

问题事件

4条回答默认最新