python 爬虫怎么获取标签中的注释？我用得lxml解析html

 <span>当前第9127页&nbsp;<!--共136904条-->&nbsp;&nbsp;</span>

怎么才能获取注释里的值呢？

tree=etree.HTML(page)
pagenumber=tree.xpath(xpathStr)
for i in pagenumber:
           totalpage=filter(str.isdigit,str(i))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-05-20 09:03
关注
注释不属于xml格式了，你拿到span节点后获取它的内容，然后用字符串解析来获取注释。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
2020-09-18 01:19

Python爬虫库BeautifulSoup是一个强大的解析HTML和XML文档的工具，它使得提取数据变得简单而直观。在网页抓取过程中，我们经常需要获取标签的名称、属性、内容以及注释等信息。以下将详细介绍如何使用BeautifulSoup...
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
Python爬虫技术系列-02HTML解析-xpath与lxml
2023-09-25 16:37

IT从业者张某某的博客本文为爬虫系列，主要讲解关于xpath和lxml的使用
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
设计python爬虫，可是只爬取了index标签，不知道怎么回事 json python 爬虫
2022-05-05 17:39

回答 1 已采纳没看网站，尝试xpath里加个/text（）
Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】
2020-09-19 12:00

- 安装`lxml`的原因是其解析速度快且功能强大，是推荐使用的解析器之一。 2. **创建对象**： - 创建一个BeautifulSoup对象需要提供两个参数：待解析的HTML或XML字符串（或文件）和解析器名称。 ```python from ...
【Python爬虫教程】第4篇-使用BeautifulSoup解析html
2024-07-10 11:20

码农小黑的日志的博客在前面两篇文章中介绍了如何使用reqeusts发起请求和获取返回内容，很多爬取的内容大多是html数据，这一篇我们讲如何去解析html。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的...
python爬虫获取标签_Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
2020-11-29 02:25

weixin_39900180的博客一、Tag(标签)对象1.Tag对象与XML或HTML原生文档中的tag相同。from bs4 import BeautifulSoupsoup = BeautifulSoup('Extremely bold','lxml')tag = soup.btype(tag)bs4.element.Tag2.Tag的Name属性每个tag都有自己的...
python爬虫去除html中特定标签、去除注释、替换实体
2019-04-25 22:28

菠萝盖饭的博客 html数据清洗之去除特定标签前言：本文主要讲w3lib库的四个函数 html.remove_tags() html.remove_tags_with_content() html.remove_comments() html.remove_entities() 文章目录html数据清洗之去除特定...
没有解决我的问题, 去提问

悬赏问题

¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境

python 爬虫 怎么获取标签中的注释？我用得lxml解析html

1条回答 默认 最新

悬赏问题

python 爬虫怎么获取标签中的注释？我用得lxml解析html

1条回答默认最新