python 爬虫怎么获取标签中的注释？我用得lxml解析html

 <span>当前第9127页&nbsp;<!--共136904条-->&nbsp;&nbsp;</span>

怎么才能获取注释里的值呢？

tree=etree.HTML(page)
pagenumber=tree.xpath(xpathStr)
for i in pagenumber:
           totalpage=filter(str.isdigit,str(i))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-05-20 09:03
关注
注释不属于xml格式了，你拿到span节点后获取它的内容，然后用字符串解析来获取注释。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 爬虫怎么获取标签中的注释？我用得lxml解析html
2016-05-20 08:42

回答 1 已采纳注释不属于xml格式了，你拿到span节点后获取它的内容，然后用字符串解析来获取注释。
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
Python爬虫技术系列-02HTML解析-xpath与lxml
2023-09-25 16:37

IT从业者张某某的博客本文为爬虫系列，主要讲解关于xpath和lxml的使用
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 2 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
2020-12-23 01:39

如何利用Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释等操作下面就为大家介绍一下一、Tag(标签)对象 1.Tag对象与XML或HTML原生文档中的tag相同。 from bs4 import BeautifulSoup soup = ...
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫获取标签_Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
2020-11-29 02:25

weixin_39900180的博客一、Tag(标签)对象1.Tag对象与XML或HTML原生文档中的tag相同。from bs4 import BeautifulSoupsoup = BeautifulSoup('Extremely bold','lxml')tag = soup.btype(tag)bs4.element.Tag2.Tag的Name属性每个tag都有自己的...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫去除html中特定标签、去除注释、替换实体
2019-04-25 22:28

菠萝盖饭的博客 html数据清洗之去除特定标签前言：本文主要讲w3lib库的四个函数 html.remove_tags() html.remove_tags_with_content() html.remove_comments() html.remove_entities() 文章目录html数据清洗之去除特定...
python中xpath解析xml_python爬虫中XPath和lxml解析库
2020-12-05 01:45

weixin_39871162的博客什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言，很类似 HTMLXML 的设计宗旨是传输数据，而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐...
python爬虫实例之豆瓣电影（使用requests、lxml、xlwt模块，并有详细的注释和讲解）
2018-03-23 11:45

注释详细，帮助短时间消化学会使用python3爬虫，了解并学习使用requests、lxml、xlwt库。实列中以爬豆瓣电影为例，并下载到表格中。
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

python 爬虫 怎么获取标签中的注释？我用得lxml解析html

1条回答

悬赏问题

python 爬虫怎么获取标签中的注释？我用得lxml解析html