我想请教一下有关python的lxml库使用的问题

我想使用xml解析一个网页。已经到了这一步：

tree=etree.HTML(text)
ob=tree.xpath('//*[@id="comic"]')[0]

ob是这样的：

<div>
    <src="url".........>
    <src="url".........>
    ......
<div>

然后我想要在ob里面提取src后面的url

我试过用ob.xpath('//@src')，但得到的不是ob里面的src，而是整个页面的所有src

请问应该怎么做？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
鸡蛋酱$ 2022-06-12 15:08
关注
from lxml import etree html = """<div> <img src="https://www.tianmao.com"> </div> <div class="button"> <img src="https://www.baidu.com"> <img src="https://www.jd.com"> <img src="https://www.taobao.com"> <img src="https://www.aiqiyi.com"> </div>""" the_html = etree.HTML(html) res = the_html.xpath(r'.//div[@class="button"]//@src') print(res)

我们可以更具父标签的一些属性来确定位置，我的例子里面就是class
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

码住！大学生如何高效自学 Python —— 过来人的经验分享
2024-10-18 16:54

程序员byte的博客我见过很多在校学生大学四年都是混过来的，在目前来看，我们可以把他看成是正常的现象，到了大四的时候，很多人就开始恐慌找工作的事情，那个时候想学业没有学习的心，一直在纠结之中，这就是毕业学生的迷茫。
学习笔记(10):5天Python闯关训练营-104期-Python中的lxml模块
2020-02-20 20:42

东海龙太郎的博客 #《5天Python闯关训练营》学习计划# 挑战周期：2月18日—2月22日开班后大家可以先完成相应的软件安装及... 期间遇到学习问题可社群请教，群内安排助教老师答疑 ...
使用Python网络爬虫爬取数据并对其进行可视化分析，加入邮件进行判断爬取过程中是否存在错误
2022-06-13 12:14

司空良的博客能够熟练运用urllib库或requests库获取网页源代码，掌握正则表达式、Xpath语法、BeautifulSoup模块的使用规则，会使用re、lxml、bs4、json等进行数据的解析，会使用Selenium工具抓取动态网页并解析存储爬虫数据，...
Python实践提升-面向对象设计原则（下）
2024-06-24 19:09

andyyah晓波的博客 Python实践提升-面向对象设计原则（下）在上一章中，我通过一个具体的爬虫案例介绍了 SOLID 设计原则的前两条：SRP 与 OCP。相信你可以感受到，它们都比较抽象，代表面向对象设计的某种理想状态，而不与具体的技术...
Python爬虫编程实践--re bs及xpath
2020-04-23 23:31

迷糊小财迷的博客 Beautiful Soup库入门 Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 ...
Python安全攻防-从入门到入狱
2022-01-31 20:10

{Yasso}的博客 Python安全攻防-从入门到入狱
python docx_pythondocx
2020-11-24 12:06

weixin_39714275的博客广告关闭腾讯云11.11云上盛惠，精选...使用python编辑micorsoft word 文档 os:ms xp professional sp3 win32 python:2. 6.6 python-docx ：下载地址? python setup.py install ? 1. 可能未装lxml module造成的. ...
Python爬虫编程实践--task02
2020-04-23 21:45

sjtucq的博客 Beautiful Soup库的入门 xpath的使用 re的使用 1. Beautiful Soup库入门 Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此...
构建RAG智能助手：浦语大模型实战营第二期——茴香豆编程体验
2024-06-16 13:38

xziyuan的博客其中上下文管理可以使用小一点的语言模型来检测和筛选出不必要的标记，例如信息提取器和信息压缩器主要分为三个重要的部分预处理将用户的输入筛选转换为合适的问询拒答工作流根据问询和数据库示例问题的比较，给出...
茴香豆：搭建RAG智能助手第三课实战
2024-06-08 17:35

嘻嘻嘻577的博客 RAG 生态、三种范式、RAG优化方法、RAG关键问题（检索什么？何时检索？如何检索？）、RAG 发展前景、RAG评测（目标、评测维度、评测框架）茴香豆是基于LLMs的领域知识助手，由书生浦语团队开发的开源大语言模型的...
Python3实现某网站自动签到并且发短信到手机
2018-04-25 20:49

蚁景网安实验室的博客本文原创作者： Lhaihai原创投稿详情：重金悬赏 | 合天原创投稿等你来！0x00 前言这几天学了学python爬虫，就想用python实现一下自动签到领取积分，毕竟我比较懒，能不...
[书生·浦语大模型实战营]——第三节：茴香豆：搭建你的 RAG 智能助理
2024-05-26 13:58

不是吧这都有重名的博客通过与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供的回答、推理、实现。RAG ...
【InternLM 实战营第二期-笔记3】茴香豆：搭建你的 RAG 智能助理
2024-04-12 13:16

Oven_maizi的博客大模型的训练时间在前...（不需要训练，解决新增知识的问题）Rag(retrieval augmented generation)是一种结合了检索（retrieval)和生成（generation)的技术，旨在通过利用外部知识库来增强大型语言模型（llms)的性能。
《书生·浦语大模型实战营》第3课学习笔记：搭建你的 RAG 智能助理(茴香豆)
2024-06-03 00:48

shiter的博客 RAG（Retrieval Augmented Generation）技术，通过检索与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可...
python爬取《天才基本法》原著小说
2022-11-11 15:00

黑客老许的博客 python爬取《天才基本法》原著小说
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金5元 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月12日

我想请教一下有关python的lxml库使用的问题

1条回答 默认 最新

问题事件

1条回答默认最新