年华123 2022-06-12 12:50 采纳率: 82.4%
浏览 42
已结题

我想请教一下有关python的lxml库使用的问题

我想使用xml解析一个网页。已经到了这一步:

tree=etree.HTML(text)
ob=tree.xpath('//*[@id="comic"]')[0]

ob是这样的:

<div>
    <src="url".........>
    <src="url".........>
    ......
<div>

然后我想要在ob里面提取src后面的url

我试过用ob.xpath('//@src'),但得到的不是ob里面的src,而是整个页面的所有src

请问应该怎么做?

  • 写回答

1条回答 默认 最新

  • 鸡蛋酱$ 2022-06-12 15:08
    关注
    
    from lxml import etree
    
    html = """<div>
        <img src="https://www.tianmao.com">
    </div>
    <div class="button">
        <img src="https://www.baidu.com">
        <img src="https://www.jd.com">
        <img src="https://www.taobao.com">
        <img src="https://www.aiqiyi.com">
    </div>"""
    the_html = etree.HTML(html)
    res = the_html.xpath(r'.//div[@class="button"]//@src')
    print(res)
    
    

    我们可以更具父标签的一些属性来确定位置,我的例子里面就是class

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 6月20日
  • 已采纳回答 6月12日
  • 赞助了问题酬金5元 6月12日
  • 创建了问题 6月12日