afrcmg 2022-06-12 12:50 采纳率: 87.5%
浏览 41
已结题

我想请教一下有关python的lxml库使用的问题

我想使用xml解析一个网页。已经到了这一步:

tree=etree.HTML(text)
ob=tree.xpath('//*[@id="comic"]')[0]

ob是这样的:

<div>
    <src="url".........>
    <src="url".........>
    ......
<div>

然后我想要在ob里面提取src后面的url

我试过用ob.xpath('//@src'),但得到的不是ob里面的src,而是整个页面的所有src

请问应该怎么做?

  • 写回答

1条回答 默认 最新

  • 鸡蛋酱$ 2022-06-12 15:08
    关注
    
    from lxml import etree
    
    html = """<div>
        <img src="https://www.tianmao.com">
    </div>
    <div class="button">
        <img src="https://www.baidu.com">
        <img src="https://www.jd.com">
        <img src="https://www.taobao.com">
        <img src="https://www.aiqiyi.com">
    </div>"""
    the_html = etree.HTML(html)
    res = the_html.xpath(r'.//div[@class="button"]//@src')
    print(res)
    
    

    我们可以更具父标签的一些属性来确定位置,我的例子里面就是class

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 6月20日
  • 已采纳回答 6月12日
  • 赞助了问题酬金5元 6月12日
  • 创建了问题 6月12日

悬赏问题

  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊