s692028225 2019-01-11 17:23 采纳率: 100%
浏览 3932
已采纳

python3中使用xpath无法定位,为什么一直返回空列表?

这几天在学习xpath的时候发现无法正确定位,返回的div_list都是空列表,但response信息是有正确返回的。可是怎么检查也没发现错误,希望大佬们麻烦看看,谢谢。
python版本3.6.

    def select_html(self,response):   #筛选网页信息
        html = etree.HTML(response)
        #分组
        div_list = html.xpath("//div[@id='content-left']/div")
        print(div_list)
        for line in div_list:
            data = {}
            data['content'] = line.xpath(".//div[@class='content']/span/text()")
            data['stats'] = line.xpath(".//div[@class='stats']/span[@class='stats-vote']/i/text()")
            data['comment_number'] = line.xpath(".//span[@class='stats-comments']/a/i/text()")
            data['img'] = 'https:'+ line.xpath(".//div[@class='thumb']/a/img/@src") 

爬的是糗事百科的内容,下面是糗事百科的html截图:
图片说明

另附上糗百原址:
https://www.qiushibaike.com/hot/page/

  • 写回答

3条回答 默认 最新

  • 下羽 2019-01-12 20:24
    关注

    最后一句会报错,去掉最后一句正常运行,可以参考下我的代码看看问题出现在哪:

    from lxml import etree
    import requests
    
    url = 'https://www.qiushibaike.com/hot/'
    
    r = requests.get(url)
    try:
        r.raise_for_status()
    
        html = etree.HTML(r.text)
        div_list = html.xpath("//div[@id='content-left']/div")
        for line in div_list:
            data = {}
            data['content'] = line.xpath(".//div[@class='content']/span/text()")
            data['stats'] = line.xpath(".//div[@class='stats']/span[@class='stats-vote']/i/text()")
            data['comment_number'] = line.xpath(".//span[@class='stats-comments']/a/i/text()")
            # data['img'] = 'https:'+ line.xpath(".//div[@class='thumb']/a/img/@src") # 这一句会报错
    
            print(data)
    except:
        print('获取网页失败')
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 请采纳用户回复 7月7日

悬赏问题

  • ¥15 想问一下stata17中这段代码哪里有问题呀
  • ¥15 flink cdc无法实时同步mysql数据
  • ¥100 有人会搭建GPT-J-6B框架吗?有偿
  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决