m0_62799778 2022-03-08 08:32 采纳率: 100%
浏览 404
已结题

Python爬虫 xpath 列表为空

用python爬取房天下的详情页,但是只有物业类别可以爬出来,其他均为空

img

img

原网址:https://wuxi.newhouse.fang.com/house/s/b91/

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2022-03-08 09:03
    关注

    第二个li的div下少了结束标签导致etree解析出错了

    img


    少了div结束标签后,etree将建筑类别后的几点全部归类到第二li下了,改下面这样就可以了

    img

    import requests
    from lxml import etree
    from lxml import html
    url="https://wuxi.newhouse.fang.com/loupan/1821129836/housedetail.htm"
    headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'}
    html=requests.get(url,headers=headers).text
    tree=etree.HTML(html)
    print(tree.xpath('/html/body/div[5]/div[5]/div/div[1]/div[1]/ul/li[1]/div[2]/a/text()'))
    print(tree.xpath('/html/body/div[5]/div[5]/div/div[1]/div[1]/ul/li[2]/div[2]/li[1]/div[2]/span/a/text()'))
    
    

    这种不规则的html代码建议用正则或者bs4来解析。

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月18日
  • 已采纳回答 3月10日
  • 创建了问题 3月8日

悬赏问题

  • ¥40 matlab简单代码修改补充
  • ¥15 python提取.csv文件中的链接会经常出现爬取失败
  • ¥15 数据结构中的数组地址问题
  • ¥15 maya的mel里,怎样先选择模型A,然后利用mel脚本自动选择有相同名字的模型B呢。
  • ¥15 Python题,根本不会啊
  • ¥15 会会信号与系统和python的来
  • ¥15 关于#python#的问题
  • ¥20 oracle RAC 怎么配置啊,配置
  • ¥15 excel 日常使用中出现问题
  • ¥20 pdusession建立失败