yxr996 2023-03-26 10:47 采纳率: 14.3%
浏览 52
已结题

python爬取二手房信息的问题

错误信息为list index out of range,但不知道哪里错了


import requests
from lxml import etree
if __name__ == '__main__':
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
    }
    #爬取到页面源码数据
    url='https://newhouse.fang.com/house/s/'
    page_text=requests.get(url=url,headers=headers).text
    #数据解析
    tree=etree.HTML(page_text)#注意不可以再用parse了,因为我们需要的是网页上的数据,而不是本地数据
    #存储的就是li标签对象
    li_list=tree.xpath('//ul/li')
    fp=open('58.txt','w',encoding='utf-8')
    for li in li_list:
        title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0]
        print(title)
        fp.write(title+'\n')
  • 写回答

3条回答 默认 最新

  • 海洋 之心 2022年度博客之星人工智能领域TOP 1 2023-03-26 11:01
    关注

    根据您提供的代码和报错信息,问题出现在 title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0] 这一行,数组越界了。这可能是由于某些 li 标签没有找到对应的标题导致的。为了解决这个问题,您可以在获取标题之前,先判断一下是否有标题存在,例如:

    title_list = li.xpath('./div/div[2]/div[1]/div/a/text()')
    if title_list:
        title = title_list[0]
        print(title)
        fp.write(title+'\n')
    else:
        print('No title found.')
    

    这样,如果某个 li 标签没有找到对应的标题,就会打印出 No title found. 的提示信息,而不会导致数组越界错误。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 4月3日
  • 已采纳回答 3月26日
  • 创建了问题 3月26日

悬赏问题

  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败
  • ¥15 树莓派5怎么用camera module 3啊
  • ¥20 java在应用程序里获取不到扬声器设备
  • ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
  • ¥15 Attention is all you need 的代码运行
  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事: