python爬取二手房信息的问题

错误信息为list index out of range,但不知道哪里错了


import requests
from lxml import etree
if __name__ == '__main__':
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
    }
    #爬取到页面源码数据
    url='https://newhouse.fang.com/house/s/'
    page_text=requests.get(url=url,headers=headers).text
    #数据解析
    tree=etree.HTML(page_text)#注意不可以再用parse了，因为我们需要的是网页上的数据，而不是本地数据
    #存储的就是li标签对象
    li_list=tree.xpath('//ul/li')
    fp=open('58.txt','w',encoding='utf-8')
    for li in li_list:
        title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0]
        print(title)
        fp.write(title+'\n')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
海洋之心 2022年度博客之星人工智能领域TOP 1 2023-03-26 11:01
关注
根据您提供的代码和报错信息，问题出现在 title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0] 这一行，数组越界了。这可能是由于某些 li 标签没有找到对应的标题导致的。为了解决这个问题，您可以在获取标题之前，先判断一下是否有标题存在，例如：

title_list = li.xpath('./div/div[2]/div[1]/div/a/text()') if title_list: title = title_list[0] print(title) fp.write(title+'\n') else: print('No title found.')

这样，如果某个 li 标签没有找到对应的标题，就会打印出 No title found. 的提示信息，而不会导致数组越界错误。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬取二手房信息的问题 python
2023-03-26 10:47

回答 3 已采纳根据您提供的代码和报错信息，问题出现在 title=li.xpath('./div/div[2]/div[1]/div/a/text()')[0] 这一行，数组越界了。这可能是由于某些 li 标签没有
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
利用Python一键爬取上海二手房信息
2020-09-25 16:57

python程序员小'鹏的博客我在上海工作的时候有朋友就发信息问我上海一些二手房的价格情况，作为一个二愣子我只知道上海哪个区贵，但是不知道具体是什么价格，所以我就想着爬取一下上海的二手房。从政策上来看，自从2016年国家喊出了“ 房主...
求助：python爬取12306车票信息总是出现错误 python
2020-02-01 11:55

回答 3 已采纳抓包看下，返回的数据不是标准的json，可能是返回了错误提示信息，如果那样，先看下提示了什么。12306经常升级，你直接拷贝以前别人写的代码肯定不行，建议你抓包以后根据浏览器的提交，自己写，最好用 w
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬虫爬取网页信息问题 python
2019-05-14 08:32

回答 1 已采纳将字符串中空格去掉。
python爬取链家深圳全部二手房的详细信息
2019-08-03 15:10

嗨学编程的博客爬取链家深圳全部二手房的详细信息，并将爬取的数据存储到CSV文件中 2、思路分析: (1)目标网址：https://sz.lianjia.com/ershoufang/ (2)代码结构： class LianjiaSpider(object): def __init__(self): def ...
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python爬取音乐 python
2023-01-11 17:11

回答 2 已采纳可以先从post data中查看url请求时提交的参数，根据参数名在js源码中检索，大致梳理一下代码执行的流程，在可疑处附近打上断点
Python爬取房天下二手房信息
2020-12-13 13:53

今天肝代码了吗的博客实现python爬取房天下网站所有城市的二手房信息文章目录一、相关知识二、目标三、实现思路1.准备工作2.获取所有城市及对应网址3.遍历城市，获取所需信息4.将分解的信息存到csv中四、完整代码五、实现结果一、...
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
Python爬取某二手房官网某地区二手房的数据【附加源码】
2024-04-01 17:38

小唐编程细致入微的博客 Python爬取二手房数据并保存到Excel表中是一个常见的数据爬取与处理任务。您可以使用Python中的库如Requests、BeautifulSoup来爬取网页数据，再使用Pandas库将数据保存到Excel表中。
Python爬取链家成都二手房源信息
2020-10-20 18:09

wade1203的博客作者 |旧时晚风拂晓城编辑| JackTian来源 | 杰哥的IT之旅（ID：Jake_Internet）转载请联系授权（微信ID：Hc220066）公众号后台回复：「成都二手房数...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月26日

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

python爬取二手房信息的问题

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新