出租车载客点提取询问

以下是我的代码，但运行后上车点和下车点各只剩80多个，原始出租车轨迹数据有10千万+条，请问代码是哪里有问题吗？

data['空重_1']=data['空重'].shift(1)
data['change']=data['空重']-data['空重_1']
data=data.drop(['空重_1'],axis=1) #axis=0 为删掉某行； axis=1位删掉某列
data=data.loc[(data['change']==1) |(data['change']==-1)]

# 初始化上车点和下车点的列表  
pickups = []  
dropoffs = []  

# 遍历数据，根据差值判断上车点和下车点  
for index, row in data.iterrows():  
     
        # 只在index不是最后一行和第一行时才进行处理  
    if index < len(data) - 1 and index > 0 :  
      
      
    # 判断差值  
        if row['change'] == 1 :  
        # 乘客上车过程，选取上一行的数据（车载状态为0）作为上车点  
        # 同时保留相关列的信息  
            pickups.append({  
                '车牌号': data.iloc[index - 1]['车牌号'],  
                '时间': data.iloc[index - 1]['时间'],  
                '空重': 0,  # 上车点车载状态为0  
                'lon': data.iloc[index - 1]['lon'],  
                'lat': data.iloc[index - 1]['lat'],  
                'geometry': data.iloc[index - 1]['geometry'] if 'geometry' in df.columns else None,  
                '事件类型': '上车点'  
            })  
        elif row['change'] == -1:  
        # 乘客下车过程，选取当前行的数据（车载状态为1）作为下车点  
        # 同时保留相关列的信息  
            dropoffs.append({ 
                '车牌号': row['车牌号'],  
                '时间': row['时间'],  
                '空重': 1,  # 上车点车载状态为1
                'lon': row['lon'],  
                'lat': row['lat'],  
                'geometry': row['geometry'] if 'geometry' in df.columns else None,  
                '事件类型': '下车点'  
            })  
        # 将上车点和下车点的列表转换为DataFrame  
pickup_df = pd.DataFrame(pickups)  
dropoff_df = pd.DataFrame(dropoffs)  
# 将结果保存到新的CSV文件中  
pickup_df.to_csv('C:/Users/zyx20/Desktop/毕设/出租2019/taxi_pickups.csv', index=False)  
dropoff_df.to_csv('C:/Users/zyx20/Desktop/毕设/出租2019/taxi_dropoffs.csv', index=False)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

檀越@新空间 2024-03-13 11:27

关注

tjdnbj 上午好☀️☀️☀️️
本答案参考ChatGPT-3.5

根据您提供的代码和问题描述，可以分析出以下可能的问题和解决方案：

问题1：出租车载客点只剩80多个，而原始出租车轨迹数据有10千万+条。解决方案：

可能是数据筛选条件不准确，导致未能正确提取出乘客上车和下车的点。 可以检查列'time'和'空重'的取值范围是否正确，并确保数据整体按时间排序。
另外，建议使用更高效的遍历方式，例如使用dataframe的apply函数或者使用numpy向量化处理。

问题2：代码中对两个数据框进行了重复赋值，结果导致只有最后一部分的上车点和下车点被保留。解决方案：

在遍历数据过程中，每次上车点和下车点的信息都会被赋值给pickup_df和dropoff_df，但是只有最后一次赋值会被保留，导致只有最后一部分的上车点和下车点被保存到结果文件中。可以将pickup_df和dropoff_df的初始化移到遍历数据的外部，然后将每次生成的字典追加到对应的数据框中。

修改后的代码如下所示：

import pandas as pd

data['空重_1'] = data['空重'].shift(1)
data['change'] = data['空重'] - data['空重_1']
data = data.drop(['空重_1'], axis=1)
data = data.loc[(data['change'] == 1) | (data['change'] == -1)]

# 初始化上车点和下车点的列表
pickups = []
dropoffs = []

# 遍历数据，根据差值判断上车点和下车点
for index, row in data.iterrows():

    # 只在index不是最后一行和第一行时才进行处理
    if index < len(data) - 1 and index > 0:

        # 判断差值
        if row['change'] == 1:
            # 乘客上车过程，选取上一行的数据（车载状态为0）作为上车点
            # 同时保留相关列的信息
            pickups.append({
                '车牌号': data.iloc[index - 1]['车牌号'],
                '时间': data.iloc[index - 1]['时间'],
                '空重': 0,  # 上车点车载状态为0
                'lon': data.iloc[index - 1]['lon'],
                'lat': data.iloc[index - 1]['lat'],
                'geometry': data.iloc[index - 1]['geometry'] if 'geometry' in data.columns else None,
                '事件类型': '上车点'
            })
        elif row['change'] == -1:
            # 乘客下车过程，选取当前行的数据（车载状态为1）作为下车点
            # 同时保留相关列的信息
            dropoffs.append({
                '车牌号': row['车牌号'],
                '时间': row['时间'],
                '空重': 1,  # 上车点车载状态为1
                'lon': row['lon'],
                'lat': row['lat'],
                'geometry': row['geometry'] if 'geometry' in data.columns else None,
                '事件类型': '下车点'
            })

# 将上车点和下车点的列表转换为DataFrame
pickup_df = pd.DataFrame(pickups)
dropoff_df = pd.DataFrame(dropoffs)

# 将结果保存到新的CSV文件中
pickup_df.to_csv('C:/Users/zyx20/Desktop/毕设/出租2019/taxi_pickups.csv', index=False)
dropoff_df.to_csv('C:/Users/zyx20/Desktop/毕设/出租2019/taxi_dropoffs.csv', index=False)

请在运行修改后的代码后再次检查提取出的上车点和下车点是否满足预期。如果仍有问题，请提供更多关于数据和处理逻辑的细节说明，以便更好地帮助您解决问题。

报告相同问题？

关注问题

基于出租车GPS数据的特征提取及可视化项目分析
2023-06-21 18:41

qq_53169545的博客尤其针对出租车GPS数据的数据分析更有价值，因为出租车满足了城市中不同人群的不同需求，同时出租车上的GPS定位终端可以定期采集多种信息，包括GPS进纬度坐标，速度，出租车行驶方向，出租车载客状态等，并且采集...
出租车数据分析
2017-01-24 12:38

weixin_33961829的博客 出租车数据分析一、实验简介图片来自pixabay.com 出租车是我们生活中经常乘坐的一种交通工具，但打车难的问题也限制了我们更好地利用这种交通方式。在哪些地方出租车更容易打到？在什么时候更容易打到出租车？...
spark如何进行聚类可视化_基于Spark的出租车轨迹处理与可视化平台
2020-12-23 13:22

周子寒的博客 出租车轨迹数据记录了城市道路与居民的流动信息, 对出租车轨迹数据的挖掘分析有助于城市智慧交通[的建设, 有利于制定合理的城市交通政策、合理配置城市公共交通、缓解城市交通拥堵.随着经济进步与空间信息技术的...
迎接大数据时代的挑战，开创多元交通数据新格局│前沿
2017-03-01 09:28

智能交通技术的博客货车GPS数据分析应用示例 出租车GPS数据的应用，不仅可以分析获取单车日均载客、日均营运里程、里程利用率等全面的出租车运营特征，还可以用于道路行程车速等路网运行分析，而乘客出行OD的深入分析还可以反应交通...
大数据典型应用(课件)(共20张PPT)高一信息技术同步精品课堂(浙教2019版必修1).pptx
2025-09-03 03:19

利用Python等编程语言，可以将出租车轨迹数据转化为直观的视觉图表，帮助研究者和管理者更好地理解和规划城市交通。智能交通中采集交通数据的设备种类繁多，包括但不限于交通监控摄像头、GPS导航系统、感应线圈、...
Spark SQL原理与代码实例讲解
2024-06-19 01:09

光子AI的博客 Spark SQL原理与代码实例讲解 1.背景介绍 1.1 大数据处理的挑战随着数据量的爆炸式增长,传统的数据处理方式已经无法满足实时性、高并发等需求。Hadoop等大数据处理框架应运而生,但其MapReduce编程模型较为复杂,且对
武汉理工大学 python实验五
2024-05-29 09:20

咩兹卡的博客 出租车不受单双日限制通行。‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬ ‪‬‪‬‪‬...
【大学生数学建模竞赛】2019年数模竞赛C题通关指南
2025-08-26 13:44

大雨淅淅的博客机场出租车优化问题"的解题思路与实现过程。通过建立基于多属性的决策树模型，解决了出租车司机在机场等待或放空返回的决策问题；运用排队论构建了上车点设置优化方案；设计了短途载客优先权方案以均衡司机收益...
A城市巡游车与网约车运营特征对比分析—赛题介绍与准备工作
2020-09-07 14:28

sosososoon的博客 出租车每天的运营中会产生大量的上下车点位相关信息，对这些数据进行科学合理的关联和挖掘，对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化，对出租车候车泊位、管理调度和居民通勤特征的研究...
基于Python的Django出租车大数据分析系统实现
2023-07-04 08:30

王小王-123的博客提取出租车的经纬度，通过地图可视化工具Folium绘制出出租车载客热点区域，可以看出在杭州市的拱墅区、西湖区、上城区、滨江区和萧山国际机场出租车行驶主要分布在这些地方，其中最集中的是拱墅区，因此在这些区域...
【信息检索】文档评分和概率检索模型
2022-05-14 22:45

Alex_SCY的博客用Java语言或其他常用语言计算附件“HW4_1.txt”中的80个英文文档（每行表示一个document，文档编号1~80）两两之间的相似度值，并据此为每个文档返回相似度最大的3个文档。要求使用cosine similarity和TF-IDF计算...
【信息科学与工程学】【产品体系】第十二篇制造业生产加工05 控制算法 ——车辆控制（1）
2025-07-20 19:21

flyair_China的博客表5.91 底盘动力学与稳定性控制编号算法/系统名称核心数学描述/控制律关键参数/变量物理意义/控制目标典型应用场景优点与局限关联知识连接点 5.91.1 防抱死制动系统 (Anti-lock Braking System, ABS) 监测...
Python123 期末题库
2022-11-12 10:40

四川兔兔的博客本篇文章记录在 Python123 上面的题库，代码仅供参考，题量除了学校作业之外还去收集了一些。对有益处的同学可以收藏一下，把感受写在评论区，切勿关注，社恐谢谢！搜索 ctrl+F 搜索定位你的题目，不对就换博主...
大数据领域数据科学的聚类分析应用案例
2025-08-24 17:11

AI智能探索者的博客聚类分析（Clustering）是无监督学习（Unsupervised Learning）的核心任务之一，目标是将相似的数据点归为同一簇（Cluster），不相似的数据点归为不同簇。简单来说，就是“找朋友”：让性格、爱好、行为相似的“数据...
51c自动驾驶~合集41
2024-12-15 12:06

whaosoft-143的博客现有激光雷达语义分割的SOTA方法通常包含专门为机械...SFPNet能够提取多层上下文信息，并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。
Kepler.gl
2020-01-12 19:17

Dawn_www的博客前言 kepler.gl是由Uber开发的进行空间数据可视化的开源工具，是Uber内部进行空间数据可视化的默认工具，通过其面向Python开放的接口包keplergl，我们可以在jupyter...可以让你不需要任何编程基础，即可实现数据地...
大数据带你挖掘打车的秘籍（1）
2017-02-11 13:10

oxuzhenyi的博客 出租车数据分析一、实验简介图片来自pixabay.com 出租车是我们生活中经常乘坐的一种交通工具，但打车难的问题也限制了我们更好地利用这种交通方式。在哪些地方出租车更容易打到？在什么时候更容易打...
JAVA微服务知识概述
2022-06-22 10:50

道1993的博客打个比方：这就好比是网约车出现以前，人们出门叫车只能叫出租车。一些私家车想做出租却没有资格，被称为黑车。而很多人想要约车，但是无奈出租车太少，不方便。私家车很多却不敢拦，而且满大街的车，谁知道哪个才...
PTA 2021级-JAVA06 继承和多态、抽象类和接口
2022-10-24 22:39

CRAEN的博客在类Student中重写Object类的equals方法。使Student对象学号(id)相同时判定为同一对象。提示：观察派生类代码和main方法中的测试代码，补全缺失的代码。提示：观察类的定义和main方法中的测试代码，补全缺失的代码...
SSM框架之SpringCloud——SpringCloud概述
2021-12-18 22:20

小唐要努力的博客这些服务可以使用不同的编程语言实现，以及不同数据存储技术，并保持最低限度的集中式管理。微服务结构图： API Gateway网关是一个服务器，是系统的唯一入口。为每个客户端提供一个定制的API。 API网关的核心是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

出租车载客点提取询问

5条回答 默认 最新

问题事件

5条回答默认最新