循环计算时间差从第二个值变成NaT

问题遇到的现象和发生背景

循环计算时间差，但从第二个ID开始结果变成了NaT

问题相关代码，请勿粘贴截图

data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
data['time']=data['InvoiceDate'].groupby(data['ID']).rank(ascending=1, method='dense')
data=data.sort_values(by=['ID','time'],ascending=(1,1))
print(data)
abc = pd.DataFrame()
originData= pd.DataFrame()
originData= pd.DataFrame()
CID = data['ID'].unique()
for i in CID:
res=data[data['ID']==i]
originData['Time1'] = res['InvoiceDate'] - res['InvoiceDate'].fillna(0).shift(1)
originData['ID'] = i
originData['time2'] = res['time']
abc = pd.concat([abc, originData], ignore_index=True)

print('结果为：\n',abc.head(50))

运行结果及报错内容

   Time1     ID  time2

0 NaT 12346 1.0
1 4 days 12346 2.0
2 17 days 12346 3.0
3 10 days 12346 4.0
4 8 days 12346 5.0
5 39 days 12346 6.0
6 118 days 12346 7.0
7 NaT 12347 NaN
8 NaT 12347 NaN
9 NaT 12347 NaN
10 NaT 12347 NaN
11 NaT 12347 NaN
12 NaT 12347 NaN
13 NaT 12347 NaN
14 NaT 12348 NaN
15 NaT 12348 NaN
16 NaT 12348 NaN
17 NaT 12348 NaN
18 NaT 12348 NaN
19 NaT 12348 NaN
20 NaT 12348 NaN
21 NaT 12349 NaN
22 NaT 12349 NaN
23 NaT 12349 NaN
24 NaT 12349 NaN
25 NaT 12349 NaN
26 NaT 12349 NaN
27 NaT 12349 NaN
28 NaT 12350 NaN
29 NaT 12350 NaN
30 NaT 12350 NaN
31 NaT 12350 NaN
32 NaT 12350 NaN
33 NaT 12350 NaN
34 NaT 12350 NaN
35 NaT 12351 NaN
36 NaT 12351 NaN
37 NaT 12351 NaN
38 NaT 12351 NaN
39 NaT 12351 NaN
40 NaT 12351 NaN
41 NaT 12351 NaN
42 NaT 12352 NaN
43 NaT 12352 NaN
44 NaT 12352 NaN
45 NaT 12352 NaN
46 NaT 12352 NaN

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2022-03-23 18:26

关注

首先需要对读取的数据data进行预处理，另外代码中originData= pd.DataFrame()应该放到循环中才行，否则originData会在循环中不断增加导致合并时索引出错问题，出现了很多NaT和None。这样改即可：

import pandas as pd
import numpy as np

data=pd.read_csv('sjcl.csv', index_col=[0], encoding='utf-8',low_memory=False).reset_index()
data['ID']=data['ID'].astype(int)
data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
date1=data.sort_values(by=['ID','InvoiceDate'],ascending=(1,1)).reset_index(drop=True)
#print(date1.head(10))
abc = pd.DataFrame()
CID = data['ID'].unique().tolist()
for i in CID:
    originData = pd.DataFrame()
    locData = date1[date1['ID'] == i]
    originData['Time'] =locData['InvoiceDate']-locData['InvoiceDate'].fillna(0).shift(1)
    originData['ID'] = locData['ID']
    abc = pd.concat([abc, originData], ignore_index=True)

print('结果为：\n',abc.head(50))

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

循环计算时间差从第二个值变成NaT python 有问必答
2022-03-23 18:00

回答 2 已采纳首先需要对读取的数据data进行预处理，另外代码中originData= pd.DataFrame()应该放到循环中才行，否则originData会在循环中不断增加导致合并时索引出错问题，出现了很多N
python安装第三方库后没有办法用 pycharm python
2022-01-20 16:13

回答 2 已采纳把 pycharm 里的 interpretor 指向你已经安装np的python
第二行括号未闭合，不能执行 python
2022-09-17 17:32

回答 1 已采纳你这on top的双引号看着不太对劲啊，不会是全角字符吧
python计算循环次数查询_数据分析初探---利用Python进行简单数据分析
2020-12-10 03:27

weixin_39697143的博客数据分析中主要用到的Python中的两个包：numpy和pandas.本文主要介绍了如何利用Python进行一维数组以及二维数组的分析。用到了以上2个包，并且最后结合某医院的销售案例，简述了利用Python的numpy和pandas如何具体来...
如何在python上编写一个flask程序，刷新的时候可以输出三个1~10的随机数 flask python 有问必答
2022-06-30 19:12

回答 2 已采纳简单示例如下app.py from flask import Flask import random app = Flask(__name__) @app.route('/') def index
身体质量指数BMI的计算问题 python
2022-04-02 09:36

回答 1 已采纳这个只是占位的，0表示填充后面括号里的第一个值who，1表示填充第二个值nat的值
思科show ip nat translations 不显示nat转换表网络网络协议网络安全
2022-10-28 12:05

回答 1 已采纳地址池名字是不是错了，上面配置的pool-name是wl，后面调用的pool-name是wangluo
【Python入门指北】 Python计算机二级知识点
2022-10-01 13:26

guan12319的博客【Python入门指北】 Python计算机二级知识点
计算机网络Nat地址转换网络
2017-09-19 02:10

回答 1 已采纳 https://blog.csdn.net/SmalOSnail/article/details/53018236
内网访问内网nat问题 tcp/ip 网络协议网络安全
2022-07-05 11:49

回答 2 已采纳 nat表的结构知道吗？看看表的结构就是一个多对一的操作，多个ip通过一个ip映射出去，那么区分是那个ip映射的呢？就是通过ip+端口号，来区别，生成一个新的nat ip+端口的形式出去，回来的时候，通
如何通过nat技术访问外部服务器 http tcp/ip 网络协议
2022-06-16 13:00

回答 1 已采纳 Router9 配置NAT，地址转换成公网地址。圈中的路由器由运营商维护，实际不需要管
《利用Python进行数据分析·第2版》第11章时间序列
2018-07-03 09:17

白夜鬼魅的博客第 1 章准备工作第 2 章 Python 语法基础，IPython 和 Jupyter第 3 章 Python 的数据结构、函数和文件第 4 章 NumPy 基础：数组和矢量计算第 5 章 pandas 入门第 6 章数据加载、存储与文件格式第 7 章数据清洗和...
iptables 删除nat配置，无法阻断历史会话 linux tcp/ip 网络安全
2022-08-22 17:24

回答 2 已采纳这是因为在Linux上还有nat的会话，这个会话是根据你的nat规则生成的，数据进来后会先匹配会话，没有会话再根据nat规则生成回话，还有这个回话是有超时时间的，很显然你在删除防火墙规则时你这个回话还
Python 教学 | Pandas 时间数据处理方法
2023-08-02 11:40

企研数据的博客本期我们就来学习如何在 Pandas 中处理时间类型数据。本教程基于 pandas 1.5.3 版本书写。
Python数据分析学习系列十一时间序列
2022-06-21 19:21

天涯尽头黄鹤楼的博客在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间序列也可以是不定期的，没有固定的...
没有解决我的问题, 去提问