需求产生的原因是:
我要做聊天内容的数据分析,然后发现,很多人在聊天时,一段内容不一定在一条消息里能说清楚,经常会分成几条消息发过来
而这几条消息,一般会在1分钟内表达完,所以应该把这几条消息,看成一条消息,来做分析,所以有了这个需求
现在pandas有AB两列数据,A列数据是聊天时间,B列数据是聊天内容
现在我想筛选出A列聊天时间在任意1分钟内的聊天内容
比如,下图,应该分成这么两段数据来分析,但如何分开呢
需求产生的原因是:
我要做聊天内容的数据分析,然后发现,很多人在聊天时,一段内容不一定在一条消息里能说清楚,经常会分成几条消息发过来
而这几条消息,一般会在1分钟内表达完,所以应该把这几条消息,看成一条消息,来做分析,所以有了这个需求
现在pandas有AB两列数据,A列数据是聊天时间,B列数据是聊天内容
现在我想筛选出A列聊天时间在任意1分钟内的聊天内容
比如,下图,应该分成这么两段数据来分析,但如何分开呢
简单说下思路吧,代码就不给了。
首先使用pandas的函数通过第一行(时间那一行)进行一次排序,利用滑动窗口的方式进行一分钟的窗口限制。你可以理解为有两个位置分别控制一分钟的左侧和一分钟的右侧。左侧不动,右侧慢慢向时间增长的方向移动,当左侧比右侧大一分钟时,这个窗口分成一组,之后移动左侧指针一次,按照上述方式移动并分组最后得到所有分组的结果,结束条件就是右侧的指针到达表的末尾。