请看下面这个日志
用户id 视频id 操作
402 40086 开始播放
403 37896 开始播放
764 675 开始播放
1037 8696 开始播放
402 40086 暂停回放
764 675 暂停回放
。。。
。。。
。。。
这是一个视频门户用户播放视频产生的日志。这个日志假设有很多,几十个G
需求是,统计出哪个视频是用户最喜欢暂停回放的。。这个太简单了。。spark sql搞定。。
然而。。。上面那个只是一个理想的日志文件。。真实的日志文件是这样的
用户id 视频id 操作
402 40086 开始播放
403 37896 开始播放
764 675 开始播放
1037 8696 开始播放
402 暂停回放
764 暂停回放
。。。
。。。
。。。
会发现。。。当用户暂停回放的时候,那一行记录是没有视频id的。。。你只能往上面的日志去找了。。。而且如果在某些情况下,两条记录之间可能还会间隔几万条或者几十万条数据。。。
请问这种情况下。。。。。究竟是这个日志本身就是设计得不合理呢。。还是说目前有什么办法可以处理。。如果有办法。。。还请各位教教我