现在正在做预测算法,需要找服务器的CPU使用率数据(不同时间点的CPU使用率,时间间隔相同)。现在我找到了阿里巴巴集群的公开数据集https://gitcode.net/mirrors/alibaba/clusterdata/-/blob/master/cluster-trace-v2018/trace_2018.md
但是这个数据集的取样间隔不同,数据格式如下图所示
由于时间预测算法需要用时间间隔相等的数据,怎么把这种数据处理成等间隔的?或者有没有其他的数据集可以替代呢?
现在正在做预测算法,需要找服务器的CPU使用率数据(不同时间点的CPU使用率,时间间隔相同)。现在我找到了阿里巴巴集群的公开数据集https://gitcode.net/mirrors/alibaba/clusterdata/-/blob/master/cluster-trace-v2018/trace_2018.md
但是这个数据集的取样间隔不同,数据格式如下图所示
由于时间预测算法需要用时间间隔相等的数据,怎么把这种数据处理成等间隔的?或者有没有其他的数据集可以替代呢?
序列数据先按时间排序,如果已经是排序则跳过这一步
找到要计算的等间隔时间在数据集中的前后数据,用前一数据 + (前后数据之差 / 前后时间之差 * 前一时间与要计算时间之差) 即可处理成等间隔的数据
python代码参考
li=[
[0,12],
[620,9],
[810,12],
[830,13],
[1100,10],
[1550,19],
[1620,17],
[2480,16],
[4070,28],
[4400,3],
[4450,4],
[5140,8],
[5330,11],
[7060,58],
[7240,18]
]
sleep = 500 #等间隔值
time = 0
i = 0
while time<=li[-1][0]:
while time>=li[i][0]:
i+=1
z = li[i][1] - li[i-1][1]
p = li[i][0] - li[i-1][0]
t = time - li[i-1][0]
v = li[i-1][1] + z / p * t
print(time,v)
time += sleep
如有帮助,请点击我的回答下方的【采纳该答案】按钮帮忙采纳下,谢谢!