如何用DBSCAN算法对时间序列的异常数据清洗？(语言-python)

问题遇到的现象和发生背景

①如何用DBSCAN算法对时间序列的异常数据清洗呢？我的数据格式如下图：（请问需要把日期型变量转为数值型吗？怎么实现呢）

问题相关代码，请勿粘贴截图

②下面是我找到的DBSCAN算法相关代码，原码是从txt文件中输入数据，请问如果我要从我的excel输入数据应该改哪里呢？

import numpy as np
import matplotlib.pyplot as plt
import math
import time
UNCLASSIFIED = False
NOISE = 0
def loadDataSet(fileName, splitChar='\t'):#定义一个两参数的函数
"""
输入：文件名
输出：数据集
描述：从文件读入数据集
"""
dataSet = [] #创建一个空列表
with open(fileName) as fr:#打开文件赋给fr
for line in fr.readlines():#将文本文件每一行都作为独立的字符串对象并将这些对象放入列表返回。遍历给line
curline = line.strip().split(splitChar)#strip()如果不带参数，默认是清除两边的空白符,split(splitChar)
#将line字符串按照splitChar='\t'切分成多个字符串存在一个列表中，赋给curline
fltline = list(map(float, curline))#切分出的列表的每个值,用float函数把它们转成float型, list()函数把map函数返回的迭代器遍历展开成一个列表赋给fltline
dataSet.append(fltline)#添加到之前创建的空列表dataSet里
return dataSet
def dist(a, b):
"""
输入：向量A, 向量B
输出：两个向量的欧式距离
"""
return math.sqrt(np.power(a - b, 2).sum())
def eps_neighbor(a, b, eps):
"""
输入：向量A, 向量B
输出：是否在eps范围内
"""
return dist(a, b) < eps
def region_query(data, pointId, eps):
"""
输入：数据集, 查询点id, 半径大小
输出：在eps范围内的点的id
"""
nPoints = data.shape[1]
seeds = []
for i in range(nPoints):
if eps_neighbor(data[:, pointId], data[:, i], eps):
seeds.append(i)
return seeds
def expand_cluster(data, clusterResult, pointId, clusterId, eps, minPts):
"""
输入：数据集, 分类结果, 待分类点id, 簇id, 半径大小, 最小点个数
输出：能否成功分类
"""
seeds = region_query(data, pointId, eps)
if len(seeds) < minPts: # 不满足minPts条件的为噪声点
clusterResult[pointId] = NOISE
return False
else:
clusterResult[pointId] = clusterId # 划分到该簇
for seedId in seeds:
clusterResult[seedId] = clusterId

    while len(seeds) > 0: # 持续扩张
        currentPoint = seeds[0]
        queryResults = region_query(data, currentPoint, eps)
        if len(queryResults) >= minPts:
            for i in range(len(queryResults)):
                resultPoint = queryResults[i]
                if clusterResult[resultPoint] == UNCLASSIFIED:
                    seeds.append(resultPoint)
                    clusterResult[resultPoint] = clusterId
                elif clusterResult[resultPoint] == NOISE:
                    clusterResult[resultPoint] = clusterId
        seeds = seeds[1:]
    return True

def dbscan(data, eps, minPts):
"""
输入：数据集, 半径大小, 最小点个数
输出：分类簇id
"""
clusterId = 1
nPoints = data.shape[1]
clusterResult = [UNCLASSIFIED] * nPoints
for pointId in range(nPoints):
point = data[:, pointId]
if clusterResult[pointId] == UNCLASSIFIED:
if expand_cluster(data, clusterResult, pointId, clusterId, eps, minPts):
clusterId = clusterId + 1
return clusterResult, clusterId - 1

def plotFeature(data, clusters, clusterNum):
nPoints = data.shape[1]
matClusters = np.mat(clusters).transpose()
fig = plt.figure()
scatterColors = ['black', 'blue', 'green', 'yellow', 'red', 'purple', 'orange', 'brown']
ax = fig.add_subplot(111)
for i in range(clusterNum + 1):
colorSytle = scatterColors[i % len(scatterColors)]
subCluster = data[:, np.nonzero(matClusters[:, 0].A == i)]
ax.scatter(subCluster[0, :].flatten().A[0], subCluster[1, :].flatten().A[0], c=colorSytle, s=50)
def main():
dataSet = loadDataSet('788points.txt', splitChar=',')
dataSet = np.mat(dataSet).transpose()
# print(dataSet)
clusters, clusterNum = dbscan(dataSet, 2, 3)
print("cluster Numbers = ", clusterNum)
# print(clusters)
count=0 # Modified_用于将结果输出到文件
m=open('788points.txt').read().splitlines() # Modified_用于将结果输出到文件
out=open('788points_DBSCAN.txt','w') # Modified_用于将结果输出到文件
for n in m: # Modified_用于将结果输出到文件
out.write(n+',{0}\n'.format(clusters[count]))
count+=1
out.close() # Modified_用于将结果输出到文件
plotFeature(dataSet, clusters, clusterNum)
if name == 'main':
start = time.process_time() # Modified_将time.clock()替换为time.process_time()
main()
end = time.process_time() # Modified_将time.clock()替换为time.process_time()
print('finish all in %s' % str(end - start))
plt.show()

运行结果及报错内容

③下面是我用这个代码运行出来的结果：因为前面提到的不知道怎么把日期型改成数值型，我把时间改成了123456...不知道对不对。（调了很久那两个参数），我感觉下面的点应该都是黑色（噪声点）才对，可是就是调不出这种效果来该怎么办？

④还有一个问题就是这行代码scatterColors = ['black', 'blue', 'green', 'yellow', 'red', 'purple', 'orange', 'brown'] dbscan是自动分类的（事先不知道分几类），为什么这里可以提前指定分8类颜色呢？

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
艾鹤 2022-06-28 18:21
关注
获得5.40元问题酬金

时间应该是横轴吧，这个不用输入吧，用数据去建模吧；如果非要用那就映射成数字吧。

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

时间序列异常检测相关代码
2024-10-22 17:46

Python在时间序列异常检测中的优势在于其简洁的语法和强大的数据处理能力，但同样存在挑战，比如数据质量控制、算法选择以及如何解读和利用检测到的异常。开发者需要具备一定的数据科学知识和经验，才能更好地利用...
全国青少年编程Python编程四级试卷1及答案.pdf
2022-04-07 09:33

【全国青少年编程Python编程四级试卷】涉及的知识点涵盖了Python编程的基础和高级概念，包括数据结构、算法、程序设计以及编程语言特性。以下是根据题目内容解析的相关知识点： 1. **栈**：栈是一种后进先出（LIFO...
数学建模编程语言选择指南：Python、R 还是 MATLAB？
2025-03-20 23:18

二进制的Liao的博客 Python、R 和 MATLAB 作为三种广泛...在这篇博客中，我们将深入探讨 Python、R 和 MATLAB 在数学建模中的优缺点，结合具体应用场景（如线性回归、ARIMA 模型、聚类分析等），帮助您根据实际需求选择最合适的编程语言。
四种聚类算法实现对控制图时间序列的聚类
2020-07-01 21:46

主要针对控制图时间序列数据集的聚类任务，使用了基于划分的（K-Means）、基于层次的（AGNES）、基于密度的（DBSCAN）以及基于图的（spectral clustering）聚类方法，最后可视化结果，用Jupyter Notebook编写...
风电功率预测数据集中异常数据处理与模型构建
2025-04-05 14:31

首先，通过物理阈值过滤和DBSCAN聚类算法去除明显的异常数据，如负功率值和不合常理的高功率值。接着，利用LSTM神经网络进行功率预测，并引入风速-功率关系的物理约束作为正则项，提高模型的准确性。此外，还探讨了...
时间序列数据异常检测算法（2）——基于距离/密度的经典算法
2025-10-21 15:11

ericliu0625的博客本文系统梳理时间序列异常检测算法，从传统方法到深度学习前沿技术。重点分析基于集成与森林的算法，包括孤立森林、随机割森林等，详述其原理、优缺点及适用场景。这些算法通过集成多个模型提升检测性能，具有计算...
python 聚类效果图利用DBSCAN方法对用户的使用时间进行聚类，
2024-04-24 16:33

在Python编程环境中，数据挖掘和机器学习是两个重要的领域，其中聚类是一种无监督学习方法，用于发现数据集中的自然群体或类别。本项目聚焦于使用DBSCAN（Density-Based Spatial Clustering of Applications with ...
python 聚类效果图利用DBSCAN方法对用户的使用时间进行聚类
2023-01-30 20:05

在Python编程语言中，数据挖掘和机器学习领域广泛使用聚类算法来无监督地发现数据集中的模式。这里，我们关注的是"DBSCAN"（Density-Based Spatial Clustering of Applications with Noise）算法，它是一种用于发现...
DBSCAN算法及Python实践
2024-08-24 23:46

AI智博信息的博客 DBSCAN算法将簇定义为密度相连的点的最大集合，即一个簇是由密度可达关系导出的最大密度相连样本集合。它通过将紧密相连的样本划为一类，从而得到最终的聚类结果。：与K-Means等基于距离的聚类算法不同，DBSCAN不...
【车辆轨迹处理】python实现轨迹点的聚类（二）—— ST-DBSCAN算法
2024-07-25 20:01

空之箱大战春日影的博客在笔者之前的文章中，笔者使用了DBSCAN算法来做这一件事。然而，对于时序的车辆经纬度数据，DBSCAN有一个很大的问题——没有考虑数据中蕴含的时间信息！时间信息是时间序列数据与其他数据区别的重要特征。举个例子：...
python DBSCAN聚类算法
2022-11-27 21:25

amor254的博客 python的DBSCAN聚类算法，这个算法是以密度为本的，DBSCAN 是一个最常用的聚类分析算法，
数据挖掘之DBSCAN算法（头歌）
2024-04-23 09:01

大懒人一个的博客数据为一份信用卡用户行为数据，这里我们已经将其数据化，一共有105个用户，每一个用户都记录了两个特征，其中5个异常用户，部分数据如下：数据获取代码如下：在这里，我们使用sklearn中的方法自己制作了一份数据，...
Python+sklearn使用DBSCAN聚类算法案例一则
2018-01-30 20:16

dongfuguo的博客 DBSCAN聚类算法概述：DBSCAN属于密度聚类算法，把类定义为密度相连对象的最大集合，通过在样本空间中不断搜索最大集合完成聚类。DBSCAN能够在带有噪点的样本空间中发现任意形状的聚类...
Python-Python编码示例和机器学习算法的文档
2019-08-11 06:07

Python是一种广泛应用于各种领域的高级编程语言，特别是在数据分析、科学计算和机器学习方面。这份文档集“Python-Python编码示例和机器学习算法的文档”旨在为开发者提供丰富的Python编程实践和机器学习算法的理解...
DBSCAN在时间序列数据聚类中的应用
2023-12-31 01:33

程序员光剑的博客 时间序列数据聚类是一种常见的数据挖掘任务，它涉及到对时间序列数据中的相似性进行分组和分析。在现实生活中，时间序列数据聚类应用非常广泛，例如金融市场数据分析、人体活动识别、气象数据分析等。因此，研究时间...
Python-Yandex数据分析学院自然语言处理课程资料
2019-08-11 06:27

1. **Python基础知识**：Python作为NLP领域的首选编程语言，其简洁的语法和丰富的库支持使得处理文本数据变得高效。了解Python的基础语法、数据类型、控制结构以及异常处理是学习NLP的前提。 2. **文本预处理**：...
python数据分析实例代码 - 基于基站定位的商圈分析.rar
2024-06-26 15:23

2. **数据预处理**：在进行商圈分析前，通常需要对基站定位数据进行预处理，包括数据清洗（去除异常值、缺失值填充）、数据集成（合并多个数据源）和数据转换（如坐标标准化、时间戳处理）等步骤。 3. **基站定位...
K-Means算法和DBSCAN算法
2022-02-09 18:09

心️升明月的博客文章目录一、聚类二、K-Means算法1、基本概念2、工作流程3、优缺点二、DBSCAN算法1、基本概念2、工作流程3、参数选择4、优缺点三、可视化展示1、K-Means算法2、DBSCAN算法四、参考文献一、聚类聚类是根据在数据中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月24日