optics图像聚类无法正确聚类

optics图像聚类簇数过多
被要求对类似以下图片做基于距离的聚类

之后我使用optics在多轮调参后始终无法使每一列聚为一类，总是断断续续的

我想让他一列能连出一条线，这个该怎么修改。
以下是主要代码

import os
import math
import shutil

import cv2
import numpy as np
import ssd
from sklearn.cluster import DBSCAN, OPTICS
from tqdm import tqdm
from sklearn.cluster import AgglomerativeClustering
import scipy.spatial.distance as ssd

def point_to_line_distance(x1, y1, slope, x2, y2):
    A = slope
    B = -1
    C = y1 - slope * x1
    distance = abs(A * x2 + B * y2 + C) / math.sqrt(A ** 2 + B ** 2)
    return distance


def angel_distance(angel1, angel2):
    return 180 - abs(abs(angel1 - angel2) - 180)


def point_distance(x1, y1, x2, y2):
    return math.sqrt((x2 - x1) ** 2 + (y2 - y1) ** 2)


def merge_close_clusters(points, labels, distance_threshold=50):
    # 根据标签对点进行分组
    clusters = {}
    for label, point in zip(labels, points):
        if label not in clusters:
            clusters[label] = []
        clusters[label].append(point)

    # 合并距离小于阈值的簇
    for label1, points1 in clusters.items():
        for label2, points2 in clusters.items():
            if label1 < label2:  # 避免重复合并
                for point1 in points1:
                    for point2 in points2:
                        if point_distance(point1[0], point1[1], point2[0], point2[1]) < distance_threshold:
                            # 合并簇label1到label2
                            for i in range(len(labels)):
                                if labels[i] == label1:
                                    labels[i] = label2
                            break

    return labels
def merge_components(comp1, comp2):
    x1, y1 = comp1[0]
    w1, h1, area1, (cx1, cy1) = comp1[1:]
    x2, y2 = comp2[0]
    w2, h2, area2, (cx2, cy2) = comp2[1:]

    # 合并边界框
    x = min(x1, x2)
    y = min(y1, y2)
    w = max(x1 + w1, x2 + w2) - x
    h = max(y1 + h1, y2 + h2) - y

    # 合并面积
    area = area1 + area2

    # 计算新的质心
    cx = (cx1 * area1 + cx2 * area2) / area
    cy = (cy1 * area1 + cy2 * area2) / area

    return [(x, y), w, h, area, (int(cx), int(cy))]


# 文件夹路径
folder_path = r'E:\image/'  # 替换为你的图像路径
output_folder = 'temp/'

# 如果输出文件夹不存在，则创建
if os.path.exists(output_folder):
    shutil.rmtree(output_folder)
os.makedirs(output_folder)

# 获取文件夹中所有图像路径
images_path = os.listdir(folder_path)
images_path = [os.path.join(folder_path, image_path) for image_path in images_path]
for image_path in tqdm(images_path):
    # 读取图像
    image = cv2.imread(image_path)

    # 读取二值化图像
    binary_image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)

    # 进行连通组件标记
    num_labels, labels, stats, centroids = cv2.connectedComponentsWithStats(binary_image, connectivity=8)

    # 遍历所有组件（第一个组件是背景，所以从1开始）
    components_list = []
    for i in range(1, num_labels):
        # 获取组件的统计信息
        x, y, w, h, area = stats[i]
        if area <= 100:
            continue
        cx, cy = centroids[i]
        cx = int(cx)
        cy = int(cy)

        # 绘制中心点
        # cv2.circle(image, (cx, cy), 3, (0, 0, 255), -1)

        components_list.append([(x, y), w, h, area, (cx, cy)])

    # 合并距离小于50像素的组件
    while True:
        merged = False
        for i in range(len(components_list)):
            for j in range(i + 1, len(components_list)):
                cx1, cy1 = components_list[i][4]
                cx2, cy2 = components_list[j][4]
                if point_distance(cx1, cy1, cx2, cy2) < 50:
                    new_component = merge_components(components_list[i], components_list[j])
                    components_list[i] = new_component
                    del components_list[j]
                    merged = True
                    break
            if merged:
                break
        if not merged:
            break
        # 使用 OPTICS 聚类算法
        # 提取质心坐标
    points = np.array([component[4] for component in components_list])

    # 使用 OPTICS 聚类算法
    optics = OPTICS(min_samples=0.0025,xi=0.008, max_eps=300,metric='manhattan')
    labels = optics.fit_predict(points)

    # 检查聚类结果
    # 打印聚类结果的统计信息
    unique_labels = np.unique(labels)
    print("Clustered labels:", unique_labels)
    for label in unique_labels:
        if label == -1:
            continue  # 忽略噪声点
        print(f"Cluster {label} has {len(points[labels == label])} points")

    new_labels = merge_close_clusters(points, labels)

    for label in np.unique(new_labels):
        if label == -1:
            continue  # 忽略噪声点
        cluster_points = points[new_labels == label]
        if len(cluster_points) > 1:
            sorted_points = sorted(cluster_points, key=lambda point: point[1])
            for i in range(1, len(sorted_points)):
                start_point = (int(sorted_points[i - 1][0]), int(sorted_points[i - 1][1]))
                end_point = (int(sorted_points[i][0]), int(sorted_points[i][1]))
                cv2.line(image, start_point, end_point, (0, 0, 255), 20)


        # 保存图像
        output_path = os.path.join(output_folder, os.path.basename(image_path))
        cv2.imwrite(output_path, image)
    else:
        print("No valid clusters found with current parameters. Adjusting parameters may be needed.")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-07-10 11:43
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

您好！很高兴您在尝试使用 OPTICS 算法进行图像聚类时想到了我。从您提供的信息来看，您已经做了很多尝试，但聚类结果仍然不尽如人意。让我们一步步来分析可能的问题和解决方案。

首先，OPTICS 算法是一种基于密度的聚类算法，它类似于 DBSCAN，但不需要指定邻域半径（eps）。您在代码中使用的参数包括 min_samples, xi, 和 max_eps。这些参数对聚类结果有很大的影响：

min_samples：一个区域内所需的最小样本数，以被认为是一个核心点。
xi：这个参数用于确定两个点之间的可达性距离，通常设置为一个较小的值，比如 0.01 到 0.05。
max_eps：最大的可达性距离，超过这个距离的点将不会被考虑。

可能的解决方案：

参数调整：您可能需要进一步调整 min_samples 和 xi 的值。如果 min_samples 太大，可能会导致算法无法识别较小的簇。如果 xi 太小，算法可能会过于敏感，导致簇分散。

预处理：在进行聚类之前，对图像进行适当的预处理可能会有所帮助。例如，可以尝试使用形态学操作来消除噪点，或者使用图像滤波器来平滑图像。

特征选择：您可能需要考虑使用不同的特征进行聚类。例如，如果连通组件的方向很重要，您可能需要计算每个组件的主方向，并使用这个方向作为聚类的特征之一。

后处理：在聚类之后，您已经实现了一个 merge_close_clusters 函数来合并接近的簇。您可能需要调整这个函数中的 distance_threshold，或者考虑使用不同的方法来合并簇。

算法选择：如果 OPTICS 算法仍然无法满足您的需求，您可以考虑尝试其他聚类算法，比如 DBSCAN 或者 Agglomerative Clustering，并调整它们的参数。

可视化：为了更好地理解聚类结果，您可以尝试将聚类结果可视化。这可以帮助您直观地看到哪些部分的聚类效果不佳，并据此调整参数。

专业库：考虑使用专业的图像处理和聚类库，如 scikit-image 或其他，它们可能提供了更高级的聚类方法和工具。

代码建议：

在聚类之前，您可以尝试将连通组件的质心标准化，以消除由于图像尺寸不同带来的影响。
在 merge_close_clusters 函数中，您可能需要考虑合并簇的策略，比如根据簇的大小或者形状特征来决定是否合并。

最后，由于我无法直接运行代码，我建议您根据上述建议逐一尝试，并观察聚类结果的变化。希望这些建议能够帮助您解决问题。如果您需要进一步的帮助，比如具体的代码实现或者算法的详细解释，请随时告诉我。

参考链接：

Scikit-learn OPTICS 文档
Scikit-image 文档
解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

The Screen Behind the Mirror
2017-09-25 23:44

回答 1 已采纳 http://www.acmerblog.com/hdu-2353-the-screen-behind-the-mirror-3569.html
基于密度的聚类算法optics（matlab程序）。
2022-04-21 10:30

基于密度的聚类算法optics（matlab程序）。官方程序，亲测好用，欢迎下载。
OPTICS_Clustering:OPTICS 无监督聚类算法的 MATLAB 实现
2021-06-06 18:29

##OPTICS CLUSTERING## 此 MATLAB 函数根据 Ankerst、Mihael 等人的图 19 中介绍的算法计算一组集群。 “光学：排序点来识别聚类结构。” ACM Sigmod 记录。卷。 28. 第 2 号。ACM，1999 年。剑桥大学Alex Kendall...
基于OPTICS密度聚类的变电设备状态监测异常点检测算法.zip
2024-07-01 10:48

基于OPTICS密度聚类的变电设备状态监测异常点检测算法.zip 个人经导师指导并认可通过的高分项目，评审分98分。主要针对计算机相关专业和需要项目实战练习的学习者，也可作为课程设计、期末大作业。个人经导师指导...
【聚类算法】OPTICS基于密度聚类
2023-07-06 16:30

胡侃有料的博客对DBSCAN的补充，OPTICS聚类。
Open3D 进阶（3）OPTICS点云聚类
2023-07-07 05:25

点云侠的博客 OPTICS算法用于三维点云聚类的python代码实现。
聚类分析OPTICS算法python实现
2018-11-25 08:53

使用`sklearn.cluster.OPTICS`，我们可以轻松地执行OPTICS聚类。以下是一个基本的Python代码示例： ```python from sklearn.cluster import OPTICS import numpy as np # 创建样本数据 data = np.array([[1, 2], ...
OPTICS聚类算法的实现
2024-06-13 15:59

ZHW_AI课题组的博客 OPTICS 的输出是一系列有序的点，每个点有一个核心距离和可达距离。通过这些距离，可以生成一个可达距离图（reachability plot），分析图中的距离变化可以确定不同密度的簇。
OPTICS聚类
2021-09-07 14:28

Mark_Aussie的博客密度聚类的一种，是DBSCAN聚类的改进算法，其对输入参数不敏感。对数据集中的对象排序，得到一个有序对象的列表用于提取聚类。
OPTICS 点云聚类算法（附python代码）
2023-08-28 16:42

点云-激光雷达-Slam-三维牙齿的博客 1. `clustering=OPTICS(min_samples=10,max_eps=1,cluster_method='dbscan').fit(pointcloud_array).labels_`：使用 OPTICS 聚类算法对点云数据进行聚类，得到每个点的聚类标签。1. `bbox_lines=[[0,1],[1,2],[2,3],...
OPTICS.rar_8CLZ_earndht_fightingmkz_optics算法_optics聚类
2022-07-15 07:55

标题中的"8CLZ_earndht_fightingmkz"可能是指不同的项目或任务名称，而"optics算法"和"optics聚类"是关键词，表示这个压缩包文件包含与OPTICS聚类算法相关的代码、数据或结果。描述中的"主程序、副程序和数据"暗示了...
如何对图像进行聚类
2024-04-13 13:50

lichunericli的博客如何对图像进行聚类
密度聚类：OPTICS算法详解
2022-07-30 11:36

小白tree的博客如何理解这张reach_dist—points图并实现分类样本点3，显然离样本点1的可达距离，那么归到与样本点0一类是没有问题的。如果你是这样想就错了！ ...若该点的**核心距离 **，为新的聚类簇......
sklearn聚类之OPTICS算法
2023-01-10 06:45

微小冷的博客 OPTICS算法，全称是Ordering points to identify the clustering structure，是一种基于密度的聚类算法，是DBSCAN算法的一种改进。
基于密度的DBSCAN聚类及其优化的OPTICS聚类（二）
2022-07-19 15:52

不会统计的大河马的博客本文主要针对DBSCAN聚类算法只能采用全局表征密度参数的缺陷引入了优化的OPTICS算法、将两算法处理密度相同、不同数据进行对比，最后介绍两者可以优势互补进行结合，帮助选取最优的距离参数。...
optics聚类(代码)DBSCAN聚类比较
2020-02-29 21:11

hamimelon2020的博客 import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import ...from sklearn.cluster import OPTICS, cluster_optics_dbscan from sklearn.preprocessing import ...
密度聚类：OPTICS算法简单易懂版
2022-08-01 21:44

小白tree的博客如何理解这张reach_dist—points图并实现分类样本点3，显然离样本点1的可达距离，那么归到与样本点0一类是没有问题的。如果你是这样想就错了！...若该点的**核心距离 **，为新的聚类簇.........
聚类算法OPTICS的理解及实现
2022-12-08 14:48

june_francis的博客那么接下来给大家介绍它的改进版OPTICS()，针对DBSCAN在密度差异性较大的数据集中的表现较差的弱点进行优化。例如下图中所示的数据集中，分别使用上述两种算法进行聚类，可能得到如下结果：在DBSCAN中只会考虑在指定...
OPTICS聚类算法详解
2021-03-20 00:51

生信修炼手册的博客欢迎关注”生信修炼手册”!DBSCAN算法对于邻域半径eps和最小样本数minPoints这两个参数比较敏感，不同的参数取值会产生不同的聚类效果。为了降低参数设置对聚类结果造成的不稳定性，...
聚类算法——OPTICS
2021-07-04 14:03

丁丁去学习的博客网上很多关于OPTICS算法步骤的简介，学习了很多博客之后感觉总不合自己口味，因此整理了一篇博文供总结和复习，如能帮助到其他人便是锦上添花。阅读此文需要了解“聚类”，“基于密度聚类”和DBSCAN算法的前置知识。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月10日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

optics图像聚类无法正确聚类

2条回答 默认 最新

可能的解决方案：

代码建议：

问题事件

悬赏问题

2条回答默认最新