大数量数据进行聚类排重讨论

在项目开发中，用户需要在数据库导入大量在线商户信息，但是由于每个商户信息是通过外包采集员进行采集，所以存在商户信息重复的问题。所以，用户要求到导入EXCEL文件时操作时，先判断数据库中是否存在和EXCEL文件相似记录，如果有相似记录需要把正式信息和导入信息合并到一个文件中，用户导出进行修改。

相似数据实例如下：

名称地址

北京视频影像公司北京市朝阳区八里桥221号

视频影像公司北京市朝阳区八里桥221号

北京视频影像公司人力资源部北京市八里桥221号

请大家讨论如何解决。现在系统对数据库做了搜索索引，可以进行搜索。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cutxyz 2012-07-05 18:24
关注
8) 要看你们打算以名称相似排序还是地址相似排了，当然也可以两个同时排，方法可以使用类似百度谷歌输入关键字提示的方法差不多，简单的说可以用三叉树做个相近字符搜索，当然具体哪些是一样的还是需要人来判断，机器最多将相似度较高的放一起，好让人来作选择。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

大数量数据进行聚类排重讨论
2012-07-04 17:47

zhangqiyi的博客在项目开发中，用户需要在数据库导入大量在线商户信息，但是由于每个商户信息是通过外包采集员进行采集，所以存在商户信息重复的问题。所以，用户要求到导入EXCEL文件时操作时，先判断数据库中是否存在和EXCEL文件...
《数据挖掘与大数据分析》分类与聚类实验报告
2023-04-21 12:18

《数据挖掘与大数据分析》实验报告探讨了对心脏病数据库进行分类与聚类分析的方法，重点关注了数据预处理、不同聚类算法的应用以及结果评价。实验选取了来自UCI机器学习存储库的心脏病数据集，该数据集包含了来自多...
MoHuJuLei_iris_模糊聚类_聚类数据集_
2021-09-30 00:12

在这个场景中，我们关注的是"MoHuJuLei_iris_模糊聚类_聚类数据集_"，这意味着我们将讨论如何使用模糊聚类算法对Iris数据集进行分类，并且在测试中取得了较好的准确率。 Iris数据集是统计和机器学习中的经典示例，...
密度聚类.zip_密度_密度聚类算法_数据聚类_样本数据聚类_聚类
2022-07-15 20:18

在这个"密度聚类.zip"文件中，我们可以深入探讨密度聚类算法的核心概念、工作原理以及在数据聚类中的应用。首先，我们要理解的是"密度"这一概念在聚类中的意义。在密度聚类中，数据点的密度是指其周围邻近点的数量...
西电数据挖掘大作业密度聚类DBSCAN.doc
2025-05-20 10:17

它提出了使用DBSCAN算法对双层正方形数据和三维同心球数据进行聚类的问题，其中样本数量为20230，并且这些样本是均匀分布的。这表明数据挖掘实验关注于大规模数据集的处理，并考虑了数据分布的特性。算法描述部分...
如何对图像进行聚类
2024-04-13 13:50

lichunericli的博客如何对图像进行聚类
R语言模糊聚类实现（程序+数据）.zip
2021-01-27 18:32

在实际应用中，模糊聚类算法常常用于数据探索，帮助发现数据中的潜在结构和模式，尤其适用于分类边界不清晰或噪声较大的数据集。`data.csv`的数据集可能包含了多种特征，通过FCM聚类，我们可以找到数据的自然群组，...
DBSCAN聚类用到的数据集
2022-07-02 17:33

下面将详细讨论DBSCAN聚类算法以及与给定文件相关的数据集特点。 DBSCAN的核心思想是通过定义“核心对象”、“边界对象”和“噪声”来识别高密度区域。核心对象是其邻域内至少包含指定数量（即最小样本数，通常表示...
【项目实战】Python基于KMeans算法进行文本聚类项目实战
2022-02-14 23:20

- **降维**：如果特征数量过大，可以使用PCA（主成分分析）或t-SNE（t分布随机邻域嵌入）减少特征维度。 6. **构建聚类模型**： KMeans算法是常见的聚类算法，它通过迭代寻找最佳聚类中心。步骤包括： - 初始化...
基于数据挖掘聚类算法的网络学习平台学生成绩分析.pdf
2021-07-14 11:22

本文正是以此为背景，探讨了如何应用数据挖掘中的聚类算法，对智慧树网络学习平台上学生的成绩数据进行分析，从而为教师提供有针对性的教学策略，以优化教学效果。首先，需要明确聚类算法的概念及其在数据分析中的...
没有解决我的问题, 去提问

大数量数据进行聚类排重讨论

3条回答 默认 最新

3条回答默认最新