编程实现:支持局部敏感哈希的布隆过滤器

python编程实现：sensitive keyword unigram vector2000.csv文件和nonsensitive keyword unigram vector2000.csv文件里分别存放有2000个文件的不同信息，每行四个单元格的值分别表示一个文件中含有的四个单词的向量，先要求用所给的p稳定分布的局部敏感哈希的k个哈希函数处理每个文件的这些向量，生成每个文件的布隆过滤器（由于布隆过滤器的性质，理想情况下每个向量会在布隆过滤器中有k个bit为1的位置）。

p稳定分布的局部敏感哈希请参考p-stable-lsh-python-main项目文件，布隆过滤器和哈希函数参考BloomFilter-master项目文件。

思路是把p-stable-lsh-python-main项目文件中的哈希函数k个ha,b(v)应用到BloomFilter-master项目文件中，BloomFilter-master项目文件原有的哈希函数都可以不要，然后对每行的信息都分别生成一个布隆过滤器，用BloomFilter-master项目文件里的insert函数插入csv文件中的每行4个向量，一个文件即一行对应一个布隆过滤器命名为“序号.bin”，如第一行叫1.bin。可以以k=3为例，即有三个哈希函数ha1,b1(v)，ha2,b2(v)和ha3,b3(v)，哈希函数的信息在p-stable-lsh-python-main项目文件，目前不清楚可不可以生成多个函数，需要测试。问题难度不确定，可以追加￥有意向的私。

测试文件：有两个，以sensitive keyword unigram vector2000.csv为例
第一行：
1,0,1,0,1,0,1,0,0,0,1,1,0,0,1,0,0,1,1,1,0,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,1,0,0,0,1,0,0,1,1,1,0,0,0,1,1,1,1,1,0,0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,1,1,0,1,1,0,0,1,1,1,1,1,0,1,1,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,1,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,1,1,0,1,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

期望输出结果1：1.bin-2000.bin，需要能通过项目里is_contain函数测试

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

Java大魔王 2022-10-31 11:34

关注

读取csv文件的问题可以帮你解决

from csv import reader
import numpy as np

if __name__ == '__main__':
    # 这里的文件路径根据自己放的位置，进行修改
    with open('nonsensitive keyword unigram vector2000.csv', 'r', encoding='utf-8') as f:
        # 按行读取,装入list
        data = list(reader(f))
    # 全部数据读取完后，转为numpy数组
    data = np.array(data)
    # 取第一行
    print(data[0])
    # 取第一行第一列
    print(data[0][0])
    # 取第一行第一列的数据,去除逗号
    print(data[0][0].replace(",", ""))
    # 取第一行第一列的数据，去除逗号后的长度
    print(len(data[0][0].replace(",", "")))

报告相同问题？

关注问题

基于布隆过滤器实现敏感词识别和过滤
2020-02-24 14:02

冰阔落的博客在当前的网络环境下，敏感词...布隆过滤器 布隆过滤器（英语：Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的...
C++ 哈希系列容器 + 位图 + 布隆过滤器
2024-07-31 19:59

我没有空军的博客哈希其实本质上就是一种映射，映射的意思就是把你的key值跟对应数据的存储的位置建立一个关联关系，那么只要知道key值，就能根据固定的算法求出该数据所在的位置。我们以前玩过的映射比如说计数排序或者计数的数组...
直击高频编程考点：聚焦新版综合编程能力考查汇总
2024-12-01 23:52

张彦峰ZYF的博客业务性编程能力指的是开发人员在理解和实现具体业务需求方面的能力。这不仅包括对编程语言、框架和工具的熟练掌握，还涉及对业务逻辑、流程和领域知识的深入理解和灵活运用。在编程结束后或过程中需要扩展分析考查...
【检索：LSH】15、局部敏感哈希（LSH）深度解析：从原理到实战，快速过滤亿级相似文章
2025-10-14 18:17

无心水的博客本文深入解析了局部敏感哈希（LSH）技术在相似文章检索中的应用原理与实战方法。针对传统暴力计算法在海量数据下的性能瓶颈（时间复杂度O(n×d)、内存占用大、扩展性差），LSH通过高维降维和概率性筛选实现高效检索...
哈希指纹技术详解：从原理到应用
2025-04-27 15:29

程序员光剑的博客哈希指纹技术通过将复杂数据转换为简短的数字摘要，实现了海量数据的高效比较和检索。从简单的文件校验到复杂的区块链系统，从文本查重到分布式存储去重，哈希指纹已经成为现代信息技术的基础设施之一。随着数据规模...
Java实现布隆过滤器算法详解
2025-05-08 16:03

月小烟的博客在布隆过滤器中，位数组被用来记录元素的存在性，位数组的长度就是布隆过滤器的空间大小。位数组在内存使用方面非常高效，因为相比于传统的布尔数组，每个元素只占用1位而非一个字节。这使得布隆过滤器在空间使用上...
数据结构必学：哈希表的C++_Java_Python实现
2025-05-03 00:18

程序员光剑的博客哈希函数设计原则与典型实现冲突解决策略（链地址法、开放寻址法）的原理与实现差异动态扩容机制的数学模型与工程实现不同编程语言特性对数据结构实现的影响核心概念：哈希表架构、哈希函数、冲突解决策略算法原理：...
16、深入理解哈希技术：原理、实现与应用
2025-07-03 13:28

a1b2c3d的博客本文深入探讨了哈希技术的基本原理、实现方式及其广泛应用。...此外，还涵盖了哈希在布隆过滤器、缓存系统、数据库索引等场景中的应用，并讨论了其优缺点及适用情况，帮助读者全面掌握这一重要技术。
什么是高并发高可用一致性？| 现代网站架构发展 | C 语言实现布隆过滤器
2021-10-16 20:53

RzBu11d023r的博客这是一个简单的数小时可以完成的 C 语言学习编程练习，读者将学习编写一个布隆过滤器 (Bloom Filter), 谁是当前网络应用中广泛应用的一环。本文假定读者是对网络编程零基础的。参与者应当具备良好的 C 语言编程基本...
Python数据结构之旅：08-哈希表——极速查找的魔法
2025-10-30 13:23

-大头.的博客将每个桶实现为一个链表（或其他数据结构），所有映射到同一位置的元素都存储在同一个链表中。哈希函数是哈希表的核心魔法，它负责将任意大小的数据映射到固定范围的整数值。概率型数据结构，用于快速判断"元素肯定...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月30日

编程实现:支持局部敏感哈希的布隆过滤器

3条回答 默认 最新

问题事件

3条回答默认最新