鲍勃·詹金斯（Bob Jenkins）的哈希表现不佳

I was building a Bloom filter and looked into what hashes to use and the Bob Jenkins' hash seemed like a good choice because of the evenness of the distribution. I adapted the given C++ code to Go (possibly making a mistake but it seems to work).

I got around to benchmarking the cost of the hash and found that the SHA1 hash in the Go std library was much faster.

PASS
BenchmarkJenkins     1000000          2649 ns/op
BenchmarkSHA256  1000000          1218 ns/op
BenchmarkSHA1    5000000           462 ns/op

Was I misled when I read that you shouldn't use cryptographic hashes in this use case? Or is the standard library code much more optimized than mine?

package jenkins

import (
    "bytes"
    "encoding/gob"
)

// adapted from http://bretmulvey.com/hash/7.html
func ComputeHash(key interface{}) (uint64, error) {
    var buf bytes.Buffer
    enc := gob.NewEncoder(&buf)
    err := enc.Encode(key)
    if err != nil {
        return 0, err
    }
    data := buf.Bytes()

    var a, b, c uint64
    a, b = 0x9e3779b9, 0x9e3779b9
    c = 0
    i := 0

    for i = 0; i < len(data)-12; {
        a += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)
        i += 4
        b += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)
        i += 4
        c += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)

        a, b, c = mix(a, b, c)
    }

    c += uint64(len(data))

    if i < len(data) {
        a += uint64(data[i])
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 24
        i++
    }

    if i < len(data) {
        b += uint64(data[i])
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 24
        i++
    }

    if i < len(data) {
        c += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        c += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        c += uint64(data[i]) << 24
        i++
    }

    a, b, c = mix(a, b, c)
    return c, nil
}

func mix(a, b, c uint64) (uint64, uint64, uint64) {
    a -= b
    a -= c
    a ^= (c >> 13)
    b -= c
    b -= a
    b ^= (a << 8)
    c -= a
    c -= b
    c ^= (b >> 13)
    a -= b
    a -= c
    a ^= (c >> 12)
    b -= c
    b -= a
    b ^= (a << 16)
    c -= a
    c -= b
    c ^= (b >> 5)
    a -= b
    a -= c
    a ^= (c >> 3)
    b -= c
    b -= a
    b ^= (a << 10)
    c -= a
    c -= b
    c ^= (b >> 15)
    return a, b, c
}

EDIT:

Benchmarking code:

package bloom

import (
    "testing"

    "crypto/sha1"
    "crypto/sha256"
)

func BenchmarkJenkins(b *testing.B) {
    j := jenkinsHash{}

    for i := 0; i < b.N; i++ {
        j.ComputeHash(i)
    }
}

func BenchmarkSHA1(b *testing.B) {
    for i := 0; i < b.N; i++ {
        sha1.Sum([]byte{byte(i)})
    }
}


func BenchmarkSHA256(b *testing.B) {
    for i := 0; i < b.N; i++ {
        sha256.Sum256([]byte{byte(i)})
    }
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

duangan6731 2014-05-02 23:28

关注

@JensG was on the right track. The calls to gob to encode the key in binary made up the vast majority of the cost. When I transitioned to passing in byte arrays the benchmark started getting the results I was expecting. Thanks for the help!

BenchmarkJenkins    100000000           20.4 ns/op
BenchmarkSHA1    5000000           463 ns/op
BenchmarkSHA256  1000000          1223 ns/op

Benchmark code:

package bloom

import (
    "testing"

    "crypto/sha1"
    "crypto/sha256"
)

func BenchmarkJenkins(b *testing.B) {
    j := jenkinsHash{}

    for i := 0; i < b.N; i++ {
        j.ComputeHash([]byte{byte(i)})
    }
}

func BenchmarkSHA1(b *testing.B) {
    for i := 0; i < b.N; i++ {
        sha1.Sum([]byte{byte(i)})
    }
}


func BenchmarkSHA256(b *testing.B) {
    for i := 0; i < b.N; i++ {
        sha256.Sum256([]byte{byte(i)})
    }
}

Altered code:

package bloom

type jenkinsHash struct {
}

// adapted from http://bretmulvey.com/hash/7.html
func (_ jenkinsHash) ComputeHash(data []byte) (uint64, error) {    
    var a, b, c uint64
    a, b = 0x9e3779b9, 0x9e3779b9
    c = 0
    i := 0

    for i = 0; i < len(data)-12; {
        a += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)
        i += 4
        b += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)
        i += 4
        c += uint64(data[i]) | uint64(data[i+1]<<8) | uint64(data[i+2]<<16) | uint64(data[i+3]<<24)

        a, b, c = mix(a, b, c)
    }

    c += uint64(len(data))

    if i < len(data) {
        a += uint64(data[i])
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        a += uint64(data[i]) << 24
        i++
    }

    if i < len(data) {
        b += uint64(data[i])
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        b += uint64(data[i]) << 24
        i++
    }

    if i < len(data) {
        c += uint64(data[i]) << 8
        i++
    }
    if i < len(data) {
        c += uint64(data[i]) << 16
        i++
    }
    if i < len(data) {
        c += uint64(data[i]) << 24
        i++
    }

    a, b, c = mix(a, b, c)
    return c, nil
}

func mix(a, b, c uint64) (uint64, uint64, uint64) {
    a -= b
    a -= c
    a ^= (c >> 13)
    b -= c
    b -= a
    b ^= (a << 8)
    c -= a
    c -= b
    c ^= (b >> 13)
    a -= b
    a -= c
    a ^= (c >> 12)
    b -= c
    b -= a
    b ^= (a << 16)
    c -= a
    c -= b
    c ^= (b >> 5)
    a -= b
    a -= c
    a ^= (c >> 3)
    b -= c
    b -= a
    b ^= (a << 10)
    c -= a
    c -= b
    c ^= (b >> 15)
    return a, b, c
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

鲍勃·詹金斯（Bob Jenkins）的哈希表现不佳
2014-05-02 20:24

回答 3 已采纳 @JensG was on the right track. The calls to gob to encode the key in binary made up the vast major
如何在每个测试中重复使用预处理的詹金斯/凹槽 jenkins
2018-11-28 19:45

回答 1 已采纳 You can use function and pass Go arguments: try { parallel( 'Run Tests': {
spookyhash:鲍勃·詹金斯（Bob Jenkins）的spookyhash的线程安全和多字节版本
2021-05-07 16:08

鬼哈希SpookyHash是的非常快速的非加密哈希函数。它为任意长度的字节数组生成分布良好的128位哈希值。它也可以以相同的速度产生64位和32位哈希值，只需要使用最低的n位即可。长键每个周期散列3个字节，短键每个...
jenkins-hash:詹金斯哈希函数
2021-05-20 23:18

概要Bob Jenkins的lookup3.c哈希函数JavaScript端口用法 var hash = require ( './' ) . hashlittle ;hash ( new Uint8Array ( [ 1 , 2 , 3 ] ) , 0xdeadbeef ) ; // 0x271b32edhashlittle（buf，initval = 0） buf...
jenkins-hash-java:Jenkins的哈希值产生32位和64位值
2021-05-16 12:36

詹金斯·哈希非加密目的Bob Jenkins哈希的Java实现。此实现可产生32位和64位哈希值，并可用于哈希表查找。此处实现的算法是32位体系结构的理想选择。什么是詹金斯哈希？ Jenkins哈希是由Bob Jenkins创建的通用哈希...
beaker-jenkins-jobs:詹金斯（Jenkins）Job Builder定义与烧杯有关的詹金斯（Jenkins）工作
2021-04-28 00:21

警告生命尽头。该存储库不再受支持。
jenkins-zh:詹金斯（Jenkins）
2021-03-22 21:29

詹金斯微信微信类似于。几乎每个人都在中国的微信上有一个帐户。 Jenkins微信订阅帐户传递来自Jenkins社区的消息或事件。所有文章都应该是开源的，每个贡献者都可以创建PR。一旦我们对其进行了审核，您的文章就...
jenkins-rancher:与Rancher一起推出詹金斯（Jenkins）
2021-05-19 15:15

詹金斯·兰彻（Jenkins-Rancher）与Rancher一起推出詹金斯（Jenkins）
livro-jenkins:詹金斯（Jenkins）综合积分
2021-03-31 23:38

偶人偶Kong蒂多葡萄牙语Estééorepositóriodecódigosusados no livro，发行人Novatec出版的《IntegraçãoContínuacom Jenkins》。信息通报或联系abaixo：要求Adquira o livro，“IntegraçãoContínuacom ...
mftp1:詹金斯（Jenkins）监控回购
2021-03-15 03:14

mftp1:詹金斯（Jenkins）监控回购
jenkins-neo-theme:詹金斯（Jenkins）的现代扁平化主题
2021-04-23 03:39

詹金斯新主题用现代的扁平化主题美化您的詹金斯！网站：：因此，您喜欢Jenkins，但讨厌其丑陋的用户界面和图标……我也是！ 詹金斯新主题简介。最初是作为詹金斯材质主题的一个分支，但大部分更改为使用...
jenkins_exporter:詹金斯的Prometheus Metrics出口商
2021-04-30 02:41

詹金斯出口商 Jenkins的prometheus.io导出器，用python编写。此导出器基于Robust Perception的python导出器示例：有关更多信息，请参见（）用法 jenkins_exporter.py [-h] [-j jenkins] [--user user] [-k] [-...
jenkins:詹金斯食谱的开发库
2021-05-03 16:53

詹金斯食谱安装和配置Jenkins CI主节点和节点从节点。资源提供者通过jenkins-cli支持自动化，包括作业创建/更新。维护者这本食谱由Sous Chefs负责维护。 Sous Chefs是由厨师食谱维护者组成的社区，他们共同维护...
docker-jenkins：詹金斯sobre Docker
2021-02-04 02:45

docker-jenkins：詹金斯sobre Docker
jenkins-casadocodigo:詹金斯法典之家的代码
2021-05-25 16:19

詹金斯-卡萨多科迪戈 詹金斯法典之家的代码 :green_book: 该存储库是Jenkins书的一部分 :face_with_head-bandage: ！成本不到一 :hamburger: 午餐 :french_fries: ！
jenkins-easc:詹金斯一切皆为守则
2021-03-25 19:09

使Jenkins成为代码目标在Kubertenes集群上设置Jenkins实例；应用基本的实例配置，作业，管道和增强功能；隔离人类可读的配置文件和安装过程/脚本；根据模板自定义实例配置，作业，管道，插件（理想情况下应...
cnp-jenkins-library:共享詹金斯图书馆
2021-04-08 19:54

用于代码和基础架构管道的共享Jenkins库如何使用？ Jenkins会在运行时加载该库中的代码。 Jenkins已配置为指向此存储库，请参阅在您的管道中，导入该库。 @Library ( ' Infrastructure ' )自以为是的应用程序管道该...
docker-jenkins：Handson docker詹金斯
2021-02-22 03:50

docker-jenkins：Handson docker詹金斯
jenkins-update-center：詹金斯镜像更新中心生成器
2021-02-21 09:41

詹金斯更新中心 詹金斯镜更新中心生成器更新时间每天凌晨1点UTC更新镜像站点腾讯华为清华 ustc 位文件update-center.json 地点来源 CDN 腾讯网华为清华大学委少量镜像站点速度测试 curl -...
terraform-provider-jenkins：詹金斯Terraform Provider
2021-02-04 08:36

地形提供商网站：：邮件列表：这是社区提供者，不受Hashicorp支持。安装该提供程序已发布到Terraform注册中心，为。请访问注册表以获取文档和安装说明。发展提供者在此提供程序上工作需要满足以下条件： 0.14+ ...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条

码龄粉丝数原力等级 --

鲍勃·詹金斯（Bob Jenkins）的哈希表现不佳

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

鲍勃·詹金斯（Bob Jenkins）的哈希表现不佳

3条回答 默认 最新

悬赏问题

3条回答默认最新