qq_21439127 2016-04-07 10:33 采纳率: 0%
浏览 1403

求解类似数据如何搜索!二进制数据的快速查找

数据格式如下
"10101010001001101100100011000100100100001011100001000010010101000101010101000101".....共计256位
就是除了1就是0的唯一标示符256位的跟64位的还有1024位的
这种标示符
目前我已经有256位的跟64位的了,目前数据我已经生成了800w条,陆续生成中

字符串1="10101101001010010111010101100001011101000101010010001000111001101010010101"...
字符串2="10101001001011010111010101000001011101000101110010001001111001101010010101"....
求这两个字符串的相似度 顺序比较 以下为相似度 计算

$len = strlen($hash1); for ($i = 0; $i < $len; $i++){ if ($hash1[$i] !== $hash2[$i]) $count++;
} return 1-($i/$len); 

得到相似度
搜索要求为
从数据库中读取出跟 "字符串s" 相似度>0.9的,目前数据采用mysql储存,属于个人瞎胡闹搞得东西,不会采用商业数据库储存买不起,可以采用nosql储存,memcache储存,主要程序语言PHP,javascript算是预处理,我就会这两种!

求大神解这种数据如何搜索!!!!!!

  • 写回答

1条回答

  • JunhuanChen 2016-04-07 11:13
    关注

    应该是return 1-($count/$len);吧,老实说你问题并不是很明确,我现在有两种理解,你是问如何在数据库中进行这种的数据的搜索,或者问,给这两个字符串如何快速筛选

    评论

报告相同问题?

悬赏问题

  • ¥15 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!