这道题用哈希怎么解决？？求解

这个问题来自 DNA序列的k-mer index问题。
给定一个DNA序列，这个系列只含有4个字母ATCG，如 S =“CTGTACTGTAT”。给定一个整数值k，从S的第一个位置开始，取一连续k个字母的短串，称之为k-mer（如k= 5，则此短串为CTGTA），然后从S的第二个位置，取另一k-mer（如k= 5，则此短串为TGTAC），这样直至S的末端，就得一个集合，包含全部k-mer 。如对序列S来说，所有5-mer为
｛CTGTA，TGTAC，GTACT，TACTG，ACTGT，TGTAT｝
通常这些k-mer需一种数据索引方法，可被后面的操作快速访问。例如，对5-mer来说，当查询CTGTA，通过这种数据索引方法，可返回其在DNA序列S中的位置为｛1，6｝。
问题
现在以文件形式给定 100万个 DNA序列，序列编号为1-1000000，每个基因序列长度为100 。
（1）要求对给定k，给出并实现一种数据索引方法，可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引，只需支持一个k值即可，不需要支持全部k值。
（2）要求索引一旦建立，查询速度尽量快，所用内存尽量小。
（3）给出建立索引所用的计算复杂度，和空间复杂度分析。
（4）给出使用索引查询的计算复杂度，和空间复杂度分析。
（5）假设内存限制为8G，分析所设计索引方法所能支持的最大k值和相应数据查询效率。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
知常曰明 2015-05-29 08:21
关注
1. 设C=0,T=1,G=2,A=3,则一个CTGA串可以转为一个四进制数字。一个k-mer可以转换为k位长的四进制数字。

2. 以这个k位的四进制数字作为hash值，生成hashmap，可以快速的搜索.

3. 100w个基因序列，每个序列100长度，则总共可以标记的位置有100w*100=1ww<2^32,因此一个32位整数可以存放一个位置信息。

4. 假设一个节点为一个位置信息+一个指针信息（8G,64位，8字节）（用链表保存下一个值）即4+8=12字节存放一个位置。因此总位置信息有100w个12字节=1200w个字节<12M

5. 1字节可以记录4位四进制数字。1个k长度可以存放于一个k/4（向上取整）的字节数中。

5.1. 每个序列都保存，有4^k种可能，即2^2k种可能。总共存放字节(k/4)*2^2k

5.2. 用稀疏矩阵保存此哈希表，即最大的可能种树为1ww种k/4字节+一个指针,总计((k/4)+8)*1ww<8G-12M

5.3. 用5.1的方法，可知k<14(51539607552)用5.2的方法,100位足够(需要2500000000字节)

6.时间复杂度O(1)

7.空间复杂度O(n)

8.搜索方法是二分查找+hash索引。因此复杂度(log(2,n))
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#哈希函数#的问题，如何解决？哈希算法
2023-03-12 21:35

回答 5 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ这个代码实现了一个哈希表，但是哈希函数采用了一个简单的计数哈希。需要改进哈希函数，以减少冲突。改进后，还需要修改插入和查找函数，以便使用新的哈希函数。改进哈希函数的方法很
哈希值会不会用完?既然长度固定
2015-12-18 11:31

回答 4 已采纳理论上会，但是这个值超过了宇宙中原子的个数。即便宇宙中每个原子可以存储一个文件，也不会重复。但是，如你所知，hash是会重复的，虽然在自然情况下重复概率可以忽略，但是人为制造相同hash，但是数据
golang内置地图和字符串键的哈希冲突？
2018-01-23 16:32

回答 1 已采纳 String conversion of an invalid rune returns a string containing the unicode replacement character
如何在PHP 7.2中生成64位Murmur哈希v2？ c++ mysql php
2018-07-25 18:35

回答 1 已采纳 I've solved this myself by essentially porting the Percona hashing function directly to a PHP exte
构造哈希表的重点包括哪两个方面？人工智能数据结构机器学习
2022-11-13 03:36

回答 1 已采纳一是哈希计算函数不能太复杂，效率要高，空间不能跨越太大。二是，计算后重复的可能性不高，即不需要经常多次哈希
哈希表：哈希表到底是什么东西？ c++
2022-05-11 22:41

回答 1 已采纳最浅显的理解就是哈希表是一个单向链表数组,每一个元素都是一个单向链表
python解决哈希查找_Python哈希表一招解决nSum问题
2021-02-04 12:48

游研社的博客有的招数可能出奇制胜，但是最稳定的方式一定是多次训练的套路，它不一定能让你解决所有的问题，但是它足以让你轻松应对一类问题。$nSum$ 的问题，主要存在大量重复的数使得如果在数组中遍历每个数，再比较查询结果...
验证我们控制之外的哈希密码？ php
2014-09-24 17:56

回答 2 已采纳 Normally, a password would be submitted to us via a login form and we would verify with passw
PHP Sha512哈希充足？ [重复] php
2014-03-26 15:19

回答 1 已采纳 Thanks for your suggestions. If you don't understand what the security goals are, then you s
哈希表始终无法成功实现查找关键字（开放定址法)，如何解决？ c语言数据结构算法
2022-02-21 13:34

回答 3 已采纳如果是卡死在switch里面，你可以试试把searchHash注释掉运行一遍。
哈希表解题方法
2022-07-28 09:28

EvilChou的博客但是哈希法也是牺牲了空间换取了时间，因为我们要使用额外的数组，set或者是map来存放数据，才能实现快速的查找。如果在做面试题目的时候遇到需要判断一个元素是否出现过的场景也应该第一时间想到哈希法！...
图一这是什么错误？我在idea里没有问题啊，求解 java 哈希算法算法
2022-03-18 17:25

回答 2 已采纳索引越界假设长度为8,那么索引只能取到7.你取索引8就报错
20个常见的前端算法题，你全都会吗？
2022-10-27 17:26

前端技术栈的博客现在面试中，算法出现的频率越来越高了，大厂基本必考今天给大家带来20个常见的前端算法题，重要的地方已添加注释，如有不正确的地方，欢迎多多指正????1、两数之和题目：给定一个数组nums和一个目标值target，在该...
使用哈希表+优先队列解决字符频率问题
2022-03-15 16:03

CH339的博客接下来将列举几道有关使用哈希表+优先队列求解出现频率的类型题，望大家参考：题目1概述：前K个高频元素给你一个整数数组 nums 和一个整数 k ，请你返回其中出现频率前 k 高的元素。你可以按任意顺序返回答案。 ...
没有解决我的问题, 去提问

悬赏问题

¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题

这道题用哈希怎么解决？？求解

3条回答 默认 最新

悬赏问题

3条回答默认最新