问题遇到的现象和发生背景
我想建立一个本地crc32反查库,使用dask来匹配,由于我是第一次使用dask,所以不是很会
由于数据太多匹配时间太长,所以能不能只搜索一个目标,搜索到了就直接结束搜索(类似re.search()
)
代码:
ddf = dd.read_csv(CSV_DIR, blocksize=32e5, names=['num', 'crc32num'], dtype=
{'num': numpy.unsignedinteger, 'crc32num': 'int64'})
_list = ddf.loc[ddf['crc32num'] == num].values.compute()
我使用这个来匹配num的原码,但是匹配时间较长,希望能加快搜索速度,任何关于加快匹配速度的建议都可以!
另外还有一个问题:就是dask如果是在有序数据里面搜索会不会比在无序数据里面快?
分外感谢