Tyche_BO 2019-05-15 11:16 采纳率: 0%
浏览 1070
已采纳

python 提升匹配效率的问题

用列表1(set集合) 匹配 列表2内元素(有重复元素),然后将列表1内每个元素对应列表2的索引集合组合成字典,但我发现一但·行数达到几十万条时后,匹配效率太低,匹配次数为len(列表1)*len(列表2).,,请问下有各位老大没有什么好的方法提升效率,或者有没有其他实现方法,怎么实现或者修改?。下面举个栗子:

def CellIndexDict(cells,cell_list):
    """根据cells列表内的清单,匹配出cell_list列表内所在的索引,制成字典{cell:[indexhub]}
    """
    allcellindexDict={}
    for c in cells:
        indexlist=[i+1 for i,v in enumerate(cell_list) if v==c]
        allcellindexDict[c]=indexlist#单个小区索引集合
    return allcellindexDict

cells=["a","aa","aaa","b","bb","bbb","c","cc","ccc"]
cell_lists=["a","aa","aaa","b","bb","bbb","c","cc","ccc"]*1000000

  • 写回答

2条回答 默认 最新

  • 吃鸡王者 2019-05-15 17:34
    关注

    from collections import defaultdict
    def CellIndexDict(cells,cell_list):
    allcellindexDict=defaultdict(list)
    for i,v in enumerate(cell_list):
    allcellindexDict[v].append(i)
    return allcellindexDict ##如果想做一个key值检查,本行可以改为 return {key:allcellindexDict[key] for key in cells}

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 PointNet++的onnx模型只能使用一次
  • ¥20 西南科技大学数字信号处理
  • ¥15 有两个非常“自以为是”烦人的问题急期待大家解决!
  • ¥30 STM32 INMP441无法读取数据
  • ¥15 R语言绘制密度图,一个密度曲线内fill不同颜色如何实现
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动
  • ¥15 x趋于0时tanx-sinx极限可以拆开算吗
  • ¥500 把面具戴到人脸上,请大家贡献智慧,别用大模型回答,大模型的答案没啥用
  • ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。