qq_40580931 2021-09-28 11:50 采纳率: 100%
浏览 95
已结题

百万到千万级数据量比对如何提高效率

需求是要拿一条数据和缓存的数据做比对,得到结果,但是数据量很大导致速度很慢
目前解决方案是下面代码这样,OneCompareTaskCount 是开启的线程数量,onceCompareCount每个线程处理数据量,newList是总的数据集
大概400万条数据计算了有4分钟,请问有没有更好的方法提高效率
for (int i = 0; i < OneCompareTaskCount ; i++)
                    {
                        int temp_i = i;
                        ManualResetEvent mre = new ManualResetEvent(false);
                        manualEvents.Add(mre);
                        ThreadPool.QueueUserWorkItem((object obj) =>
                        {
                            int _start = temp_i * onceCompareCount,
                        _end = temp_i == OneCompareTaskCount - 1 ? newList.Count : (temp_i + 1) * onceCompareCount;
                            Parallel.For(_start, _end, (j) =>
                            {
                                // 计算并保存结果
                            });
                            mre.Set();
                        }, mre);
                    }
                    WaitHandle.WaitAll(manualEvents.ToArray());

  • 写回答

3条回答 默认 最新

  • wanghui0380 2021-09-28 16:27
    关注

    这问题不好回答,因为我估计任何人的回答都不会让你满意
    原因:数据结构问题

    你能看到所有数据库选型都是hash,B tree,链表,跳表,索引,这样的描述。甚至还可能又bloom过滤器这样的说法(主要目的,利用数据结构快速定位目标,避免全扫描)
    因为如果你说几百万和几千万,你就啥都不做,单纯2个循环,他都不会有啥高性能的说法
    所以需要根据你的具体需求去确定一个合适数据结构,但是这样的方式是你绝对不想看的

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 10月7日
  • 已采纳回答 9月29日
  • 创建了问题 9月28日

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog