qq_40580931 2021-09-28 11:50 采纳率: 100%
浏览 95
已结题

百万到千万级数据量比对如何提高效率

需求是要拿一条数据和缓存的数据做比对,得到结果,但是数据量很大导致速度很慢
目前解决方案是下面代码这样,OneCompareTaskCount 是开启的线程数量,onceCompareCount每个线程处理数据量,newList是总的数据集
大概400万条数据计算了有4分钟,请问有没有更好的方法提高效率
for (int i = 0; i < OneCompareTaskCount ; i++)
                    {
                        int temp_i = i;
                        ManualResetEvent mre = new ManualResetEvent(false);
                        manualEvents.Add(mre);
                        ThreadPool.QueueUserWorkItem((object obj) =>
                        {
                            int _start = temp_i * onceCompareCount,
                        _end = temp_i == OneCompareTaskCount - 1 ? newList.Count : (temp_i + 1) * onceCompareCount;
                            Parallel.For(_start, _end, (j) =>
                            {
                                // 计算并保存结果
                            });
                            mre.Set();
                        }, mre);
                    }
                    WaitHandle.WaitAll(manualEvents.ToArray());

  • 写回答

3条回答 默认 最新

  • wanghui0380 2021-09-28 16:27
    关注

    这问题不好回答,因为我估计任何人的回答都不会让你满意
    原因:数据结构问题

    你能看到所有数据库选型都是hash,B tree,链表,跳表,索引,这样的描述。甚至还可能又bloom过滤器这样的说法(主要目的,利用数据结构快速定位目标,避免全扫描)
    因为如果你说几百万和几千万,你就啥都不做,单纯2个循环,他都不会有啥高性能的说法
    所以需要根据你的具体需求去确定一个合适数据结构,但是这样的方式是你绝对不想看的

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 10月7日
  • 已采纳回答 9月29日
  • 创建了问题 9月28日

悬赏问题

  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥40 复杂的限制性的商函数处理
  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来