百万到千万级数据量比对如何提高效率

需求是要拿一条数据和缓存的数据做比对，得到结果，但是数据量很大导致速度很慢
目前解决方案是下面代码这样，OneCompareTaskCount 是开启的线程数量，onceCompareCount每个线程处理数据量，newList是总的数据集
大概400万条数据计算了有4分钟，请问有没有更好的方法提高效率
for (int i = 0; i < OneCompareTaskCount ; i++)
                    {
                        int temp_i = i;
                        ManualResetEvent mre = new ManualResetEvent(false);
                        manualEvents.Add(mre);
                        ThreadPool.QueueUserWorkItem((object obj) =>
                        {
                            int _start = temp_i * onceCompareCount,
                        _end = temp_i == OneCompareTaskCount - 1 ? newList.Count : (temp_i + 1) * onceCompareCount;
                            Parallel.For(_start, _end, (j) =>
                            {
                                // 计算并保存结果
                            });
                            mre.Set();
                        }, mre);
                    }
                    WaitHandle.WaitAll(manualEvents.ToArray());

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wanghui0380 2021-09-28 08:27
关注
这问题不好回答，因为我估计任何人的回答都不会让你满意
原因：数据结构问题

你能看到所有数据库选型都是hash，B tree，链表，跳表，索引，这样的描述。甚至还可能又bloom过滤器这样的说法（主要目的，利用数据结构快速定位目标，避免全扫描）
因为如果你说几百万和几千万，你就啥都不做，单纯2个循环，他都不会有啥高性能的说法
所以需要根据你的具体需求去确定一个合适数据结构，但是这样的方式是你绝对不想看的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
qq_40580931 2021-09-28 09:07

简单的说，一个简单的int数据集合list 里面有400万个数（内存中已经存在，不需要另外查询），现在我要用1去和所有的数相加，结果保存到另一个List里面，单纯的多开几个线程循环计算速度达不到要求，所以想问一下各位大佬有没有好点的解决方案，而且我对线程的运行规则也不是很清楚，只要电脑能带动是开的越多越好吗？

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
wanghui0380 回复 qq_40580931 2021-09-28 09:28

我说了，需要根据具体需求确定，如果你只是说400w个数据，挨个加1，我个人说这不是问题

var list = Enumerable.Range(1, 4000000).ToList(); var list2 = list.AsQueryable().Select(p => p + 1).ToList();

就这么两句话几秒中的事情，可见你要做的事情肯定不是这样的

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
qq_40580931 回复 wanghui0380 2021-09-29 05:39

感谢你的回答，我出发点错了，是应该从算法着手，我太执着于追求在外面利用电脑性能提高速度了，优化算法里面数据处理的代码确实效果好多了

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

用最少的数据传输比对两地数据一致性 stm32 单片机物联网
2022-07-12 03:41

回答 1 已采纳用hash算法，比如MD5，两组不同的数据MD5一致的概率极低。CRC其实也可以算是一种简单的hash，但那个太短，冲突的可能性大。实际上云盘基本都是用hash来检验文件是否一致的。一般来说MD5完全
千万级别的文件比对 unix
2011-04-25 10:37

回答 1 已采纳看看这个shell有没有用 [code="shell"]#只在$1中有的行 awk '{if(ARGIND==1) {v[$0]}else{if($0 in v) delete v[$0]}
两个列表进行数据比对 list python
2021-11-04 03:23

回答 3 已采纳不用遍历，直接用求和sum呢？ list1 = [11, 5, 17, 1, 2] list2 = [-2, -6, -11] print("列表1元素之和为: ", sum(list1)) pr
千万级规模高性能、高并发的网络架构经验分享
2017-11-13 03:03

success_David的博客：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。...
H5中注册时密码的设置与比对 html5
2022-05-24 05:54

回答 2 已采纳 if（!(/^.(6,20}$/.test(repeatpass))） alert("两次不一样！"）; 这个代码明显有漏洞，只判断了密码强度，并没和uerpass 进行比较，不能提示两次不一样
django和flask比对 django flask python
2023-03-03 05:38

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:是的，有关于 Django 和 Flask 项目开发的比较材料。Django 和 Flask 都是 Python 的 Web 框架，它们都有自己的优点和缺点。
想通过sql语句进行比对出某字段中变化 postgresql sql 数据库
2022-10-24 02:03

回答 1 已采纳 select A.a, A.b, A.c, B.c from A left join B on A.a = B.a and A.b = A.b where A.c <> B.c
微软等数据结构+算法面试100题全部答案集锦
2012-10-19 15:11

lm312177697的博客微软等数据结构+算法面试100题全部答案集锦作者：July、阿财。时间：二零一一年十月十三日。引言无私分享造就开源的辉煌。今是二零一一年十月十三日，明日14日即是本人刚好开博一周年。在一周年...
java比对两张图片是否为同一张图片 java
2015-07-13 21:09

回答 3 已采纳 1、先判断图片文件大小；大小不一致，肯定不是同一张图片； 2、判断图片的长和宽，长宽不一致，肯定不是同一张图片； 3、不需要进行哈希，直接比较图片的内容。每次读取一定数量的字节，进行比较；直到，有
比对数据，错误返回FALSE，并且返回是哪个数据错误 java 有问必答
2022-05-06 03:08

回答 3 已采纳 AjaxResult类中定义几个属性:状态boolean flag;String msg;int code等
C#Winform如何比对串口发送的数据与接收的数据呢？ .net c# visual studio
2021-10-20 07:09

回答 1 已采纳你是对等网络吗，对方会随时随地给你发数据吗，如果不是，别用Comm_DataReceived事件去接收，直接在write之后写个sleep，然后receive否则即使你接收到了数据，也要自己解决分包拆
技术前沿与经典文章30：5G 与亚里士多德
2019-07-18 16:51

snmplink的博客本文作者：微软（中国）首席技术官韦青。希望通过本文的学习，加深今后对5G的应用体会。一、开宗明义 5G是现在非常热门的话题，非常高兴能有机会和大家一起交流关于5G技术的一些体会。首先需要强调一点，虽然我...
【企业架构设计实战】技术架构设计指南
2023-02-07 18:49

AI天才研究院的博客提到非功能性，技术架构可能涉及多个方面，如稳定性、可扩展性、一致性、可移植性、兼容性、可配置性、可降级性、可部署性、可发现性、故障透明性、容错性、可检验性、可安装性、完整性、可维护性、可管理性、模块性...
海量数据处理技术
2011-09-27 08:23

Dylan-Wang的博客笔者在实际工作中，有幸接触到海量的数据处理问题，海量数据是指数据量过大，数据格式复杂，数据中的随机情况多，不便于分类和处理的数据。对其进行处理是一项艰巨而复杂的任务，原因有以下几个方面： 1. 数据...
资源工具分享（第1期）：后端架构师技术图谱
2021-07-16 10:38

Hello 程序猿的博客推荐:《Java技术书籍大全》 - awesome-java-books 从初级开发者到资深架构师，看这些书就够了数据结构队列集合链表、数组字典、关联数组栈树二叉树完全二叉树平衡二叉树 ...
没有解决我的问题, 去提问