请问C#中,我有72246452条数据的TXT,我应该要如何去除重复值,并显示有哪些重复呢?
我用一般的方法会显示内存错误讯息,怕误入歧途,因此想先问好的方法,谢谢
请问C#中,我有72246452条数据的TXT,我应该要如何去除重复值,并显示有哪些重复呢?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
6条回答 默认 最新
- a29343539 2019-06-20 20:59关注
這是我最後的寫法,正常讀取7000萬筆數據,3分鐘以內可以跑完,沒有回報任何錯誤。
List List陣列 = new List ();
int 要跑讀取的第1行 = 0;
int 要跑到讀取的最大值 = 72246500;
var lines = File.ReadLines(@"自動化瀏覽器BUG檢視.txt", System.Text.Encoding.UTF8).Skip(要跑讀取的第1行).Take(要跑到讀取的最大值);
//var lines = File.ReadLines(@"TEST.txt", System.Text.Encoding.UTF8).Skip(要跑讀取的第1行).Take(要跑到讀取的最大值);
var iter = lines.GetEnumerator();
while (iter.MoveNext())
{
List陣列.Add(iter.Current);
}
Console.WriteLine(List陣列.ToList().Count());
HashSet hs = new HashSet(List陣列);
//hs.ToList().ForEach(item => Console.WriteLine(item));
Console.WriteLine(hs.ToList().Count());另外也需要把開發平台改成x64位元才不會有內存溢出
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
- ¥15 如何在scanpy上做差异基因和通路富集?
- ¥20 关于#硬件工程#的问题,请各位专家解答!
- ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
- ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
- ¥30 截图中的mathematics程序转换成matlab
- ¥15 动力学代码报错,维度不匹配
- ¥15 Power query添加列问题
- ¥50 Kubernetes&Fission&Eleasticsearch
- ¥15 報錯:Person is not mapped,如何解決?