a29343539 2019-06-20 02:21 采纳率: 80%
浏览 388
已采纳

请问C#中,我有72246452条数据的TXT,我应该要如何去除重复值,并显示有哪些重复呢?

请问C#中,我有72246452条数据的TXT,我应该要如何去除重复值,并显示有哪些重复呢?
我用一般的方法会显示内存错误讯息,怕误入歧途,因此想先问好的方法,谢谢

  • 写回答

6条回答 默认 最新

  • a29343539 2019-06-20 20:59
    关注

    這是我最後的寫法,正常讀取7000萬筆數據,3分鐘以內可以跑完,沒有回報任何錯誤。

    List List陣列 = new List ();
    int 要跑讀取的第1行 = 0;
    int 要跑到讀取的最大值 = 72246500;
    var lines = File.ReadLines(@"自動化瀏覽器BUG檢視.txt", System.Text.Encoding.UTF8).Skip(要跑讀取的第1行).Take(要跑到讀取的最大值);
    //var lines = File.ReadLines(@"TEST.txt", System.Text.Encoding.UTF8).Skip(要跑讀取的第1行).Take(要跑到讀取的最大值);
    var iter = lines.GetEnumerator();
    while (iter.MoveNext())
    {
    List陣列.Add(iter.Current);
    }
    Console.WriteLine(List陣列.ToList().Count());
    HashSet hs = new HashSet(List陣列);
    //hs.ToList().ForEach(item => Console.WriteLine(item));
    Console.WriteLine(hs.ToList().Count());

                        另外也需要把開發平台改成x64位元才不會有內存溢出
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?