C#中Parallel.For并行处理中读取文件时出现的错误

1、读取“d:/users/v-lingao/from_lei/wordsegmentation/testdata”目录下的所有txt文档，利用Parallel.For并行处理各个txt文档中的内容，每次读取一行存储到string line中，利用line = sr.ReadLine() （StreamReader sr); 没处理一行也入“d:/users/v-lingao/from_lei/wordsegmentation/testdata1”目录下新创建的对应的txt文件中。方法ComputeIDF()实现次功能。

2、读取在“d:/users/v-lingao/from_lei/wordsegmentation/testdata1”目录下创建的txt文件，利用Parallel.For并行处理每个txt文档中的内容，类似于ComputeIDF（）方法，利用line = sr.ReadLine().。法ComputingTfIdf()实现此功能。错误也就出现在此方法中，错误提示根据写入文件时编码方式的不同有所改变。

部分代码如下所示：

public static Dictionary ComputeIDF(List stopWordsList)
{
DirectoryInfo di = new DirectoryInfo(@"d:/users/v-lingao/from_lei/wordsegmentation/testdata");
FileInfo[] ff = di.GetFiles("*.txt");
Dictionary featureDoc = new Dictionary();

        Parallel.For(0, ff.Length, (part) =>
        {
            FileInfo file = ff[part];
            Dictionary<string, int> featureFile = new Dictionary<string,int>();  
            string name = file.Name.Substring(file.Name.LastIndexOf("\\") + 1);
            string path = Path.Combine(@"d:/users/v-lingao/from_lei/wordsegmentation/testdata1", name);
            FileStream aFile = new FileStream(path, FileMode.Create);
            StreamWriter sw = new StreamWriter(aFile, Encoding.UTF8);
            int lineCount = 0;
            char[] charArray = new char[] { ' ' };
            StreamReader sr = new StreamReader(file.OpenRead(),Encoding.UTF8);
            string line = sr.ReadLine();
            while (line != null)
            {
                    //部分代码省略
                lineCount++;
                sw.Write(lineCount);
                foreach (KeyValuePair<string, int> keyvalue in featureLine)
                {
                   sw.Write(' ' + keyvalue.Key + ':' + (0.5 + 0.5 * ((float)keyvalue.Value / maxCount)));
                 }
                 sw.WriteLine();
                 line = sr.ReadLine();
            }                                           
                //combine the featureFiles into featureDoc without repeating
                featureDoc.Add(featurename, featureFile[featurename]);                 
                sr.Close();
                sw.Close();    
        });
        Dictionary<string, float> idf = new Dictionary<string, float>();
        foreach (KeyValuePair<string, int> keyvalue in featureDoc)
        {
            idf.Add(keyvalue.Key, (float)Math.Log10((float)sumLine / (float)keyvalue.Value));
        }
        return idf;
    }

这个方法没有问题。接下来是ComputingTfIdf（idf），问题出在这个方法中。
public static void ComputingTfIdf(Dictionary idf)
{
DirectoryInfo dir = new DirectoryInfo(@"d:/users/v-lingao/from_lei/wordsegmentation/testdata1");
FileInfo[] ff = dir.GetFiles("*.txt");
StreamReader sr;

        Parallel.For(0, ff.Length, (part) =>
        {
            FileInfo file = ff[part];
            List<string> idfList = new List<string>();
            idfList.AddRange(idf.Keys);
            int linenum = 0;
            sr = new StreamReader(file.OpenRead(),Encoding.UTF8);
            char[] charArray = new char[] { ' ' };
            char[] charArray1 = new char[] { ':' };


            string name = file.Name.Substring(file.Name.LastIndexOf("\\") + 1);
            string path = Path.Combine(@"d:/users/v-lingao/from_lei/wordsegmentation/idfdata", name);
            FileStream aFile = new FileStream(path, FileMode.Create);
            StreamWriter sw = new StreamWriter(aFile, Encoding.UTF8);
             ** *string line = sr.ReadLine();* **    //这行有时也会出错
            while (line != null)
            {
                linenum++;
                string[] words = line.Split(charArray);
                int i = 1;
                foreach (string word in words)
                {
                    if (i == 1)
                    {
                        sw.Write(word + ' ');
                        i++;
                    }
                    else
                    {
                        string[] wds = word.Split(charArray1);
                        if (wds.Length == 2)
                        {
                            string key = wds[0];
                            if (idf.Keys.Contains(key))
                            {
                                double tfidf = (double)idf[key] * (Convert.ToDouble(wds[1]));
                                sw.Write(idfList.IndexOf(key)+ ':'+tfidf +' ');
                            }
                        }
                    }
                }
                sw.WriteLine();
                 ** *line = sr.ReadLine();* **   //问题常常出现在这行
                }
            }
            sw.Close();
        });
    }

错误提示根据写入文件时编码方式的不同有所改变。当读取、写入文件用UTF8或者Unicode时，写入和读取的都是乱码，并且line = sr.ReadLine()出错，错误提示为： ** The output char buffer is too small to contain the decoded characters, encoding 'Unicode (UTF-8)' fallback 'System.Text.DecoderReplacementFallback' **
很是无语，功能相同的代码，为什么ComputeIDF（）方法中line = sr.ReadLine()就不出错。我将编码换成Encoding.GetEncoding("GBK")读写文件不会出现乱码，但line = sr.ReadLine()还是出错，相当无语！
还有就是当不用并行处理Parallel.For，而是用for循环时也不出错。
求大侠帮忙，不胜感激！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
gll_89 2013-10-06 05:08
关注
问题在朋友的帮助下已经解决，很感谢我的朋友！
现在把结果和大家分享下，希望遇到类似问题的同仁能从中有所启发。
用并行处理Parallel.For，要特别注意局部变量的位置。在我的代码中sr是在Parallel.For结构外面定义的，这样在执行的过程中几个线程会共享一个sr，最终导致异常的产生。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【C#避坑实战系列文章06】C# Parallel.For 的 3 个常见错误：索引越界、共享数据污染、过度并行化（避坑技巧）
2025-09-18 09:04

码畔星连的博客摘要 C# 并行处理中 Parallel.For 是高效工具，但新手常犯三个错误：索引越界：误用硬编码结束索引导致数组越界，应动态获取长度（如 dataArray.Length）并避免循环内修改集合大小。共享数据污染：多线程同时修改...
如何在C＃中以高效的方式使用File.Copy（）复制文件？
2021-04-04 03:27

在C#编程中，`File.Copy()`方法是用于文件复制的标准方法，但有时它可能不是最高效的解决方案，尤其是在处理大量数据或需要频繁复制文件时。根据描述中的引用，可能存在一个优化过的版本，提供了比默认`File.Copy()`...
C#并发实战：Parallel.ForEach的“性能陷阱”——为什么你的代码反而变慢了？
2025-04-12 17:24

墨夶的博客 / 优化方案：显式设置并行度MaxDegreeOfParallelism = Environment.ProcessorCount * 2 // 超线程优化// 自定义分区策略// 每分区1000项i++)});// 性能对比：// 默认分区：1000项耗时200ms// 自定义分区：1000项耗时...
C# 多线程 Parallel.ForEach 和 ForEach 效率问题研究及理解
2017-11-05 16:59

James-李的博客最近要做一个大数据dataTable循环操作，开始发现运用foreach，进行大数据循环，并做了一些逻辑处理。在循环中耗费的时间过长。后来换成使用Parallel.ForEach来进行循环。一开始认为，数据比较大时，Parallel....
C#读取csv格式文件的方法
2020-09-04 01:44

在C#中，读取CSV（Comma Separated Values）格式文件是一项常见的任务，因为CSV是一种通用的数据交换格式，尤其适合存储表格数据。本篇将详细介绍C#读取CSV文件的方法，包括理解CSV文件的基本规则以及如何使用C#类...
Parallel.ForEach并行异步执行导致程序崩溃
2020-10-14 14:09

菜鸟汐的博客 Parallel.ForEach(memberIds, new ParallelOptions { MaxDegreeOfParallelism = 3 }, async (id) => { await Task.Delay(randomr.Next(30, 80) * memberIds.IndexOf(id)); try { // TODO: 实现 } catch ...
C#批量压缩文件为zip文件类库.rar
2022-04-12 23:36

在.NET环境中，C#语言提供了多种方法来处理文件的压缩和解压缩操作，其中包括使用System.IO.Compression命名空间中的ZipArchive类。然而，对于大批量的文件压缩需求，可能需要自定义类库来提高效率和灵活性。"C#批量...
C#中，读取一个或多个文件内容的方法
2023-03-03 20:04

草原上唱山歌的博客快速读取多个文件内容的方法
Parallel并行计算合计数据时错误的原因和解决办法
2011-07-24 16:03

jadexupeng的博客在.NET 4.0中System.Threading.Tasks.Parallel类中有几个很方便调用的并行计算方法，我想各位会经常用到Parallel.For，Parallel.ForEach，正常来说我们调用它然后传递一个独立的方法进去后它可以很好的并行计算，为...
C# 中的并发和并行
2024-07-02 08:00

谢.锋的博客在 C# 中，这些概念通过异步编程和任务并行库得到很好的支持。通过利用这些技术，开发人员可以创建高效管理多个任务并有效利用系统资源的应用程序。此处提供的示例演示了在 C# 中实现并发性和并行性的基础知识，可...
关于C#中的并行处理
2019-06-16 22:23

qq_33435310的博客然而，当算法不可再优化时，我们就该考虑能否合理的将数据分割成若干个子集，然后去做并行处理。下面是我通过将Excel中的两个Sheet页的数据作比较的例子，目的是得到，A表中有，B表中没有的数据。（两表中各有10000...
ImageTest.rar_图形图像处理_C#_
2021-08-11 17:26

在IT领域，图形图像处理是一项重要的技术，广泛应用于多媒体、设计、艺术以及各种软件应用中。C#作为一种功能强大的编程语言，提供了丰富的库和API，使得开发者能够方便地进行图像处理。在这个"ImageTest.rar_图形...
C#中的多线程编程：线程同步（lock锁）、并行循环、异步编程
2024-07-21 02:21

我aa傻蛋的博客 C#中的多线程编程允许程序同时执行多个任务，提高程序的效率和响应速度。以下是C#多线程基础的一些关键概念和使用方法：1. Thread 类C#中最直接的多线程方式是使用 System.Threading.Thread 类。以下是一个简单的多...
在C#中获取文件夹及子文件夹下所有文件的全面指南
2025-05-20 13:41

梦幻南瓜的博客本文详细介绍了在C#中获取...最后，探讨了并行处理技术，包括Parallel.ForEach和PLINQ，以提高处理大量文件时的性能。通过这些方法，开发者可以根据具体需求选择最合适的解决方案，优化文件系统操作的效率和性能。
在C#中，如何通过并⾏编程来提⾼性能？
2025-01-05 15:45

面试八股文的博客是 C# 中进行并行编程的核心库，它提供了简单易用的 API，用于并行执行任务。：根据实际场景选择合适的并行技术，确保线程安全和代码可维护性。来分解任务，充分利用 CPU 资源，提高程序执行效率。提供了一组可复用...
C#基础知识学习——异步Task、Parallel 、异步实例（十九）
2023-02-01 17:47

~小先生~的博客异步用途通常用于执行完成时间较长的任务，比如：打开大文件、连接远程计算机、查询数据库等操作。应用程序调用方法异步执行某个操作时，应用程序可以在异步方法执行其任务时继续执行。异步机制异步编程采用future或...
并行编程模式是C#中用于处理多任务并发执行的重要技术，旨在充分利用多核处理器和异步机制来提高性能和响应性
2025-06-05 20:27

张工在路上的博客结合《CLR via C#》第19章（线程基础）和第20章（异步编程）的知识，以及现代.NET（.NET 5+）的特性，我将深入讲解C#中的并行编程模式，重点包括并行编程的核心概念、常见模式、深入代码示例、经典案例、优化技巧、...
C#系列-并行处理+异步流（5）
2024-02-09 15:42

管理大亨的博客在.NET Core和.NET 5+中，System.IO.Pipes和System.Threading.Channels命名空间提供了额外的工具来创建和使用管道...中，并行处理指的是同时执行多个任务或操作，以利用多核或多处理器的优势，从而提高应用程序的性能。
没有解决我的问题, 去提问

C#中Parallel.For并行处理中读取文件时出现的错误

1条回答 默认 最新

1条回答默认最新