英文文本统计及预处理

问题描述：给出一篇英文文章，文件不小于 5M 的大小。统计其中的每个不同英文单词和总单词的数量，（含标点符号），并实现对停用词（给定）和低频率词（出现次数小于某个参数，如小于 3）的过滤。实现要求： 1）分别用链表和哈希表来实现，注意要给出不同大小文件耗费的时间，对时间性能进行进一步分析； 2）关于英文文章，可以自动生成文本文件，也可以从网络上下载几篇英文文章。（求求大佬了，孩子要无了）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN专家-黄老师 2021-07-01 15:49

关注

#pragma warning(disable:4786)  
#include <iostream>  
#include <vector>  
#include <fstream>  
#include <string>  
#include <map>  
#include <queue>  
#include <ctime>  
using namespace std;  
void topK(const int &K)  
{  
    double t=clock();  
  
    ifstream infile;  
    infile.open("test.txt");  
    if (!infile)  
        cout<<"can not open file"<<endl;  
    string s;  
    map<string,int>wordcount;  
  
    while(true)  
    {  
        infile>>s;  
        if(infile.eof()) break;  
        wordcount[s]++;  
    }  
    cout<<"单词种类："<<wordcount.size()<<endl;  
    //优先队列使用小顶堆，排在前面的数量少，使用">";  
    priority_queue< pair< int,string >,vector< pair< int,string > >,greater< pair< int,string> > > queueK;  
    for (map<string,int>::iterator iter=wordcount.begin(); iter!=wordcount.end(); iter++)  
    {  
        queueK.push(make_pair(iter->second,iter->first));  
        if(queueK.size()>K)  
            queueK.pop();  
    }  
    pair<int,string>tmp;  
    priority_queue< pair< int,string >,vector< pair< int,string > >,less< pair< int,string> > > queueKless;  
    while (!queueK.empty())  
    {  
        tmp=queueK.top();  
        queueK.pop();  
        queueKless.push(tmp);  
    }  
    while(!queueKless.empty())  
    {  
        tmp=queueKless.top();  
        queueKless.pop();  
        cout<<tmp.second<<"\t"<<tmp.first<<endl;  
    }  
    cout<<"< Elapsed Time: "<<(clock()-t)/CLOCKS_PER_SEC<<" >"<<endl;  
}  
int main()  
{  
    int k=0;  
    cout<<"http://blog.csdn.net/NUPTboyZHB\n";  
    while (true)  
    {  
        cout<<"PUT IN K: ";  
        cin>>k;  
        if(k<=0)break;  
        topK(k);  
    }  
    return 0;  
}

如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

《Python文本挖掘实战：词频统计高效教程》-计算机科学·Python编程·文本分析·数据预处理
2024-05-03 18:42

- **Python**：一种广泛应用于数据科学领域的高级编程语言，因其语法简洁清晰、强大的第三方库支持而受到开发者们的青睐。 - **正则表达式（Regular Expression）**：是一种用于匹配字符串中字符组合的工具，常用于...
深度学习文本预处理[项目代码]
2025-11-15 06:49

深度学习文本预处理技术是处理自然语言处理任务的基础和关键环节。在这一领域，文本数据的准备对于模型的训练和性能具有决定性的影响。文本预处理主要涉及将文本数据转换为模型可理解的数值形式，其中包括一系列的...
商业编程-源码-PHP文本分析统计.zip
2022-06-21 17:55

在IT行业中，PHP是一种广泛应用的服务器端脚本语言，尤其在...通过研究这个项目，你不仅可以提升PHP编程技能，还能掌握文本分析和统计的实际应用，对于从事数据分析、信息挖掘或自然语言处理等领域的工作非常有帮助。
execise two.zip_popularoqi_中文词频统计_文本分词及词频统计
2022-09-23 19:48

在“execise two.zip_popularoqi_中文词频统计_文本分词及词频统计”这个项目中，我们关注的是使用C++编程语言来设计和实现一个面向对象的中文文本处理系统，其核心功能包括中文文本的分词以及词频统计。下面将详细...
基于词频生成词云图【文本预处理-统计词频-生成词云】.rar
2024-06-18 10:52

它涵盖了从文本预处理、分词、词频统计到最终生成词云图的完整流程。脚本首先通过正则表达式清洗文本，去除无关字符和信息，如特殊符号、网址、日期等。随后，使用jieba分词库对清洗后的文本进行分词，并统计名词...
统计自然语言处理基础
2025-11-19 08:53

统计自然语言处理是计算语言学的一个分支，它依赖统计学原理和技术对自然语言进行分析和处理。这一领域涉及多种核心理论与技术，如概率论、信息论、语料库处理以及词性标注等。在处理自然语言时，统计方法提供了一种...
R语言统计编程, 数据分析.zip
2024-01-12 21:29

"R语言统计编程, 数据分析.zip"这个压缩包很可能是包含了一系列教程、代码示例或者项目文件，旨在帮助用户深入理解和掌握R语言在数据分析中的应用。首先，R语言的基础知识是理解其语法和数据类型，如向量、矩阵、...
nlp基础-文本预处理及循环神经网络
2024-06-23 17:11

嘉威Feyn的博客 1 文本预处理及其作用定义：文本送给模型之前，提前要做的工作作用：指导模型超参数的选择、提升模型的评估指标文本预处理 工作结束的标志：准备出来X和Y 能送给模型2 文本预处理的主要环节1 文本处理的基本方法...
R语言与文本挖掘入门篇（各软件包详解）
2021-06-09 08:51

R语言作为统计分析和图形绘制的强大工具，同样适用于文本挖掘任务。本文将深入探讨R语言在文本挖掘中的应用，以及如何利用R中的相关软件包进行操作。首先，让我们了解文本挖掘的基本原理。文本挖掘结合了自然语言...
统计输入字符中数字字母及其他字符数量
2025-07-02 22:23

为了解决这一问题，我们可以采用多种编程语言来实现，例如Python、Java、C++等。以Python为例，我们可以通过遍历字符串，利用Python内置的字符串方法isalpha()、isdigit()来分别判断字符是否为字母或数字，并对结果...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

英文文本统计及预处理

1条回答默认最新

码龄粉丝数原力等级 --

英文文本统计及预处理

1条回答 默认 最新

1条回答默认最新