hadoop去除敏感词汇

大数据的发展，信息在网络上快速传播，为了使网络环境安全，信息正能量，在实际中，经常会需要去除某文件中不需要的字段，或者一些敏感词汇。
需求：现假设有一篇文章数据文件article.txt，需要过滤的敏感词库在数据文件sensitive.txt中。请过滤这篇文章包含的敏感词汇。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

12条回答默认最新

吃不了席 2023-12-25 14:35

关注

引自微信小程序：皆我百晓生：

您可以使用Hadoop的MapReduce框架来实现对敏感词汇的过滤。下面是一个使用Java编写的示例代码，以演示如何在Hadoop中过滤敏感词汇。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashSet;
import java.util.Set;

public class SensitiveWordFilter {

    public static class SensitiveWordFilterMapper extends Mapper<LongWritable, Text, Text, Text> {

        private Set<String> sensitiveWords = new HashSet<>();

        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            // 从敏感词汇文件中读取敏感词汇并存储到set中
            Configuration conf = context.getConfiguration();
            Path sensitiveWordsFile = new Path(conf.get("sensitive.words.file"));
            FileSystem fs = FileSystem.get(conf);
            BufferedReader reader = new BufferedReader(new InputStreamReader(fs.open(sensitiveWordsFile)));
            String line;
            while ((line = reader.readLine()) != null) {
                sensitiveWords.add(line.trim());
            }
            reader.close();
        }

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String article = value.toString();
            // 将文章按空格分割成单词
            String[] words = article.split(" ");
            for (String word : words) {
                if (!sensitiveWords.contains(word)) {
                    context.write(new Text(word), value);
                }
            }
        }
    }

    public static class SensitiveWordFilterReducer extends Reducer<Text, Text, Text, Text> {

        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            // 对具有相同单词的文章进行去重
            Set<String> articles = new HashSet<>();
            for (Text value : values) {
                articles.add(value.toString());
            }
            for (String article : articles) {
                context.write(key, new Text(article));
            }
        }
    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        conf.set("sensitive.words.file", "sensitive.txt");  // 设置敏感词汇文件
        Job job = Job.getInstance(conf, "Sensitive Word Filter");
        job.setJarByClass(SensitiveWordFilter.class);
        job.setMapperClass(SensitiveWordFilterMapper.class);
        job.setReducerClass(SensitiveWordFilterReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path("article.txt"));  // 输入文件路径
        FileOutputFormat.setOutputPath(job, new Path("output"));  // 输出文件路径
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

上述代码将敏感词汇文件路径作为一个配置参数传递给Mapper类。在Mapper类的setup()方法中，从配置中获取敏感词汇文件的路径，并使用FileSystem读取文件内容，将敏感词汇保存到Set<String>中。

在Mapper类的map()方法中，将输入的文章按空格分割成单词，遍历单词，如果单词不在敏感词汇集合中，则将该单词作为输出的key，文章内容作为输出的value。

在Reducer类的reduce()方法中，对具有相同单词的文章进行去重，去重后将结果输出。

在main()方法中，通过设置敏感词汇文件路径、输入文件路径和输出文件路径，配置MapReduce作业，并等待作业完成。

请注意，您需要将输入文件article.txt和敏感词汇文件sensitive.txt在Hadoop集群上进行操作。将代码中的文件路径替换为集群中的实际文件路径。

完成以上代码后，您可以在Hadoop集群上执行该作业，并获得过滤掉敏感词汇的输出结果。

报告相同问题？

关注问题

Hadoop大数据技术教程（ wukong-1.0v）
2020-09-22 12:10

悟空非空也的博客 1 初识Hadoop 什么是大数据随着近几年计算机技术和互联网的发展，“大数据”这个词被提及的越来越频繁。与此同时，大数据的快速发展也在无时无刻影响着我们的生活。例如，医疗方面，大数据能够帮助医生预测疾病；...
1、探索自然语言处理：从基础到高级应用
2025-11-11 01:39

flink9streamer的博客本文全面介绍了自然语言处理（NLP）从基础到高级应用的核心概念与技术。内容涵盖NLP的基本与高级应用、常用Python工具库如NLTK和SpaCy的使用方法、语料库的理解与数据准备流程、句子结构分析中的形态、词法、句法和...
《Hadoop》对于高级编程Hadoop实现构建企业级安全解决方案
2015-09-29 14:18

weixin_30765475的博客本章小结 ●理解企业级应用的安全顾虑 ●理解Hadoop尚未为企业级应用提供的...当构建企业级安全解决方式(它可能会环绕着与Hadoop数据集交互的很多应用程序和企业级服务)时，保证Hadoop自身的安全不过安全解决方...
提示词编程在虚拟世界社交互动中的角色
2025-01-21 00:28

程序员光剑的博客 编程语言：如Python、JavaScript等，用于编写提示词生成和匹配算法。框架和库：如TensorFlow、PyTorch等，用于构建和训练深度学习模型。 2.2.2 提示词编程平台介绍常见的提示词编程平台包括： OpenAI's GPT-3：一...
MapReduce——理论到编程
2020-08-14 22:56

weixin_43576422的博客前言对于大数据处理，传统的企业解决方式是：一个企业将有一个计算机存储...通过应用实践证明，关系模型非常适合于客户服务器编程，如今它是结构化数据存储在网络和商务应用的主导技术。但是，当代典型的关系数据库
《Hadoop高级编程》之为Hadoop实现构建企业级安全解决方案
2014-07-29 10:33

清图的博客本章内容提要 ● 理解企业级应用的安全顾虑 ● 理解Hadoop尚未为企业级应用...当构建企业级安全解决方案(它可能会围绕着与Hadoop数据集交互的许多应用程序和企业级服务)时，保证Hadoop自身的安全仅仅是安全解决方案的
深入剖析大模型预训练数据：来源、处理与影响
2025-05-11 22:27

源图客的博客大语言模型（LLM）的预训练数据是决定其性能的关键因素，尽管缺乏完善的理论分析，但数据对模型效果和泛化能力的影响被广泛认可。
HDFS数据去重实战：基于Spark的HDFS文件去重方案（代码）
2025-09-08 15:29

AI架构师小马的博客 1.4 术语表为了让新手快速理解，我们用“生活词汇”定义技术术语：技术术语生活类比通俗解释 HDFS 家里的大冰箱分布式文件系统，用于存储海量数据，数据分成“块”（比如128MB）存放在不同节点。 Spark 整理...
大数据毕业设计选题宝典：30个导师最爱的Hadoop+Spark项目详解之难度梯度分类毕业生毕设必看选题指导，计算机毕业设计选题讲解，毕业设计选题详细指导
2025-08-15 23:20

计算机编程指导师的博客大数据毕业设计选题宝典：30个导师最爱的Hadoop+Spark项目详解之难度梯度分类毕业生毕设必看选题指导，计算机毕业设计选题讲解，毕业设计选题详细指导 Java Python 小程序大数据 Hadoop Spark Hive Django Flask ...
智能HR助手设计：如何实现高效的向量检索
2025-08-24 02:09

AI云原生与云计算技术学院的博客当一份简历提到"使用Python进行数据清洗和分析"，而职位描述要求"具备数据处理能力，熟悉至少一种编程语言"时，传统系统可能因为关键词不匹配而忽略这位候选人，而基于向量检索的智能系统则能识别出其中的语义关联。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月25日

hadoop去除敏感词汇

12条回答 默认 最新

问题事件

12条回答默认最新