spark如何过滤掉变化时间

我要分析tomcat日志，需要过滤掉不需要的东西
192.168.9.230 - - [24/Apr/2017:19:38:18 +0800] "POST /dvr-gateway/api/genl/paging/device HTTP/1.1" 200 214
比如这一句，我就只想要文件路径和IP地址，该怎么写？用filter可以过滤掉除时间以外的任何数据，但是时间在变，该怎么去过滤？

换句话说我就是在做一个单词统计，统计出每个IP出现的次数和访问文件路径的次数，我能过滤成这样，唯独时间不知道该怎么办了
图片说明

这是我的代码
图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-10-11 10:46
关注
http://blog.csdn.net/kimyoungvon/article/details/52045395

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark - ML：开启大数据机器学习的神奇之门
2025-05-16 22:53

大雨淅淅的博客 Spark - ML 凭借其强大的分布式计算能力、丰富的算法库、灵活的特征工程工具和高效的模型评估机制，在大数据与机器学习领域展现出了巨大的优势。它已经在电商、金融、医疗等众多行业得到了广泛的应用，为企业和机构...
【大数据】Spark学习笔记
2024-01-04 07:50

pass night的博客 Spark学习笔记; 包含了Spark的基本概念/调度器/优化/RDD算子及SparkSQL的相关概念
大数据系列——Spark理论
2023-04-26 20:01

mql007007的博客 Apache Spark，全称伯克利数据分析栈，是一个开源的基于内存的通用分布式计算引擎，内部集成大量的通用算法，包括通用计算、机器学习、图计算等，用于处理大数据应用。主要由下面几个核心构件组成，具体包括：集群...
基于大数据的餐饮推荐系统，整体采用Lambda架构，读取餐饮评分数据并通过Spark的MLlib中的ALS建立推荐模型后进行推荐
2022-04-18 15:05

本篇将深入探讨一种基于大数据的餐饮推荐系统，该系统利用Lambda架构设计，结合Apache Spark的MLlib库中的协同过滤算法（Alternating Least Squares, ALS）来构建推荐模型，旨在为用户提供精准的美食推荐。...
基于Spark在大数据领域实现数据可视化
2025-08-29 20:34

大厂资深 AI 架构师的博客在当今数字化时代，大数据的规模呈爆炸式增长。从互联网用户的行为数据到企业的运营数据，海量的数据蕴含...本文章的目的在于探讨如何利用Spark强大的数据处理能力，结合数据可视化技术，实现大数据的有效展示和分析。
Spark大数据项目实战：电商用户行为分析系统
2025-04-24 18:45

AI大数据智能洞察的博客随着电商行业的快速发展，用户行为数据呈指数级增长（日均...支持业务决策技术原理：Spark核心组件在电商场景中的应用算法实现：用户分群算法与实时流量计算模型实战指南：从环境搭建到完整代码实现的全流程应用落地。
大数据技术Spark3.0详解
2022-10-04 14:27

wespten的博客 Spark3.0版本包含了3400多个补丁程序，是开源社区做出巨大贡献的最高峰，带来了Python和SQL功能的重大进步，并着眼于探索和生产的易用性。
基于大数据新闻推荐网站.zip
2024-03-06 22:35

Spark的Spark Streaming模块可以实时处理这些流式数据，快速构建用户画像，了解用户实时的兴趣变化。其次，内容分析是推荐系统的关键环节。Spark的MLlib库提供了丰富的机器学习算法，如TF-IDF、LDA（主题模型）等...
Hadoop+Spark大数据技术（自命题试卷测试）
2024-06-18 16:10

破坏神在行动的博客 HBase 和 SparkD. YARN 和 ZooKeeper2. HDFS 数据块存储方式的优势不包括：A. 文件大小不受单一磁盘大小限制B. 简化存储过程C. 提高数据访问速度D. 提高数据容错能力3. NameNode 的主要功能是：A. 存储数据块B. ...
大数据面试问题Hive、Spark
2025-01-09 12:04

程序员SASIOVERLXRD的博客例如一个数据表有10亿条数据，全盘扫描可能会需要很长时间，而如果按照时间分区，每个分区可能只有几百万条数据，查询时需要扫描的数据量大大减少，性能会显著提升。分桶可以使连接性能增强。如果两个表按照相同的...
没有解决我的问题, 去提问

spark如何过滤掉变化时间

1条回答 默认 最新

1条回答默认最新