spark如何过滤掉变化时间

我要分析tomcat日志,需要过滤掉不需要的东西
192.168.9.230 - - [24/Apr/2017:19:38:18 +0800] "POST /dvr-gateway/api/genl/paging/device HTTP/1.1" 200 214
比如这一句,我就只想要文件路径和IP地址,该怎么写?用filter可以过滤掉除时间以外的任何数据,但是时间在变,该怎么去过滤?

换句话说我就是在做一个单词统计,统计出每个IP出现的次数和访问文件路径的次数,我能过滤成这样,唯独时间不知道该怎么办了
图片说明

这是我的代码
图片说明

0

1个回答

1
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
使用spark对输入目录的文件进行过滤
使用spark进行文件过滤 在使用spark的很多情形下, 我们需要计算某个目录的数据. 但这个文件夹下面并不是所有的文件都是我们想要计算的 比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉 更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件, 程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉 ...
SparkSQL之查询,过滤
def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("ScalaSparkDataFrameOps") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc)
将SPARK启动和运行时的一些INFO信息过滤掉
我们在每次启动和运行SPARK时,会出现大量的INFO信息,一些WARN和ERROR信息隐藏在其中,这可能会被我们忽略掉,同时对阅读造成了很多不便,所有可以将这些不太重要的信息过滤掉。方法是: 1. 进入$SPARK_HOME/conf目录下,拷贝一个log4j.properties.template,命名为log4j.properties,可以使用下面的语句完成: $ cp log4j.pr
scala flatMap为何能过滤掉Option中的None
import scala.collection.mutable._ def indexes(a: Array[String], m: Map[String,Int]) = a.flatMap(m.get(_)) def indexes1(a: Array[String], m: Map[String,Int]) = a.map(m.get(_)) val am = Array("Tom", "Fr
SparkStreaming通过读取文件动态黑名单过滤
SparkStream通过读取文件动态黑名单过滤定时从blackName中拷贝文件到write文件夹中public class CopyFile { public static void copyFile(File fromFile, File toFile) throws IOException { FileInputStream ins = new FileInputSt
历时半年,Spark 2.2终于脱掉了“实验”的帽子
IT168 编译】敲黑板!!!知识点来了:Apache Spark 2.2终于脱掉了“实验”的帽子,可用于实际生产环境。Spark 2.2最大的亮点就是Structured Streamin,它是用于构建Apache Spark 2.0中引入的连续应用程序的高级API,允许应用程序实时做出决策。 根据博客内容,Databricks公司的目标是“更易于构建端到端的流应用程序,以一致和容错的方式与存储...
spark使用window来统计近几分钟数据情况
package com.xyf import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object sparkStreamingTest { def main(args: Array[String]){ val conf = new Spar...
Spark(黑名单过滤)
11.transform以及广告计费日志实时黑名单过滤案例实战 最近看见一个Spark实战,用window做的,挺不错的! transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。 它可以用于实现,DStream API中所有没有提供的操作。比如说,DStream API中,并没有提供 将一个DStream中的么个batch,与一个特定的RDD进行join的
Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documentation.html 到Spark-1.6.2中 http://spark.apache.org/do
理解SparkSteaming窗口函数操作window()
需求场景:      一些业务场景,例如网站记录,每隔1个小时计算最近两个小时的pv量,还有一种业务场景的话先在内存中做累加再更新到redis中做累加,比如说每隔5秒统计最近5秒的数据的总和,再刷到redis中做累加,因为频繁操作redis的话会存在问题。   重要参数: 1.批处理间隔 2.窗口间隔 3.滑动时间间隔   原理介绍:        在Spark Streamin...
scala筛掉空行可能遇到的问题
input.txt的内容:需求:计算其中各个级别的日志消息条数,即INFO、WARN、ERROR的条数,其中空白的地方为空行,不统计val input =sc.textFile("file:///home/hadoop1/Desktop/input.txt") val tokensized = input.map(line=>line.split(" ")).filter(words=&gt...
Spark【案例】实现黑名单实时过滤
黑名单实时过滤一、实验介绍1.1 实验内容本节课主要讲解 Spark 的 RDD 操作,让您对 Spark 算子的特性快速了解。通过演示案例实时黑名单过滤,让您切身体会到 RDD 的强大功能,然后学以致用。1.2 先学课程Spark 系列课程1.3 实验知识点ncSparkStreamingSpark RDD1.4 实验环境spark-2.1.0-bin-hadoop2.6Xfce 终端1.5 适...
spark-core求共同好友
spark-core求共同好友 数据样式 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J 代码 第一遍聚合拿到每个好友拥有的所有用户。 第二遍...
Spark处理时间序列数据
整个逻辑为: 设备端毫秒级生成数据以文本方式传输到HDFS,然后通过SPARK解析文件并存储到HBASE中。 问题1:SPARK本身为分布式,如果通过分布式解析文件并存储,如何保证数据系列顺序? 问题2:使用SPARK进行HBASE插入的时候,使用RddPartitionForeach,然后给每条记录生成时间戳,并插入到HBASE,发现即使是微妙级别,在foreach的时候仍然会出现时间相同的
[Spark streaming举例]-- 统计一段时间内的热搜词
如下 package com.my.scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Durations, StreamingContext} /**   *   * 使用开窗函数实现spark streaming,版本统计一段时间内前三的热搜词汇   *   * 测试结果:测试成功   *...
如何解决spark开发中遇到需要去掉文件前几行数据的问题
转载请务必注明原创地址为:https://dongkelun.com/2018/05/27/sparkDelFirstNLines/ 前言 我碰到的问题是这样的,我需要读取压缩文件里的数据存到hive表里,压缩文件解压之后是一个txt,这个txt里前几行的数据是垃圾数据,而这个txt文件太大,txt是直接打不开的,所以不能手动打开删除前几行数据,而这个文件是业务人员从别人那拿到的所以也不能改,...
RDD之键值配对的连接变换
     连接变换         join           内连接         rightOuterJoin 右连接           leftOuterJoin  左连接         cogroup        全连接         subtractByKey  减连接cogroup 和subtractByKey  得到的是一个迭代器,要再将它循环输出多次,直至得到值    ...
基于spark1.5的时间滑动窗口实现
   在Spark Streaming 和spark sql 中滑动窗口在数据分析中占据这非常重要的位置,通过spark streaming和spark sql 在2.0以上版本可以直接调用时间滑动窗口window函数,但是在Spark SQL 1.5以下的版本是没有相关API的   时间滑动窗口使用场景:     IP1 向 IP2 在固定时间内10秒(可调)内发送请求次数超过固定次数20...
spark集群时间同步问题
一、             对于安装有spark的集群的节点要做好时间同步问题,因为节点的心跳机制需要系统时间。 解决办法一: 通过securecrt同时向多个tab窗口发送相同的时间调整命令 a.选择菜单栏View -->ChatWindows  对号,此时所有服务器连接下方应该有个空白的部分 b.在空白的部分(Chat Windows)右键鼠标, 选上Send Chatto All
scala重要函数:过滤函数
一  过滤函数 1 filter函数 def filter(p: A => Boolean): Repr = filterImpl(p, isFlipped = false)   传入一个返回结果为Boolean类型的函数,将此函数应用到集合中的每一个元素,然后将集合里所有满足该条件的元素作为一个子集返回 案例:  2 partition函数 传入一个返回类型为Boolea...
[Spark版本更新]--2.3.0发行说明
自从2017年12月1日发布spark-2.2.1以来,已有3个月时间。2018年2月28日,spark官方发布了一个大版本Spark-2.3.0,解决了1399个大大小小的问题。一、DataBricks做了相关说明今天,我们很高兴地宣布Databricks上的Apache Spark 2.3.0作为其Databricks Runtime 4.0的一部分。我们要感谢Apache Spark社区为S...
Spark RDD去掉前n行数据
@羲凡——只为了更好的活着 Spark RDD去掉前n行 Q:在处理一些数据的时候会遇到不想要的前n行,该怎么处理? A:使用 rdd 的 zipWithIndex 算子 rdd.zipWithIndex().filter(_._2>=n).keys // n换成对应的第几列即可 ======================================================...
spark-mysql中文过滤问题
在从mysql中读取数据(包含字段值问中文) 例如当使用使用select id from test where name =’杨’的时候出现了错误,结果为零object sparksql { def main(args: Array[String]) { val sc = new SparkContext( new SparkConf().setAppName(“sparksql”
大数据开发之Spark篇----过滤脏数据并统计
统计日志数据中的脏数据 现在我们手头上有一个日志文件,里面只有3个字段分别是url,时间,流量。在日志文件里面这些都是字符串,所以无论是时间还是流量都可能是一些不可用的格式,现在我们要统计出有多少脏数据并保留。 先贴代码吧,这里很多东西我都是写死了,大家就当个简单例子来看看吧: package sparkHomWork import java.io.{File, PrintWriter} imp...
spark sql 过滤空值,过滤某行的空值
data.na.drop() //所有空值 data.na.drop(Seq("col1","col2")过滤第一行,第二行的空值;
利用Hadoop和Spark处理用户心跳周期数据
数据源:可穿戴设备的实时数据分析。1.txt记录的是某一个用户的心跳周期数据,每一个数值表示一次心跳的周期,单位是秒。例如,0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储
2,StructuredStreaming的事件时间和窗口操作
推荐阅读:1,StructuredStreaming简介使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合。在一个分组聚...
spark2.0 新特性总结
新特性:1,用sparksession实现hivecontext和sqlcontext统一2,whole-stage code generation,大幅提高计算性能,因为把物理计划变成硬编码,每秒处理的sql中的数据量增加十倍,即对物理执行的多次调用转化为代码for循环,蕾丝hardcode方式,减少执行的函数调用次数,当数据记录多时,这个调用次数时很大的。3,合并dataframe和datas...
Spark 如何过滤重复的对象
数据如下所示: hello    world hello    spark hello    hive hello    world hello    spark hello    hive 最终需要的只是 hello    world hello    spark hello    hive 这三个,重复的丢掉。有两种实现方法。 第一:在程序将文本加载进来形成line R
【Spark五十八】Spark Streaming详解(重点窗口计算)
前面有几篇关于Spark Streaming的博客,那会只是作为Spark入门,快速体验Spark之用,只是照着葫芦画瓢。本文结合Spark官网上Spark Streaming的编程指南对Spark Streaming进行介绍 StreamingContext 如同SparkContext一样,StreamingContext也是Spark Streaming应用程序通往Spark集群的通...
Spark GC调优笔记
Spark GC调优笔记传统GCParalledl GC:高吞吐量,离线分析 CMS GC:低延迟,实时响应 Java堆内存划分为两个区域:Young和Old,Young存储短期对象,Old存储长期对象。 Young代进一步划分为三个区域:Eden,Survivor1,Survivor2 GC调优的目标只有长期对象存储在老年代,新生代有充分的大小短期对象。调优方法 如果老年代接近满,降低spark
Spark SQL时间函数
一、获取当前时间 1.current_date获取当前日期 2018-04-09   2.current_timestamp/now()获取当前时间 2018-04-09 15:20:49.247   3.时间戳转换字符串格式  from_unixtime(cloumn,'yyyy-MM-dd HH:mm:ss')   二、从日期时间中提取字段  1.year,month,day/dayofmon...
Spark Streaming 实时监控一个HDFS的文件夹,当新的文件进来(名字不能重复),将对新文件进行处理。
import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, StreamingContext} /** * Spark
spark日期格式转换
object FilterUtilsV4{ //如果object使用了成员变量,那么会出现线程安全问题,因为object是一个单例,多线程可以同时调用这个方法 //E代表星期几 //val dateFormat = new SimpleDateFormat("yyyy年MM月dd日,E,HH:mm:ss") //FastDateFormat是线程安全的 val dateFo...
Spark Streaming处理速度滞后于读取速度测试
Java代码   包 spark.examples.streaming      导入 org.apache.spark.SparkConf   import  org.apache.spark.streaming.StreamingContext._   导入 org.apache.spark.streaming._      对象NetCatStreamingWord
第20课:Spark Streaming中动态Batch Size实现初探
第20课:Spark Streaming中动态Batch Size实现初探 1 Batch duration 与Process Time 2 动态Batch size Spark Streaming中有很多算子,每一个算子不会呈现线性规律, Batch duration处理数据越大,时间不会线性增长。 数据量大,不是加大Batch duration就能解决问题。 一切终端一切媒体都会变
随时间变化提示.rar
随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar
Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转
关于Spark Streaming优化的各种叽里呱啦记录, 这一次是从跑不动, 一直优化到能每秒解决6万条输入消息以及3G数据的Inner Join. 大数据,流计算,spark,kafka,hadoop
Spark(二)————RDD变换和RDD Action
1、什么是RDD RDD是Spark的基本数据结构,是不可变数据集。RDD中的数据集进行逻辑分区,每个分区可以单独在集群节点进行计算。可以包含任何java,scala,python和自定义类型。 RDD是只读的记录分区集合。RDD具有容错机制。 Spark主要是内存处理计算,在job间进行数据共享,内存的IO速率高于网络和磁盘的10~100之间,而hadoop花费90%的时间用于读写数据,因...
Spark——计算用户在基站停留时间并排序
/home/hadoop/Data/logs/ user.log 15967170343,20180912082400,16030401EAFB68F1E3CDF819735E1C66,1 17606512176,20180912082500,16030401EAFB68F1E3CDF819735E1C66,1 15967170343,20180912170000,16030401EAFB6...
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 互联网大数据下的学习变化 spark大数据培训