spark如何过滤掉变化时间

我要分析tomcat日志,需要过滤掉不需要的东西
192.168.9.230 - - [24/Apr/2017:19:38:18 +0800] "POST /dvr-gateway/api/genl/paging/device HTTP/1.1" 200 214
比如这一句,我就只想要文件路径和IP地址,该怎么写?用filter可以过滤掉除时间以外的任何数据,但是时间在变,该怎么去过滤?

换句话说我就是在做一个单词统计,统计出每个IP出现的次数和访问文件路径的次数,我能过滤成这样,唯独时间不知道该怎么办了
图片说明

这是我的代码
图片说明

0

查看全部1条回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark sql 过滤空值,过滤某行的空值
data.na.drop() //所有空值 data.na.drop(Seq("col1","col2")过滤第一行,第二行的空值;
SparkSQL之查询,过滤
def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("ScalaSparkDataFrameOps") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc)
使用spark对输入目录的文件进行过滤
使用spark进行文件过滤 在使用spark的很多情形下, 我们需要计算某个目录的数据. 但这个文件夹下面并不是所有的文件都是我们想要计算的 比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉 更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件, 程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉 ...
scala flatMap为何能过滤掉Option中的None
import scala.collection.mutable._ def indexes(a: Array[String], m: Map[String,Int]) = a.flatMap(m.get(_)) def indexes1(a: Array[String], m: Map[String,Int]) = a.map(m.get(_)) val am = Array("Tom", "Fr
Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documentation.html 到Spark-1.6.2中 http://spark.apache.org/do
spark使用window来统计近几分钟数据情况
package com.xyf import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object sparkStreamingTest { def main(args: Array[String]){ val conf = new Spar...
==[案例]Spark RDD数据关联过滤案例
Spark RDD数据关联过滤案例 - 简书 http://www.jianshu.com/p/f77cb1c93793 前言 最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长QQ:86608625 微信:guofei1990123 背景 detail.txt为用户注册信息全表,filter.txt为需要过滤掉的用户的手机号码...
2,StructuredStreaming的事件时间和窗口操作
推荐阅读:1,StructuredStreaming简介使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合。在一个分组聚...
Spark(黑名单过滤)
11.transform以及广告计费日志实时黑名单过滤案例实战 最近看见一个Spark实战,用window做的,挺不错的! transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。 它可以用于实现,DStream API中所有没有提供的操作。比如说,DStream API中,并没有提供 将一个DStream中的么个batch,与一个特定的RDD进行join的
scala程序写Spark程序实现黑名单过滤
package com.bigdata import org.apache.spark.rdd.RDD import org.apache.spark.{SparkContext, SparkConf} /**  *  */ object BlackWhite {   def main(args: Array[String]) {     createContext
Spark处理时间序列数据
整个逻辑为: 设备端毫秒级生成数据以文本方式传输到HDFS,然后通过SPARK解析文件并存储到HBASE中。 问题1:SPARK本身为分布式,如果通过分布式解析文件并存储,如何保证数据系列顺序? 问题2:使用SPARK进行HBASE插入的时候,使用RddPartitionForeach,然后给每条记录生成时间戳,并插入到HBASE,发现即使是微妙级别,在foreach的时候仍然会出现时间相同的
Spark 1.4新特性概述
经过4个RC版本,Spark 1.4最终还是赶在Spark Summit前发布了,本文简单谈下本版本中那些非常重要的新feature和improvement. 正式引入SparkR   Spark 1.4正式引入了SparkR(可以参见本博客的《Spark官方正式宣布支持SparkR(R on Spark)》介绍),它是一个R API,SparkR是基于Spar
spark-mysql中文过滤问题
在从mysql中读取数据(包含字段值问中文) 例如当使用使用select id from test where name =’杨’的时候出现了错误,结果为零object sparksql { def main(args: Array[String]) { val sc = new SparkContext( new SparkConf().setAppName(“sparksql”
scala筛掉空行可能遇到的问题
input.txt的内容:需求:计算其中各个级别的日志消息条数,即INFO、WARN、ERROR的条数,其中空白的地方为空行,不统计val input =sc.textFile("file:///home/hadoop1/Desktop/input.txt") val tokensized = input.map(line=>line.split(" ")).filter(words=&gt...
基于spark1.5的时间滑动窗口实现
   在Spark Streaming 和spark sql 中滑动窗口在数据分析中占据这非常重要的位置,通过spark streaming和spark sql 在2.0以上版本可以直接调用时间滑动窗口window函数,但是在Spark SQL 1.5以下的版本是没有相关API的   时间滑动窗口使用场景:     IP1 向 IP2 在固定时间内10秒(可调)内发送请求次数超过固定次数20...
Spark 如何过滤重复的对象
数据如下所示: hello    world hello    spark hello    hive hello    world hello    spark hello    hive 最终需要的只是 hello    world hello    spark hello    hive 这三个,重复的丢掉。有两种实现方法。 第一:在程序将文本加载进来形成line R
spark scala 对RDD进行过滤----filter使用方法
spark scala中对RDD过滤的写法
java,spark实现黑名单过滤
/** * java,spark实现黑名单过滤 */ public class BlackListFilter { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]")...
如何解决spark开发中遇到需要去掉文件前几行数据的问题
转载请务必注明原创地址为:https://dongkelun.com/2018/05/27/sparkDelFirstNLines/ 前言 我碰到的问题是这样的,我需要读取压缩文件里的数据存到hive表里,压缩文件解压之后是一个txt,这个txt里前几行的数据是垃圾数据,而这个txt文件太大,txt是直接打不开的,所以不能手动打开删除前几行数据,而这个文件是业务人员从别人那拿到的所以也不能改,...
利用Hadoop和Spark处理用户心跳周期数据
数据源:可穿戴设备的实时数据分析。1.txt记录的是某一个用户的心跳周期数据,每一个数值表示一次心跳的周期,单位是秒。例如,0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储
spark1.x升级到spark2.x以及1.x和2.x的版本兼容
1. spark 1.x 升级到spark 2.x 对于普通的spark来说,变动不大 : 举一个最简单的实例: spark1.x public static JavaRDD<String> workJob(JavaRDD<String> spark1Rdd) { JavaPairRDD<String, Integer> t...
Spark GC调优笔记
Spark GC调优笔记传统GCParalledl GC:高吞吐量,离线分析 CMS GC:低延迟,实时响应 Java堆内存划分为两个区域:Young和Old,Young存储短期对象,Old存储长期对象。 Young代进一步划分为三个区域:Eden,Survivor1,Survivor2 GC调优的目标只有长期对象存储在老年代,新生代有充分的大小短期对象。调优方法 如果老年代接近满,降低spark
Spark Streaming实时处理本地数据流
每隔20s监听本地文件夹“/home/hduser/Streamingtext”下新生成的文本文件,对新文件中的各单词个数进行统计/* Streamingtext下操作文件应注意以下几点: 1.监控目录下的文件应该具有统一的数据格式,避免在内部解析时报错。 2.文件必须是在监控目录下创建,可以通过原子性的移动或重命名操作,放入目录。 3.一旦移入目录,文件就不能再修改了,如果文件是持续写入的话,新的
Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转
关于Spark Streaming优化的各种叽里呱啦记录, 这一次是从跑不动, 一直优化到能每秒解决6万条输入消息以及3G数据的Inner Join. 大数据,流计算,spark,kafka,hadoop
将SPARK启动和运行时的一些INFO信息过滤掉
我们在每次启动和运行SPARK时,会出现大量的INFO信息,一些WARN和ERROR信息隐藏在其中,这可能会被我们忽略掉,同时对阅读造成了很多不便,所有可以将这些不太重要的信息过滤掉。方法是: 1. 进入$SPARK_HOME/conf目录下,拷贝一个log4j.properties.template,命名为log4j.properties,可以使用下面的语句完成: $ cp log4j.pr
SparkStreaming通过读取文件动态黑名单过滤
SparkStream通过读取文件动态黑名单过滤定时从blackName中拷贝文件到write文件夹中public class CopyFile { public static void copyFile(File fromFile, File toFile) throws IOException { FileInputStream ins = new FileInputSt
spark日期格式转换
object FilterUtilsV4{ //如果object使用了成员变量,那么会出现线程安全问题,因为object是一个单例,多线程可以同时调用这个方法 //E代表星期几 //val dateFormat = new SimpleDateFormat("yyyy年MM月dd日,E,HH:mm:ss") //FastDateFormat是线程安全的 val dateFo...
Spark Streaming处理速度滞后于读取速度测试
Java代码   包 spark.examples.streaming      导入 org.apache.spark.SparkConf   import  org.apache.spark.streaming.StreamingContext._   导入 org.apache.spark.streaming._      对象NetCatStreamingWord
Spark——计算用户在基站停留时间并排序
/home/hadoop/Data/logs/ user.log 15967170343,20180912082400,16030401EAFB68F1E3CDF819735E1C66,1 17606512176,20180912082500,16030401EAFB68F1E3CDF819735E1C66,1 15967170343,20180912170000,16030401EAFB6...
随时间变化提示.rar
随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar随时间变化提示.rar
Spark 应用程序调优
Spark 应用程序调优
Spark2.1.0官方文档
Spark 概述Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。
SparkStreaming之窗口函数
WindowOperations(窗口操作)          Spark还提供了窗口的计算,它允许你使用一个滑动窗口应用在数据变换中。下图说明了该滑动窗口。 如图所示,每个时间窗口在一个个DStream中划过,每个DSteam中的RDD进入Window中进行合并,操作时生成为 窗口化DSteam的RDD。在上图中,该操作被应用在过去的3个时间单位的数据,和划过了2个时间单位。这说明
Spark性能调优-性能监控、参数调整
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置:可以通过log4j.properties配置
sparksql 时间函数
一、获取当前时间 1.current_date获取当前日期 2018-04-09 2.current_timestamp/now()获取当前时间 2018-04-09 15:20:49.247 3.时间戳转换字符串格式 from_unixtime(cloumn,'yyyy-MM-dd HH:mm:ss') 二、从日期时间中提取字段 1.year,month,day/dayofmonth,...
Spark-SQL常用的时间处理函数
Spark-SQL常用的时间处理函数 Spark-SQL函数对大小写不敏感 姊妹篇:Mysql常用时间处理函数 year select year('2018-03-03 20:30:34'); // 2018 month select month('2018-03-03 20:30:34'); // 3 weekOfYear select weekOfYear(...
Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值
1、为什么引入Backpressure      默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。...
Spark 实现黑名单实时过滤
黑名单实时过滤 一、实验介绍 1.1 实验内容 本节课主要讲解 Spark 的 RDD 操作,让您对 Spark 算子的特性快速了解。通过演示案例实时黑名单过滤,让您切身体会到 RDD 的强大功能,然后学以致用。 1.2 先学课程 Spark 系列课程 1.3 实验知识点 ncSparkStreamingSpark RDD 1.4 实验环境 spark-2.1.0-b
Spark数据重新聚合实战
原始数据: (日期,时间,用户ID,行为字段,IP) 原始数据为按时间排列的日志数据 目的: 将各个用户的数据聚合,并将其该用户的行为数据按按时间顺序排序后输出。 最后再根据用户产生记录数量多少,排序输出。也就是谁行为数据多,谁优先输出 结果: 代码: package LoadTest import org.apache.log4j.{Logger
Spark Streaming性能调优详解
Spark Streaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然Spark Streaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不一
文章热词 虚拟化技术学习 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程
相关热词 ios获取idfa server的安全控制模型是什么 sql android title搜索 javaweb过滤器学习 平时如何学习java