大量单条数据使用spark效率高吗? 5C

比如 我有 1亿条 汉字句子,需要生成哈希码,但是这些句子不能组成list,只能单条一条一条的生成哈希码,这样使用spark,会提升效率吗?这种应用场景,应该怎么使用spark?

0

1个回答

确认几个事情:
1)数据在哪 spark能不能分布式访问 比如HDFS 就OK
2)你的spark集群有多大 如果只有一两个节点 其实和跑多个线程并行计算没多大区别
3)不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的 生成哈希吗 map 一下就完了 可以写回HDFS

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
MySQL大量数据插入各种方法性能分析与比较
不管是日常业务数据处理中,还是数据库的导入导出,都可能遇到需要处理大量数据的插入。插入的方式和数据库引擎都会对插入速度造成影响,这篇文章旨在从理论和实践上对各种方法进行分析和比较,方便以后应用中插入方法的选择。 插入分析 MySQL中插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例: 连接:(3)发送查询给服务器:(2)分析查询:(2)插入记录:(1x记录大小)插入索引:
mysql批量insert数据的几种方法的效率比较
最近做shopsping爬虫优化时,得出几点关于批量insert数据及各自的效率的心得 语言:java 效率衡量参数:多次执行,比较各自的执行时间 测试数据量:1W条 mysql驱动版本:5.1.24 下面是代码,其中有共用的一个获取链接的函数 public class CreatConnection { // private static String url = "jdbc:
单个update与多个update的效率区别
这段时间项目里遇到有这样一个rake,所以就把它分享了。 valid_hotels_ids = [1, 2, 3, ...] 这是一个需要update的hotel表的id数组。 法一:逐一update [code="ruby"] valid_hotels_ids.each do |id| Hotel.update(id, "status = 'VALID'"...
JDBC单条插入和批量插入效率分析
JDBC单条插入和批量插入效率分析 背景:最近做的一个需求是需要大量插入数据到oracle,且此oracle不是项目所用的数据库,由于数据量比较大,故打算采用数据库连接池+JDBC批量插入来处理。 做完此需求后,对数据库的单条插入和批量插入有点兴趣,故写了个小程序来测试一下单条插入和批量插入的效率如何。 测试环境:Windows10、MySQL 5.5.43、JDK 1.7 测试代
mysql 批量插入与单条插入 的效率比较
sql中的单条出入与批量插入效率比较
java 依次单条数据 写入数据库 500万条
不多说废话,数据库采用SQLServer 2008 数据库名TestDB  字段 P17173_Name nvarchar(50) P17173_MD5Key nvarchar(50) P17173_SecurityEmail nvarchar(100) P17173_ICPassCard nvarchar(50) 从一个超级大的txt中读取数据写入到DB中。秒懂
三种批量删除PLSQL写法效率的比对
我们有一个重要的旧系统,最近夜维出现了一些问题,夜间执行5小时未完成,为了不影响业务,只能早上高峰期之前,DBA手工kill夜维进程。这一个夜维程序采用了PLSQL写的存储过程,通过数据库job定时启动执行。存储过程我很少使用,借着这次机会,补习了下,这个存储过程中的逻辑比较简单,依次删除若干张业务表,每张表删除的逻辑相同,为了便于说明,模拟了下删除一张表的逻辑,示例如下, TBL_CUSS表三个
大量数据下不同数据结构查询效率的差异及原因猜测
欢迎指正,转载注明出处。大胡子_biu测试0 批量插入和逐条插入批量插入10万条数据大约是1.162秒,逐条插入大约是86秒测试1 自增id和uuid表A结构如下表a表B结构如下表b表A主键为自增长整数,parentid为十位重复数字。表B的uuid和parentid由mysqluuid()函数获得。两个表的name字段值相同,nowtime值相同。累计插入数据150W条。以下为两个表count(...
单条commit与多条commit对系统产生的IOPS影响的探讨
单条COMMIT和多条COMMIT,对系统产生的IOPS有什么影响,有多大影响,为什么?
Spark大数据常见错误分享总结(来自苏宁)
Spark trouble shooting 经验分享 错误总结
第22课:Spark性能调优之使用更高性能算子及其源码剖析
第22课:Spark性能调优之使用更高性能算子及其源码剖析Spark性能调优之使用更高性能算子的重要性在于同样的情况下,如果使用更高性能的算子,从算子级别给我们带来更高的效率。Spark现在主推的是DataSet这个API接口,越来越多的算子可以基于DataSet去做,DataSet基于天然自带的优化引擎,理论上讲比RDD的性能更高,DataSet弱点是无法自定义很多功能。平时使用来讲,使用的最基
Spark性能调优之广播大变量
    本篇blog讲述在实际spark项目中可能需要注意的一个性能调优的一个点,就是broadcast大变量。    默认的在spark作业中,task执行的算子中,使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?<br>map,本身是不小,存放数据的一个单位是Entry,还有可能会用链表的格式的来存放Entry链条。所以map是比较消耗内存的数据格式。比如,ma...
sqlite插入数据效率提升解决方案
sqlite 插入数据很慢的原因:sqlite在没有显式使用事务的时候会为每条insert都使用事务操作,而sqlite数据库是以文件的形式存在磁盘中,就相当于每次访问时都要打开一次文件,如果对数据进行大量的操作,时间都耗费在I/O操作上,所以很慢。
spark批量读取大量小文件的办法
在实际工程中,经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。 幸运的是,spark原生是支持这种功能的。它可以批量地读取众多的文件,也可以按照一定的方式进行过滤。 命令十分简单。如下: sc.textfile("/dir/*.txt") 其中DIR就是路径,而*.txt则是对某种类型的文件进行过滤。 通过这种方式,可以直接实现对众
工作随笔—Elasticsearch大量数据提交优化
问题:当有大量数据提交到Elasticsearch时,怎么优化处理效率? 回答: 批量提交 当有大量数据提交的时候,建议采用批量提交。 比如在做 ELK 过程中 ,Logstash indexer 提交数据到 Elasticsearch 中 ,batch size 就可以作为一个优化功能点。但是优化 size 大小需要根据文档大小和服务器性能而定。 像 Logstash 中提交文档大小超...
StringBuilder的append()效率比String的+运算符效率高太多
public static void main(String[] args) { // TODO 自动生成的方法存根 String str = ""; StringBuffer sb = new StringBuffer(); long start = 0L; long end = 0L; start = System.currentTimeMillis(); for (int i = 0; i
RocketMQ大数据畅想
刚刚过去的双十一,阿里自主研发的消息中间件RocketMQ,充分展现了它的低延迟特性,大部分消息请求落在2ms内,慢请求也都落在20ms内,这无疑给追求快速响应的在线交易系统(OLTP)带去了福音。 也是在今年11月份,RocketMQ进入Apache孵化。这款最初设计来为淘宝交易系统异步解耦、削峰填谷的消息中间件,开始走出国门,为世界上的用户提供服务。自然地,RocketMQ将来不仅仅只服务于
Spark项目实战-实际项目中常见的优化点-使用foreachPartition优化写数据库性能
首先,我们看一下foreach的写原理: 1、foreach的性能缺陷在哪里? (1)首先对于每条数据都要单独去调用一次function,task为每个数据都要去执行一次function函数。 如果100万条数据(一个partition),调用100万次,性能比较差。 (2)另外一个非常非常重要的一点,如果每个数据你都去创建一个数据库连接的话,那么你就得创建100万次数据库连接。我们都...
mysql 数据量大时插入和查询性能
现在mysql中有数据33.8w的数据,然后做查询和更新或插入操作,速度很慢,基本100条数据就要1.68s。好慢啊,我要测试一下,到底慢在哪?能不能提高点速度? 参考一篇博文:http://blog.csdn.net/clh604/article/details/19608869#0-tsina-1-37035-397232819ff9a47a7b7e80a40613cfe1。现在是2015.
spark thriftserver进程fullgc导致卡死和计算getsplit时间很长问题
背景 参考饿了么经验:https://zhuanlan.zhihu.com/p/28574213 饿了么经验中谈到:“hive.exec.orc.split.strategy为ETL”,但是这样可能导致spark thriftserver的内存压力很大,面对大作业会导致full gc从而进程卡死或退出。 原因 先看看split的strategy类别,它有BI,ETL和HYBRID三种,...
innerjoin 和 exists的执行效率区别
今天在实现业务时发现经常使用exists语句竟然执行效率低下根本不出结果,反而innerjoin可以瞬间得到结果。后来发现是因为exsits需要从40万的数据集中去匹配200条数据是非常消耗资源的。 总结: 首先要确定数据分布情况,高命中的情况下使用exists的效率要比innerjoin的高,低命中率的情况下还是使用innerjoin的效率高。 如果在不清楚数据分布情况的情况下,直接用inner...
Spark SQL 大数据处理
InfoQ 上有学者对 Spark 的大数据处理,做了一些归纳演讲 我尝试着对这些演讲做翻译,加入了一些自己的理解和实验 理解是我自己的,有可能是错误的,实验是为了证明自己的理解是正确的 Big Data Processing with Apache Spark - Part 2 : Spark SQL https://www.infoq.com/articles/apache-spark...
基于spark SQL之上的检索与排序对比性能测试
关于spark的性能,基于YDB的对比,做了一个测试,保留备用。 一、YDB与spark sql在排序上的性能对比测试 在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀spark默认的格式。
数据库优化及提高大量数据的查询效率
对数据库优化的初级理解
Spark性能调优之——在实际项目中广播大变量
Spark Application Driver 进程,其实就是我们写的Spark作业,打成jar运行起来的进程。比如一个1M的map(随机抽取的map) ,创建1000个副本,网络传输!分到1000个机器上,则占用了1G内存。不必要的网络消耗,和内存消耗。如果你是从哪个表里面读取了一些维度数据,比方说,所有商品的品类的信息,在某个算子函数中使用到100M。1000个task 。100G的数据,网络
Spark处理百亿规模数据优化实战
本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段 本文于2017-07-16号书写 Spark任务优化 本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...
基于spark的朴素贝叶斯分类器
根据TDA里面的情感分析实现的基于spark的朴素贝叶斯分类器 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.rdd._ import scala.util.parsing.json._ import java.util.StringT
大数据利用hive on spark程序操作hive
hive on spark 作者:小涛 Hive是数据创库,他是处理有结构化的数据,当数据没有结构化时hive就无法导入数据,而它也是远行在mr程序之上的基于磁盘计算,然而我们今天来让hive远行在spark上,基于内存计算,在基于内存来让hive远行在内存上这样就比以前的快个几十倍,现在...
【Spark八十五】Spark Streaming分析结果落地到MySQL
几点总结: 1. DStream.foreachRDD是一个Output Operation,类似于RDD的action,会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数(是一个RDD[T]=>Unit的函数类型),这样,当foreachRDD方法在每个Worker上执行...
Spark性能优化——内存的消耗
一、内存消耗在什么地方 1、每个Java对象,都有一个对象头,会占用16个字节,主要是包括了一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个int类型的field,那么它的对象头实际上比对象自己还要大。 2、Java的String对象,会比它内部的原始数据,要多出40个字节。因为它内部使用char数组来保存内部的字符序列的,并且还得保存诸如数组长度之类
调试经验——Oracle大批量更新数据操作需要使用COMMIT语句(Use commit statement after updating database)
今天,发现对Oracle进行更新操作时,有必要加上Commit语句,否则,会出现以下错误(准确的Oracle error id没记下来):1. 报错:数据被block了2. 报错:资源耗尽总之,因为更新数据的SQL语句块比较多(70段语句),至少要在中途加上两三个commit语句,从而防止上述两个错误。------------------------------------------------...
Spark与大数据处理常用操作
初始化RDD RDD的transform 1 Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上),通过SparkContext(简称sc)连接Spark集群、创建RDD,简单可以认为SparkContext是Spark程序的根本。 Driver会把计算任务分成一系列小的task,然后送到executor执行。e...
Spark在任何情况下均比MapReduce高效吗?
答案是否定的。
利用Spark把数据写进mysql数据库时候遇到的问题
写入数据库的方式是:df2.write.mode(SaveMode.Append).jdbc(url,"student",properties)impossible to write to binary log since BINLOG_FORMAT = STATEMENT这是因为,mysql默认的binlog_format是STATEMENT。从 MySQL 5.1.12 开始,可以用以下三种模...
快速删除oracle中重复数据,效率高于直接删除数倍.
一般去重的SQL语句去重是这样写delete from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 ),然而这样的效率很低,最近公司项目因为大量测试产生了大量的垃圾数据,总数据量为10w垃圾数据为1.5w,以这种SQL执行时会直接卡死数据库造成停止响应的后果.所
spark实现hbase多线程批量读取
pom文件 <!--*************************************************************************--> <dependency> <groupId>org.apache.spark</groupId> &amp
大数据:Spark性能优化指南 高级篇
大数据:Spark性能优化指南 高级篇 热点网2016-05-16 15:06:55阅读(163)评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报   前言   继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调
局域网高效实现大数据的可靠,无错传输
大数据可靠传输效率一直是一个问题,使用tcp实现可靠传输效率太低不能被采用。我尝试封装udp来实现高效可靠大数据传输。我查看过enet和rdt的利用udp实现的封装,在网络环境不好的情况下基本不能使用,比tcp还要慢,内部实现机制出现了问题。我有一个思想实现封装,供大家参考和测试,源代码我也会完善封装。 服务端:数据map(序列号,数据对象(数据,是否确认收到标记))列表一个容纳发送的数据(带有...
使用FMDB事务批量更新数据库速度问题
通常一次 sqlite3_exec 就是一次事务,假如你要对数据库中的Stutent表插入新数据,那么该事务的具体过程是:开始新事物->插入数据->提交事务,那么当我们要往该表内插入500条数据,如果按常规操作处理就要执行500次“开始新事物->插入数据->提交事务”的过程。
【深度学习】③--神经网络细节与训练注意点
要么关注我好了~1. 权重的初始化1.1 fine-tuning神经网络的训练的有两种方式,第一种是自己从头到尾训练一遍;第二种是使用别人训练好的模型,然后根据自己的实际需求做改动与调整。后者我们叫做fine-tuning.在model zoo有大量训练好的模型(不知道的可以百度一下model zoo)fine-tuning相当于站在巨人的肩膀上,使用别人已经训练好了的优秀的模型去实现自己的需求。
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java如何学习效率高 学习java怎么样效率高

相似问题

1
spark sql如何执行delete
2
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
0
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
1
已经把spark源码导入IDEA里了,能用local-cluster运行examples里的例子吗?
2
Spark中如何将多个LabeledPoint合并成一个LabeledPoint,用以训练分类模型
1
如何将spark读入的txtRDD文本转为Vector格式
1
spark的dataframe中如何提取某一列数据的类型做判断?
1
求算法,一篇论文中的spark随机森林并行问题。
1
spark on yarn 8088界面只有一个程序是Running状态,其他都是ACCEPTED状态
1
使用livy提交spark任务失败
2
当jar在hdfs的时候提交spark job报错
2
为什么Spark只会惰性计算RDD?
2
在Java web中怎么提交一个spark job任务?
1
spark shell在存运算结果到hdfs时报java.io.IOException: Not a file: hdfs://mini1:9000/spark/res
1
spark一般任务的初始并行度怎么确定?
1
spark pair RDD创建操作
2
spark submit 提交集群任务后,spark Web UI界面不显示,但是有4040界面,显示local模式
1
Spark提交作业为什么一定要conf.setJars(),它的具体作用到底是什么?
2
如何用spark实现:编写spark程序调用外部程序或者调用动态链接库函数,对批量文件进行处理?
1
spark读取kafka数据, 缓存当天数据