大量单条数据使用spark效率高吗? 5C

比如 我有 1亿条 汉字句子,需要生成哈希码,但是这些句子不能组成list,只能单条一条一条的生成哈希码,这样使用spark,会提升效率吗?这种应用场景,应该怎么使用spark?

1个回答

确认几个事情:
1)数据在哪 spark能不能分布式访问 比如HDFS 就OK
2)你的spark集群有多大 如果只有一两个节点 其实和跑多个线程并行计算没多大区别
3)不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的 生成哈希吗 map 一下就完了 可以写回HDFS

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
使用sqldatareader的效率高吗?
只是判断某条数据是否存在,使用rnsqldatareader reader=cmd.excutereader()rnif(reader.hasrows)rnrn //rnrnelsernrn //rnrn这样速度怎么样啊
?微软自带的水晶报表统计大量数据效率高吗?
小弟在做一个系统升级 原来的系统的查询统计模块在sql里面用咯 视图查询效率很慢。现在系统升级请问rn微软自带的水晶报表统计大量数据效率高吗??
如何使大量数据的统计效率高
有这样的一个表结构ckmxrnck(仓库号),djh(订单号),hpdj(货品单价),sl(数量),xh(序号),zje(总金额)。。。其他字段忽略rn01,01, 10, 1, 1, 10rn01, 01, 5, 2, 2, 10rn01, 02, 2, 1, 1, 2rn02, 01, 3, 1, 1, 3rn结构大概就这样,这个表里面有数十万条纪律,现在需要统计,每个仓库每张订单的平均金额,每个仓库平均每张单据的货品数量rn由于需要多次统计,但是我只会简单的查询语句,很耗时rn请大虾们帮帮给个效率高的算法
在大量数据的情况下看看谁的效率高
[code=SQL]rnA语句rnselect t1.name,t2.samount,t2.placernfrom users t1,rn(rn select name,parentid,sum(amount) samount,placern from users,CasinoRolling where users.name=CasinoRolling.usergrouprn group by parentid,placern) t2 where t1.id=t2.parentidrnrn//--------------------------------------rnB语句rnselect t1.name,t2.amount,t2.place rnfrom users t1 inner join rn(rn select parentid,sum(amount) as amount,place rn from users inner join CasinoRolling ON (name=usergroup) rn group by parentid,place rn) t2 ON t1.id=t2.parentid rn[/code]
大量数据频繁写,如何效率高?
现在有一文件格式是:rn文件头rn数据rn索引rnrn然后不断往文件里面写数据包,达到最大长度有就新建个文件继续写;rn感觉每次都要判断文件是不是满了?是不是能够容下数据包与索引数据很麻烦呢?rnrn不知道大家有没有好办法?
怎么 进行大量的数据更新 效率高
环境是: 数据库数据量大概有1千万。rn然后数据会频繁的进行更新。 rnrn我现在用多条update语句一次进行更新,100条,大概要0.4秒左右。。效率不够,更新来不及。rnrnrn请教一下, 还能用什么办法能更快的更新呢?rnrnSqlDataAdapter 这个能提高效率吗 ?
Spark 处理大量数据 发生OOM
原来试着用一下Spark处理文本数据,文本数据大概有十万个文件,大概20个G。代码如下,主要是简单的对每个文件进行处理,然后再保存到另外的文件中。[code=text] val corpus: RDD[(String,String )] = sparkContext.wholeTextFiles(originalPath) //rn val startTime = System.currentTimeMillis()rn val userCorpus = corpus.map(rn x => (rn x._1.substring(x._1.lastIndexOf("/")+1),rn x._2.split("\n"). //将整个文档分成行rn map(_.split("\\s")).flatMap(_.filter(_.length > 2).filter( x => !x.contains("@") && !x.contains("http"))). //对分成的每一行进行分词,去除长度小于3的单词,去除含有'@'的词语,去除 http 的url 后,进行flatMaprn map(_.split("\\s|\\^|#|\\.|\"|\\,|!|\\)|\\(|\\?|\\:|\\'|/")). //对之前的分词在进行过滤,去掉标点符号rn flatMap(_.filter(_.length > 2).filter(_.forall(java.lang.Character.isLetter))).mkString(" ")rn ))rn userCorpus.saveAsHadoopFile(goalPath,classOf[String],classOf[String],classOf[RDDMultipleTextOutputFormat])[/code]rnrn然后打包运行,运行命令为:./spark-submit --master spark://192.168.1.107:7077 --executor-memory 20G --class scala.Main /home/spark_process_jar/tr_dataProcess.jarrnrnspark集群配置如下 :rn[img=https://img-bbs.csdn.net/upload/201704/14/1492156930_160007.png][/img]rnrn然后出现了异常:rn[img=https://img-bbs.csdn.net/upload/201704/14/1492157024_918049.png][/img]rnrn按照有的说法说:rnCaused by: java.lang.OutOfMemoryError: unable to create new native threadrnat java.lang.Thread.start0(Native Method)rnat java.lang.Thread.start(Thread.java:640)rn上面这段错误提示的本质是Linux操作系统无法创建更多进程,导致出错,并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程,就需要修改Linux最大进程数。 rnrnrn但是还是没有用。问题是不是在处理数据的时候连续map,产生很多新的对象,所以导致OOM,怎么解决呢?谢谢了。rn
====== 大量的数值型数据,直接写文件效率高还是用数据库效率高?======
数据量很大,要占满半个硬盘
大量IP数据比对,用什么方法效率高呢?
主要是要比对拿到的IP数据之间,比如国家,经纬度之类的信息是否一致,不一样则取多数为正确值。rnrn有的数据是这样记录的:rnrn第一个文件:rnstartIpNum endIpNum locIdrn16777216 16777471 17rn第二个文件:rnlocId country region city postalCode latitude longitude metroCode areaCodern1 O1 0 0 rn2 AP 35 105 rn这样rnrn有的是rnIPNUM city latitude longitudern23986432 Milano 45.45 9.16667rn16843008 Sexau 48.1 7.9167rn26778880 Marseille 43.3 5.4rn33523968 Milan 45.45 9.16667rn这样rnrn即有按段的也有按单个IP的。rn我把它们都导入到了SQL SERVER里,然后rnSELECT A.startIpNum,A.endIpNum,B.startIpNum,B.endIpNum,A.country,B.countryrnFROM A INNER JOIN a ON A.locId=a.locId,IPligencernWHERE B.startIpNum>=A.startIpNumrnAND B.endIpNum<=A.endIpNumrnAND a.country != B.country;rnrn(因为A数据有两部分,一部分是IP段,另一部分是实际地理数据,所以又用到了a即地理数据)rn也就是单就A的段包含B的情况,判断国家不一样的拿出来,然后跑了蛮久没结果。rnrn数据库是我这个学期才学的,有学长建议我直接用语言文本处理的方式比对,灵活、效率可控。但是我觉得这么大量的数据应该可以用数据库吧?rn只是简单的这么写查询语句似乎不太实际,是否有优化方法呢?rn其实IP都是从小到大的,比对不需要从都到尾都找一遍。但是我不知道怎么写。用程序语言文本处理我也想不太明白怎么写比较可行。rnrn
查询单条数据
<p>rn <strong><span style="font-size:14px;">GraphQL 是什么 ?</span></strong> rn</p>rn<p>rn GraphQL是Facebook开源的一种用于 API 的查询语言,并有可能成为未来的API规范<strong>。</strong> rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">哪些公司在使用GraphQL&nbsp; ?</span></strong> rn</p>rn<p>rn 越来越多主流的科技公司都开始拥抱GraphQL,比如facebook,twitter,Airbnb,github,reddit,Netflix,阿里,百度等等。rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">为什么使用Prisma ?</span></strong> rn</p>rn<p>rn prisma是一个超越ORM的数据库工具,它可以让你快速开发GraphQL API,让你免去了大部分的工作,开发GraphQL服务器从未如此简单。rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">我是否需要精通 后端语言 和 数据库 才能学习这门课程 ?</span></strong> rn</p>rn<p>rn 并不需要,甚至你可以在完全不懂任何后端语言和数据库的前提下掌握这门课程,并完成GraphQL服务器的开发。rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">我可以使用什么开发语言 ?</span></strong> rn</p>rn<p>rn Prisma 支持4种开发语言,分别是 javascript ( nodejs后端 ),TypeScript,flow,Go。未来还会支持更多的语言。rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">成为优秀全栈工程师的机遇 ?</span></strong> rn</p>rn<p>rn GraphQL并不复杂,通过学习本门课程你便可以开发GraphQL 后端服务器,并且学会在前端调用GraphQL API。rn</p>rn<p>rn 如果你是前端工程师,那么学习完本课程,你将能成为一名全栈开发者。rn</p>rn<p>rn 如果你是后端工程师,那么学习完本课程,再稍加学习些前端基础知识,便能成为全栈开发者。rn</p>rn<p>rn 如果你是 ios/安卓 工程师,那么学习完本课程,你便能成为移动端的全栈开发者。rn</p>rn<p>rn <span>如果你是网页/UI设计师,那么稍加学习javascript,再学习完本课程,你也能有机会成为全栈开发者。</span> rn</p>rn<p>rn <br />rn</p>rn<p>rn <strong><span style="font-size:14px;">开发GraphQL应用是否很难 ?</span></strong> rn</p>rn<p>rn 刚好相反,觉得难是因为你对它还不了解。实际上它很简单,很前沿,也很强大。rn</p>rn<p>rn <br />rn</p>rn<p>rn <img alt="" src="https://img-bss.csdn.net/201904170632564341.png" /> rn</p>rn<p>rn <img alt="" src="https://img-bss.csdn.net/201904170633112158.png" /> rn</p>rn<p>rn <img alt="" src="https://img-bss.csdn.net/201904170633325916.png" /> rn</p>rn<p>rn <img alt="" src="https://img-bss.csdn.net/201904170633504420.png" /> rn</p>rn<p>rn <img alt="" src="https://img-bss.csdn.net/201904170634041709.png" /> rn</p>
反射框架效率高吗?
基于反射的框架效率高吗,像petshop那样的反射,有个factory反射数据库访问层的实体类?rnrn顺便问一下,大家都用什么框架。
你的工作效率高吗?
一个程序员一天应该睡几个小时,工作几个小时,学习几个小时?
逻辑或||的效率高吗?
为了判断段首文字是否是标点符号如,,。?’”;:!等共二十多个,用||挨个进行了比较判断rn能严重影响效率吗?
这样的存储过程效率高吗?
SELECT TOP 100 PERCENT ISNULL(a.BOM_FullID, '') AS BOM_FullID, rn ISNULL(a.BOM_Level, '') AS BOM_Level, ISNULL(c.Pro_Id, '') AS Pro_Id, rn ISNULL(c.Pro_Name, '') AS Pro_Name, a.BOM_Number, a.BOM_WasteRate, rn a.BOM_Number1, a.BOM_SonNum, ISNULL(b.ProceID, '') AS ProceID, rn ISNULL(b.ProceName, '') AS ProceName, ISNULL(f.Pro_Id, '') AS Pro_Id_R, rn ISNULL(f.Pro_Name, '') AS Pro_Name_R, a.BOM_Number_R, a.BOM_WasteRate_R, rn a.BOM_Number_R1, a.BOM_MadeBOMDate, ISNULL(d.ProceID, '') AS ProceID_R, rn ISNULL(d.ProceName, '') AS ProceName_R, ISNULL(SUM(gg.P_Total) rn / SUM(gg.P_Number), 0) AS P_PricernFROM dbo.StorStatus gg RIGHT OUTER JOINrn dbo.Product c ON gg.P_FullId = c.Pro_FullId RIGHT OUTER JOINrn dbo.SC_BOM a ON c.Pro_FullId = a.BOM_ProFullID LEFT OUTER JOINrn dbo.Product f ON a.BOM_ProFullID_R = f.Pro_FullId LEFT OUTER JOINrn dbo.SC_WorkProce b ON a.BOM_WorkProceFullID_R = b.FullID LEFT OUTER JOINrn dbo.SC_WorkProce d ON a.BOM_WorkProceFullID = d.FullIDrn where BOM_FullID like @FirstBOMFullID +'%' and BOM_Deleted=0rnGROUP BY a.BOM_Level, a.BOM_WasteRate, a.BOM_Number1, a.BOM_Number_R, rn a.BOM_SonNum, a.BOM_Number_R1, a.BOM_WasteRate_R, a.BOM_MadeBOMDate, rn b.ProceID, b.ProceName, d.ProceID, d.ProceName, f.Pro_Name, f.Pro_Id, c.Pro_Id, rn c.Pro_Name, a.BOM_FullID, a.BOM_NumberrnORDER BY a.BOM_FullID
memcpy的效率高吗?
对于内存拷贝,我想是不是自己编一个inline函数,用循环来复制更好一些呢?rn我想破了头也觉得memcpy如果不用汇编也不过如此而已罢?
struts 的效率高吗?
本来的servlet再通过MVC的转换,是否会影响效率?rn它比单纯的servlet运行慢多少?
单条数据的删除数据
开发工具与关键技术:VS 、 删除数据 作者:陆桂超 撰写时间:2019年6月7日 在做web项目开发中涉及到最多的就是数据的增加、删除、修改。数据删除分为单条数据的删除和多条数据的删除,也叫批量删除。批量删除往往在数据量比较大的时候使用,因为如果数据量大时一条一条地删除数据很麻烦,所以要用到批量删除。下面我将讲解单条数据的删除。我用的是VS开发工具,C#编程语言和MVC开发框架。 1、 如下图...
MyBatis插入单条数据
MyBatis插入单条数据
Bmob删除单条数据
使用Bmob开发过程中,会遇到很多疑惑,官方文档给的都是代码片段,常常会不知道一些东西怎么获取的,说说怎么根据objectId删除一条数据吧,批量删除官方文档给的挺详细的。知道数据的objectId,删除这条数据,首先通过objectId获取到这个对象,再删除这个对象,即可删除数据。var Account = Bmob.Object.extend(&quot;account&quot;); var account =...
LitJson删除单条数据
LitJson 删除单条数据操 说明:LitJson第三方库不提供删除单条数据的操作,只能手动实现 步骤: A:定义一个字符串tempStr保存jsonData转化成的字符串 B:清除原来JsonData数据 C:tempStr转化为JsonData,在对原来的JsonData进行赋值,过滤掉删除的数据 说多无益,直接上代码: //定义一个字符串tempStr保存jsonD
数据插入-(单条和批量插入)
想请教一下:rn 在有大量录入工作而且要响应速度快的情况下(例如:有十几台机器,直接面对客户收银,每天录入几万条销售记录,以后可能会增加到四、五十台,每天录入上十万条记录)。rnrn 因为大部分客户一次可能购买多种商品,有俩种方式实现:rn 1、录入完客户需买的所有商品,然后将这些记录一次性提交到数据库保存。rn 2、每录入一条商品,就将这条记录提交到数据库保存。rnrn 现在:我和同事各支持一种方式,我支持前者。rnrn 我的理由:每条记录保存会增大系统的负荷,因为有十几台机器,收银员同保存的可能性增加,这样会增大并发冲突。而且由于误操作或客户原因,如果要修改前面的商品信息,都要对数据库进行修改,而第一种方式就直接在内存种改了。修改的操作可能占到录入工作的10%。rn 他的理由:一次性提交对服务器的负荷会瞬间加得比较大,因为要用事务保证数据得一致性。而每次保存一条等于是平衡了负载,而对以前的记录进行修改速度也比较快。rn 我一想想他也有他的道理,但是我也觉得我自己也有理,谁也说服不了谁。rnrn 请各位高手评评理,用哪种方式插入数据比较好。rn rn 谢谢!
单条数据&批量删除
今天向大家分享一下我之前所学的知识,单条数据&amp;批量删除;这个单条数据&amp;批量删除怎么写呢? 我是给了一个名为delStuInfos方法,首先先给两个int的方法记录一下我删除成功和删除失败的数据条数:int countSuccessDel = 0;//记录删除成功的数据条数 int countFailedDel = 0;//记录删除失败的数据条数 接下来就是判断参数是否为null,代...
如何显示单条数据
数据库中某一项有相同的数据,我想让COMBOBOX显示数据库中该表某一项数据时相同的只显示一条,有何办法
单条数据的新增
控制器部分,,先查询数据是否与以前的数据一样,员工名称,员工编号,电话,手机都不能一样。 如果不一样就保存新增,然后是提示框判断可能出现的结果,成功,失败,或者参数异常。 Html部分先是给一个方法,声明的方法要在html部分绑定点击事件,然后是部门下拉框数据绑定,再请空职位下拉框数据,再绑定职位下拉框数据,再打开新增模态框,下面再是写保存新增的方法,也要给保存按钮绑定上点击事件,再获取要新增的...
单条和多条的数据删除
作者:李仁海 撰写时间:2019.6.5 一、 public功能来实现所需要的效果,接着用通用的 ActionResult来表示他操作的方法,然后定义一个名称delStuInfos来作为路径的通道,传参一个字符串string的表示的文本,传参StudentID; 1、 定义一个改变的数据值,传递数据的局部变量,string的字符串来表示文本,再定义一个局部变量名称,他是一个关键用来传递数据值得;...
单条数据删除
开发工具与关键技术:Visual Studio 与javascript和C# 作者:黄灿 撰写时间:2019.5.6 单条数据的删除是根据数据的ID删除,为了避免用户是误点删除按钮,所以点删除按钮后先提示一下用户是否确定要删除该条数据。使用jquery中的psot请求访问控制器的方法,键值对用来传参,传的参数是根据ID的删除数据,所以传输的是ID,然后使用自定义参数接收控制器传过来的数据信息,最后...
删除表中的单条数据
表A是单头:rnid,店名, 日期 , 应收金额, 实收金额rn01 001 2004-12-26 10:54:37.000 10 10rn02 001 2004-12-26 11:54:37.000 11 10rn03 002 2004-12-26 12:54:37.000 12 12rnrn----------------------------------------------------rnrn表B是明细表:rnid 商品编码 销售数量 销售价 实收金额rn01 1001 1 10 10rn02 1002 1 5.5 5.5rn02 1003 1 5.5 5.5rn03 1004 1 12 12rn--------------------------------------------- ----------------rn我现在想把商品编码为:1003的删除..然后把表A中的应收金额和实收金额更新成删除后的金额.还要加一个日期条件..日期> dateadd(day,-1,getdate())
使用phpmyadmin导入大量数据
在使用PhpMyAdmin的时候经常用到数据的导入和导出(Export/Import),但是在导入大数据的时候由于php上传文件的限制和脚本响应时间的限制,导致phpMyAdmin无法导入大数据。很多时候都是由于文件过大,从本地浏览上传导入,容易中断失败,有没有更好的方法呢? 在phpMyAdmin的目录下,找到根目录的config.inc.php文件,如下图:
Spark 读写Hbase(Scala)——1.单条操作
@羲凡——只为了更好的活着 Spark 读写Hbase(Scala)——1.单条操作 一.前提准备 1.创建命名空间和表 create_namespace 'testdata' create 'testdata:hb_staff','info' 2.pom.xml文件中要添加依赖 &lt;dependency&gt; &lt;groupId&gt;org.apache.hbase&lt;/gr...
大量数据
我一个java页面,进行搜索的时候要在5万条记录里搜索,当显示的时候,有时显示上千条,这样就有一段很长的等待时间, rn请问这个等待时间是如何产生的,我的数据库时oracle 的,请问应该如何处理
使用spark访问elasticsearch的数据
使用spark访问elasticsearch的数据
access可以处理大量数据吗
如果不停插数据rnrn会不会崩溃的
大量数据提交能用Struts吗
最近正做一个Struts+hibernate的小项目,其中就遇到大量数据提交的问题。rn如果我某页有一个表有40个textfield,那它的Form类就会有一共80个setter和getter方法,这,这显得太笨拙了,有没有哪位高手给指点指点呢?
使用哪种select效率高?
最近写了一个简单的Proxy, 但觉得效率不好,我用的是select+thread.在windows中有select, WSAEventSelect, WSAAsyncSelect,到底哪种效率好一点?不是非要用完成端口吧?想提高转发数据的效率,老大们给点意见。谢谢!
php的 strstr() 函数效率高吗?
我是新手,要做一个要用到匹配字符串的项目,效率要求比较高,php里自带的strstr算法效率高不?里面只是用kmp算法吗?有没有用sunday算法的?
Struts 自带连接池的效率高吗?
Struts自带有连接池,不知道他和别的连接池有什么区别rnrn如果使用它自带的连接池在ActionBean里调用JavaBean里的方法,JavaBean怎么才能获取到它的rndataSource连接属性啊!rnrnDataSource dataSource = (DataSource)servlet.getServletContext().getAttribute ("org.apache.struts.action.DATA_SOURCE");rnrn这个dataSource 是从request里获取的,难道我在JavaBean里调用这个数据源需要把它当做参数传递给JavaBean的方法吗?
数据库 计算单条 数据大小
数据库 计算单条 数据大小 只需执行该sql 即可知道单条数据大小
ListView单条数据刷新分页
当在类似朋友圈点赞功能时,需要用到单条数据刷新。 作为小白的我,所以百度到了这么一段代码处理:(这里的代码出处我实在找不到了,望谅解) //实现单个item刷新 private void update(final Object data, final int position) { //得到你屏幕上第一个显示的item int firstVisiblePosition =...
ListView单条数据的处理(增删改查)
对Listview新手学习有一定的帮助 大家可以看看 呵呵
php读取单条数据的问题
$aid=$_GET["id"];rn$sql="select * from article where id='$aid'";rn$result=mysql_query($sql);rnrn$myrow=mysql_fetch_array($result);rnrnif ($myrow)rnecho "$myrow['title']";rnrnelsernexit;rnrnrn运行后会提示这行echo "$myrow['title']";错误:rnParse error: parse error, expecting `T_STRING' or `T_VARIABLE' or `T_NUM_STRING' in D:\showarticle.php on line 21rnrnrn为什么呢?怎么解决?
相关热词 c++和c#哪个就业率高 c# 批量动态创建控件 c# 模块和程序集的区别 c# gmap 截图 c# 验证码图片生成类 c# 再次尝试 连接失败 c#开发编写规范 c# 压缩图片好麻烦 c#计算数组中的平均值 c#获取路由参数