大量单条数据使用spark效率高吗？

比如我有 1亿条汉字句子，需要生成哈希码，但是这些句子不能组成list，只能单条一条一条的生成哈希码，这样使用spark，会提升效率吗？这种应用场景，应该怎么使用spark？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
潇潇雨已歇 2018-01-16 09:25
关注
确认几个事情：
1）数据在哪 spark能不能分布式访问比如HDFS 就OK
2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别
3）不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的生成哈希吗 map 一下就完了可以写回HDFS

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大量单条数据使用spark效率高吗？ spark
2018-01-16 08:25

回答 1 已采纳确认几个事情： 1）数据在哪 spark能不能分布式访问比如HDFS 就OK 2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别 3）不理解只能单条生成
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
【大数据处理框架】Spark大数据处理框架，包括其底层原理、架构、编程模型、生态圈
2023-07-07 07:35

Java程序员廖志伟的博客举个例子，假设一个公司要分析其网站的日志数据，可以使用Spark作为数据处理框架，将日志数据存储在Hadoop HDFS上，然后使用Hive作为数据仓库工具，查询和分析数据。通过计算三角形的数量，可以评估社交网络的紧密度...
spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
如何使用spark mlib进行疾病概率的预测？ spark 决策树大数据
2022-02-09 14:07

回答 1 已采纳二分类本来输出的就是概率，只不过平时习惯性得到0 和 1 是概率划分过界限后得到的结果。很多模型也都是给出了两个预测接口 predict, predict_proba
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
Hadoop与Spark等大数据框架介绍
2018-08-09 17:06

von Neumann的博客很早以前，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。一个实际的需求场景：日志分析日志...
求解答：如何使用sparksql进行模糊查询？ scala spark 大数据
2022-05-19 17:16

回答 1 已采纳 SELECT SUBSTR(NAME,1,INSTR(NAME,'(')-1),COUNT(1)FROM (SELECT '顶层(共20层)' NAME UNION ALLSELECT '顶层(共21
java 后台查询数据使用spark Streaming处理 java spark
2017-08-04 10:06

回答 1 已采纳 http://blog.csdn.net/svmachine/article/details/52200761
数据挖掘需要学hadoop，spark，flink这些吗。数据挖掘
2022-12-19 11:35

回答 1 已采纳 Python是一种跨平台的计算机程序设计语言，属于面向对象的动态类型语言，python是人工智能首选的编程语言。而Hadoop，Spark、Flink是目前重要的三大分布式计算系统，Hadoop用于
大数据高级开发工程师——Spark学习笔记（7）
2022-07-22 08:29

讲文明的喜羊羊拒绝pua的博客这个看起来改动的不大，但是在数据量非常大的时候可以减少大量的计算，减少 CPU 等资源的使用。到此为止，优化逻辑阶段基本完成，另外更多的其他优化，参见spark源码：...
如何在IntelliJ IDEA中安装完scala后，spark包报红？ intellij-idea spark
2022-04-19 11:52

回答 2 已采纳依赖和依赖的版本都要对上
【2022持续更新】大数据最全知识点整理-Spark篇
2021-11-18 16:26

李奇峰1998的博客 大数据最全面试题整理-Spark篇导语基础问题：导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点，方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理，并...
大数据高级开发工程师——Spark学习笔记（8）
2022-07-23 13:46

讲文明的喜羊羊拒绝pua的博客 Spark的动态资源划分 Spark调优
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月12日

悬赏问题

¥15 Matlab怎么求解含参的二重积分？
¥15 苹果手机突然连不上wifi了？
¥15 cgictest.cgi文件无法访问
¥20 删除和修改功能无法调用
¥15 kafka topic 所有分副本数修改
¥15 小程序中fit格式等运动数据文件怎样实现可视化？（包含心率信息））
¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops？
¥40 串口调试助手打开串口后,keil5的代码就停止了
¥15 电脑最近经常蓝屏，求大家看看哪的问题
¥60 高价有偿求java辅导。工程量较大，价格你定，联系确定辅导后将采纳你的答案。希望能给出完整详细代码，并能解释回答我关于代码的疑问疑问，代码要求如下，联系我会发文档