大量单条数据使用spark效率高吗？

比如我有 1亿条汉字句子，需要生成哈希码，但是这些句子不能组成list，只能单条一条一条的生成哈希码，这样使用spark，会提升效率吗？这种应用场景，应该怎么使用spark？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
潇潇雨已歇 2018-01-16 09:25
关注
确认几个事情：
1）数据在哪 spark能不能分布式访问比如HDFS 就OK
2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别
3）不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的生成哈希吗 map 一下就完了可以写回HDFS

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【大数据】基于Spark WebUI定位数据倾斜与Spark调优
2024-10-07 23:54

征途黯然.的博客作为一名算法工程师，掌握Spark框架的调优与原理是必备技能之一，而Spark任务的调优往往与**“数据倾斜”**这个概念相关。
大数据和常见数据有什么不同？为什么说大数据很重要
2025-09-09 09:17

Leo.yuan的博客本文从定义、特点、应用等方面系统对比了大数据与常见数据的差异。大数据具有4V特性（规模大、类型多、速度快、价值密度低），需分布式系统处理；常见数据则量小、结构单一、易处理。在应用中，大数据适合战略决策与...
Hadoop 与 Spark：大数据框架的对比与融合
2025-05-12 14:46

Cloud Traveler的博客 Hadoop 和 Spark 是大数据处理领域的两大主流框架，各自具有独特的优势和适用场景。Hadoop 以分布式文件系统（HDFS）和 MapReduce 计算模型为核心，适合处理大规模批处理任务，尤其在成本效益和容错性方面表现突出。...
大数据面试必考题：Spark数据倾斜问题总结和优化措施
2024-10-23 23:19

大模型大数据攻城狮的博客在Spark分布式计算环境中，
大数据领域Spark入门指南：从零基础到实战应用
2025-04-14 15:20

AI大数据智能洞察的博客本文旨在为大数据领域的初学者提供一条清晰的学习路径，从Spark的基础概念到实际应用。我们将覆盖Spark的核心组件、编程模型、性能优化技巧以及与其他大数据技术的集成。本文首先介绍Spark的基本概念和架构，然后...
大数据技术之spark算子
2023-03-10 10:22

Data_Focus的博客 大数据spark核心--算子
如何利用DPU加速Spark大数据处理？ | 总结篇
2024-04-02 13:46

中科驭数的博客同时，传统TCP/IP网络通信模式下，CPU承担了大量的协议解析、包构建和错误处理任务，进一步降低了整体数据处理效率，这导致Apache Spark 在实际运行中并没有达到网络、磁盘、CPU的IO瓶颈。 1.2 挑战和困难在Apache ...
Hadoop+Spark大数据技术（微课版）总复习
2024-06-16 18:28

破坏神在行动的博客 Hadoop+Spark大数据技术（微课版）总复习
Hadoop+Spark大数据技术（自命题试卷测试）
2024-06-18 16:10

破坏神在行动的博客 HBase 和 SparkD. YARN 和 ZooKeeper2. HDFS 数据块存储方式的优势不包括：A. 文件大小不受单一磁盘大小限制B. 简化存储过程C. 提高数据访问速度D. 提高数据容错能力3. NameNode 的主要功能是：A. 存储数据块B. ...
[docker/大数据]Spark快速入门
2025-08-17 07:44

NPE~的博客 [docker/大数据]Spark快速入门
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月12日

大量单条数据使用spark效率高吗？

1条回答 默认 最新

问题事件

1条回答默认最新