大量单条数据使用spark效率高吗? 5C

比如 我有 1亿条 汉字句子,需要生成哈希码,但是这些句子不能组成list,只能单条一条一条的生成哈希码,这样使用spark,会提升效率吗?这种应用场景,应该怎么使用spark?

1个回答

确认几个事情:
1)数据在哪 spark能不能分布式访问 比如HDFS 就OK
2)你的spark集群有多大 如果只有一两个节点 其实和跑多个线程并行计算没多大区别
3)不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的 生成哈希吗 map 一下就完了 可以写回HDFS

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!