比如 我有 1亿条 汉字句子,需要生成哈希码,但是这些句子不能组成list,只能单条一条一条的生成哈希码,这样使用spark,会提升效率吗?这种应用场景,应该怎么使用spark?
1条回答 默认 最新
- 潇潇雨已歇 2018-01-16 09:25关注
确认几个事情:
1)数据在哪 spark能不能分布式访问 比如HDFS 就OK
2)你的spark集群有多大 如果只有一两个节点 其实和跑多个线程并行计算没多大区别
3)不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的 生成哈希吗 map 一下就完了 可以写回HDFS本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 求差集那个函数有问题,有无佬可以解决
- ¥15 【提问】基于Invest的水源涵养
- ¥20 微信网友居然可以通过vx号找到我绑的手机号
- ¥15 寻一个支付宝扫码远程授权登录的软件助手app
- ¥15 解riccati方程组
- ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
- ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
- ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
- ¥50 树莓派安卓APK系统签名
- ¥65 汇编语言除法溢出问题