zhenghailong888 2018-01-16 08:25 采纳率: 0%
浏览 1518
已采纳

大量单条数据使用spark效率高吗?

比如 我有 1亿条 汉字句子,需要生成哈希码,但是这些句子不能组成list,只能单条一条一条的生成哈希码,这样使用spark,会提升效率吗?这种应用场景,应该怎么使用spark?

  • 写回答

1条回答

  • 潇潇雨已歇 2018-01-16 09:25
    关注

    确认几个事情:
    1)数据在哪 spark能不能分布式访问 比如HDFS 就OK
    2)你的spark集群有多大 如果只有一两个节点 其实和跑多个线程并行计算没多大区别
    3)不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的 生成哈希吗 map 一下就完了 可以写回HDFS

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 已采纳回答 1月12日

悬赏问题

  • ¥15 Matlab怎么求解含参的二重积分?
  • ¥15 苹果手机突然连不上wifi了?
  • ¥15 cgictest.cgi文件无法访问
  • ¥20 删除和修改功能无法调用
  • ¥15 kafka topic 所有分副本数修改
  • ¥15 小程序中fit格式等运动数据文件怎样实现可视化?(包含心率信息))
  • ¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops?
  • ¥40 串口调试助手打开串口后,keil5的代码就停止了
  • ¥15 电脑最近经常蓝屏,求大家看看哪的问题
  • ¥60 高价有偿求java辅导。工程量较大,价格你定,联系确定辅导后将采纳你的答案。希望能给出完整详细代码,并能解释回答我关于代码的疑问疑问,代码要求如下,联系我会发文档