zhaozhiqiang1990 2015-05-28 14:10 采纳率: 0%
浏览 2233

【大数据/spark/tachyon】请问关于tachyon的内存管理机制和应用

1、请问什么情况数据是确定放在内存的呢,我做loadufs操作从hdfs加载到tachyon的都是看到 not in memory 的,但是用spark textFile(tachyon://hostname:19998/test.txt)调用文件后,后来在web UI上又能看到有部分加载到内存了,比如 69% in memory,
然后saveAsTextFile(tachyon://hostname:19998/reasult.txt)输出的的都一定是在内存的。
2、请问tachyon 和 tachyon-fs 是什么区别呢?
3、把RDD数据rdd.persist(StorageLevel.OFF_HEAP)

真的能有效率提升吗?提升spark分析速度吗?怎么用才是最合理的。

先谢谢各位专家大牛指导

  • 写回答

3条回答

  • llx1943llx 2015-05-29 01:53
    关注

    本人大致了解点,说的也可能不对。
    1.放在哪里,应该是tachyon根据它的配置决定的。
    2. tachyon-fs你指的是 TachyonFS这个类吗?这个类只是给java 的一个API,通过它获取文件、删除文件等。
    3.把RDD放入tachyon主要目的应该是为了减少GC

    评论

报告相同问题?

悬赏问题

  • ¥15 一道python难题2
  • ¥15 一道python难题
  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备