【大数据/spark/tachyon】请问关于tachyon的内存管理机制和应用

1、请问什么情况数据是确定放在内存的呢，我做loadufs操作从hdfs加载到tachyon的都是看到 not in memory 的，但是用spark textFile(tachyon://hostname:19998/test.txt)调用文件后，后来在web UI上又能看到有部分加载到内存了，比如 69% in memory，
然后saveAsTextFile(tachyon://hostname:19998/reasult.txt)输出的的都一定是在内存的。
2、请问tachyon 和 tachyon-fs 是什么区别呢？
3、把RDD数据rdd.persist(StorageLevel.OFF_HEAP)

真的能有效率提升吗？提升spark分析速度吗？怎么用才是最合理的。

先谢谢各位专家大牛指导

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
llx1943llx 2015-05-29 01:53
关注
本人大致了解点，说的也可能不对。
1.放在哪里，应该是tachyon根据它的配置决定的。
2. tachyon-fs你指的是 TachyonFS这个类吗？这个类只是给java 的一个API，通过它获取文件、删除文件等。
3.把RDD放入tachyon主要目的应该是为了减少GC

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark整合tachyon一直报连接失败 spark
2015-11-15 02:19

回答 2 已采纳历时一周，终于解决这个问题。感叹自学不容易呀。总结问题原因： 1、spark整合tachyon，tachyon好像必须基于hdfs，也就是 export TACHYON_UNDERFS_ADDRE
Spark 内存管理堆内和堆外内存规划_大数据培训
2022-08-02 11:32

尚硅谷铁粉的博客是由于内存的申请和释放不再通过JVM机制，而是直接向操作系统申请，JVM对于内存的清理是无法准确指定时间点的，因此无法实现精确的释放），而且序列化的数据占用的空间可以被精确计算，所以相比堆内内存来说降低了...
大数据系列——Spark理论
2023-04-26 20:01

mql007007的博客 Apache Spark，全称伯克利数据分析栈，是一个开源的基于内存的通用分布式计算引擎，内部集成大量的通用算法，包括通用计算、机器学习、图计算等，用于处理大数据应用。主要由下面几个核心构件组成，具体包括：集群...
第五课 大数据技术之Spark-内核和源码
2022-10-17 01:34

道教儒佛电磁波的博客 Spark内核和源码
大数据原理和应用
2022-05-20 14:06

小熊想吃烤肉的博客而麦肯锡全球研究所则定义大数据为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...
Spark 内存管理
2022-07-02 11:26

Small_Ran的博客本篇主要阐述 Spark 内存管理，主要在于通过理解基本原理，这样有助于更好地开发 Spark 应用程序和进行性能调优。Spark 集群会启动 Driver（默认内存：1G）和 Executor（默认内存：512M）两种 JVM 进程，前者为...
Apache Spark 内存管理(堆内/堆外)详解
2021-09-06 09:00

浪尖聊大数据-浪尖的博客导读：Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。本文将...
Hadoop/Spark生态圈
2019-09-27 16:55

xinyuan_java的博客 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行...在未来一段时间内，hadoop将于spark共存，ha...
万字最全Spark内存管理详解
2022-01-29 12:30

大数据兵工厂的博客与数据频繁落盘的`Mapreduce`引擎不同，Spark是基于`内存`的分布式计算引擎，其内置强大的内存管理机制，保证数据`优先内存`处理，并支持数据磁盘存储。
Spark-内存管理详解
2020-04-14 19:27

Rabcheng的博客内存空间分配1. 静态内存管理机制1) 静态内存管理图示——堆内2) 静态内存管理图示——堆外2. 统一内存管理机制1) 统一内存管理图示——堆内2) 统一内存管理图示——堆外3) 动态占用机制图示4. 内存详解1. 存储内存...
Spark统一内存划分
2022-01-06 11:29

矛始的博客堆内存，由JVM分配和回收，由spark.executor.memory控制大小，JVM中序列化的对象是以字节流形式，其占用内存大小可直接计算，对于非序列化对象，其占用的内存是通过周期性地采样近似估算，且被spark标记为释放的对象...
深入了解Spark 内存管理
2020-07-05 20:27

streamsystem的博客理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文...
【Spark精讲】Spark内存管理
2023-12-13 14:14

话数Science的博客 Spark精讲，Spark内存管理，静态内存管理，统一内存管理，Java运行时数据区，Java堆，垃圾回收机制
Spark 内存管理详解
2020-09-29 08:22

小刘同学-很乖的博客在执行Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调...
大数据系列：Spark学习笔记
2020-02-07 16:20

yiyidsj的博客 1.关于Spark 2009年，spark诞生于伯克利大学的amplab。最重要的是，spark只是一个实验项目，只包含很少的代码，属于轻量级框架。 2010年，伯克利大学正式启动了Spark项目。 2013年6月，Spark成为Apache基金会的一...
大数据时代——分布式内存文件系统：Tachyon
2014-12-08 12:09

zhongwen7710的博客 Tachyon是一个分布式内存文件系统，可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的...
多易教育: Spark内存管理之堆内/堆外内存前世今生详解
2020-06-21 22:04

白眼黑刺猬的博客 1.前言在执行Spark的应用程序时，Spark集群会启动Driver和Executor两种JVM进程，前者为...由于Driver的内存管理相对来说较为简单，本文主要对Executor的内存管理进行分析，下文中的Spark内存均特指Executor的内存。
大数据项目实战必备技能之Spark
2019-12-11 11:50

BAO7988的博客导读： spark是基于内存计算的大数据并行计算框架，对于spark，Apache spark官方给出的定义：spark 是一个快速和通用的大数据引擎，可以通俗的理解成一个分布式的大数据处理框架，它基于Rdd(弹性分布式数据集)，立足...
没有解决我的问题, 去提问

悬赏问题

¥15 一道python难题2
¥15 一道python难题
¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备