大数据运行在内存中产生的中间数据一般有多大？

在linux系统上，大数据运行在内存中产生的中间数据一般有多大？最大会达到1个T吗？
一般最大值控制在什么范围合适？望各位有经验的大佬不吝赐教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cyq11512 2018-07-08 23:18
关注
运行内存是可以设置的，以运行一个spark作业为例，提交作业时可以执行本次作业所需要的总共cpu核心数和总共的内存数，作业提交后spark 的 sparkContext 会向集群申请分配资源，集群会最大限度的提供资源，当然也存在申请90核心，集群只分配了70核心的情况。所以大数据运算的内存控制主要是看你的集群有多少资源，你愿意使用多少资源。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

编辑

预览

报告相同问题？

关注问题

在sql中多大的数据才算是大数据？ java mysql 数据库
2022-03-31 09:24

回答 4 已采纳其实没有实际的标准明确定义多少数据量算大数据，不过阿里开发手册中建议，表数据超过500万条时，建议考虑分表，以防影响查询效率，不过我们公司也有单表超过几千万条的数据，效率确实不高，所以理论上百万级别以
数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 07:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
大数据离线数仓的学习路线是什么？大数据数据仓库有问必答
2021-11-03 07:23

回答 1 已采纳 Java或者python基础 hdfs zookeeper flume kafka hive mysql sqoop azkaban,离线数仓只是大数据一部分内容，发展方向这个不好说，你不能只靠这一个
大数据自动化运维在电力企业中的应用探讨.pdf
2021-07-05 12:32

随着智能电网建设的推进，越来越多的智能电表和监测设备投入到了电力系统中，这些设备无时无刻不在产生大量的数据，极大地丰富了电力数据的来源。电力互联网中数据量巨大，电力数据结构复杂、种类繁多，包括结构化...
java在大数据里面主要做什么呢？ java 大数据
2022-08-08 13:59

回答 3 已采纳 java数据挖掘数据仓储数据清洗全栈都可以啊具体可以了解下hadoop
大数据时代大学生网络感情分析这种数据应该去哪里抓取大数据
2022-07-26 07:16

回答 5 已采纳要抓取精准的大学生情感数据，自然是去爬取各大高校的公众平台下的评论、留言之类的。当然这些数据的数据量可能不够大，支撑做数据分析。同样也可以去知乎上去抓取大学生相关话题的数据，这方面数据就可能不太精准，
数据科学与大数据技术和数据科学与大数据技术（智能信息处理）大数据有问必答
2022-01-11 12:09

回答 2 已采纳学习的基础都是一样的，带括号就代表学习路线更倾向于智能信息处理，数据科学与大数据技术的方向有很多的，那个只是其中一个，出来后你也不一定会走那个路线，主要看自己的选择，就比如说软件工程专业的倾向于Jav
大数据新视界 --大数据大厂之数据脱敏技术在大数据中的应用与挑战
2024-10-20 13:39

青云交的博客本文深入阐述大数据发展现状，全面剖析数据脱敏技术在大数据中的应用与挑战，涵盖企业内部数据使用、数据共享合作及云计算环境等场景，探讨面临的挑战及解决方案，并展望未来发展趋势。通过丰富案例和代码展示，为...
关于#大数据#的问题，如何解决？大数据机器学习深度学习
2022-10-27 04:32

回答 1 已采纳一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。二、Variety：种类和来源多样化。包括结构化、半
BI大数据分析是什么，大数据bi工具有哪些人工智能
2021-06-29 09:01

回答 1 已采纳 Hadoop，Spark，Tableau， QlikView，Power BI,SSRS等等，市面上使用火热的是Tableau和power bi
大数据技术与应用专业从业方向？ python 大数据有问必答职场和发展
2021-09-26 01:21

回答 2 已采纳 web应用开发，数据处理，学的好的话从事人工智能方向
大数据技术分享 Spark技术讲座理论在现实世界中应用Apache Spark实现大规模频繁模式挖掘共92页.pdf
2024-07-18 08:02

### 大数据技术分享：Spark技术讲座——理论在现实世界中的应用：Apache Spark实现大规模频繁模式挖掘 #### 一、引言随着信息技术的发展，大数据分析已成为各行各业关注的重点。Apache Spark作为一种高性能的大...
大数据设计为何要分层，行业常规设计会有几层数据
2024-03-28 09:45

KennySKwan的博客 ODS的主要目的是在保持数据的原始状态的同时，提供一个中间层，用于将来自各个业务系统的数据整合、清洗和标准化，以支持后续的数据分析、报表生成和业务应用等需求。：ODS层主要用于存储原始的、经过简单处理的业务...
大数据ETL数据提取转换和加载处理
2024-10-08 04:02

boonya的博客在 ETL 流程中，各种数据源的类型、格式、规模和可靠性可能大不相同，因此数据要经过处理才能供组织和用户使用。同时，面对不同的目标和技术实施条件，组织可能使用数据库、数据仓库或数据湖来存储目标数据。
大数据基础-数据采集与预处理.pdf
2022-06-21 10:18

Flume支持文件通道和内存通道，前者持久化在磁盘上，后者则存储在内存中，速度快但易丢失数据。接收器从通道接收数据，并将其传递给下一个处理环节或最终存储。配置和运行Flume涉及创建配置文件，定义Source、...
没有解决我的问题, 去提问

悬赏问题

¥100 二维码被拦截如何处理
¥15 怎么解决LogIn.vue中多出来的div
¥15 优博讯dt50巴枪怎么提取镜像
¥30 在CodBlock上用c++语言运行
¥15 求C6748 IIC EEPROM程序固化烧写算法
¥50 关于#php#的问题，请各位专家解答！
¥15 python 3.8.0版本，安装官方库ibm_db遇到问题，提示找不到ibm_db模块。如何解决？
¥15 TMUXHS4412如何防止静电，
¥30 Metashape软件中如何将建模后的图像中的植被与庄稼点云删除
¥20 机械振动学课后习题求解答

大数据运行在内存中产生的中间数据一般有多大？

5条回答 默认 最新

悬赏问题

5条回答默认最新