请问诸如k-means等大数据分析，在spark上的读取机制以及如何进行存储部署的？

一个问题是，spark在读取数据的时候，是逐条读入内存，还是分块读入，或者是一口气全部读入内存的？另一个问题是，如果数据保存在sql数据库中，那么所需要读取的数据，是直接通过SparkContext绑定sql地址和语句，通过网络传输；还是提前从sql中生成excel文件，放到spark服务器的文件夹中进行处理？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-06-28 17:08
关注
主要的性能开销在cpu，spark只是一个分布式框架，具体怎么计算要你自己去做。建议你用sklearn之类的机器学习的框架，而不是直接用spark

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#k-means#的问题，如何解决？(标签-聚类) kmeans 机器学习聚类
2023-04-05 00:19

回答 2 已采纳改成Label = km.fit_predict(np.asarray(imgData))试试
请问Python K-means算法求 SSE的值 python
2019-05-04 14:34

回答 1 已采纳理论上说,两种都是可以算作是SSE,因为都是在计算所有数据点到与其最近的cluster center的距离总和,越小说明选择的k越适合这个数据.两种方法的不同之处在于: cdist 计算的是eucl
遗传距离矩阵来进行 K-means 聚类 matlab perl python
2021-07-28 17:52

回答 1 已采纳 K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每一个簇通过其质心（centroid），即簇中所有点的中心来描述。该算法是循环迭代式的。(1)初始化：随机选择K个点作为初始中心点，每个点
aws emr 大数据分析_使用pyspark数据框和AWS EMR进行Google Analytics（分析）数据处理...
2020-08-30 09:30

weixin_26729763的博客 aws emr 大数据分析By Yan Yang, Data Scientist @ Chewy数据科学家Yan Yang @ ChewyOne of the biggest challenges for an e-commerce company is processing customer-generated session data. Here at Chewy’s ...
k-means聚类，写python代码出现报错，请问要如何解决 kmeans python 机器学习
2022-05-02 19:09

回答 2 已采纳你这不是个警告而已吗
R语言；k-means聚类 kmeans r语言聚类
2023-03-02 23:21

回答 1 已采纳该回答引用ChatGPT 要使用R语言对Excel中的数据进行k-means聚类，您可以使用以下步骤：将Excel中的数据导入R中。您可以使用read_excel()函数从Excel文件中读取数据
利用K-means算法求簇中心和轮廓系数 python
2022-12-14 21:08

回答 1 已采纳如果只是输入轮廓系数的话，就不要用plt，直接还是display就可以了
大数据平台、计算平台、存储平台等各类技术整合及部署方案
2023-07-30 00:47

禅与计算机程序设计艺术的博客近几年来，随着互联网技术的飞速发展，大数据技术也呈现爆炸性增长，以数据采集、...为了能够顺利运用大数据平台，用户需要在云平台上安装相应的组件，配置好集群参数，然后运行相关的应用作业，并进行相应的数据分析。
K-th类型的问题，计算字符串的配对，用C语言怎么实现？ erlang golang r语言
2018-12-27 17:21

回答 1 已采纳 https://www.nowcoder.com/ta/acm-solutions/review?query=&asc=true&order=&page=8309
如何在读取CSV文件时修复编码？ php
2013-09-11 12:27

回答 2 已采纳 You can probably use iconv for the conversion. On my installation, the MacRoman encoding is called
如何对聚类产生的结果簇进行进一步分析？ python
2019-05-01 20:24

回答 2 已采纳用户出行模式的问题通常不单单是找出地图上的热点区域的问题, 而是一个多维度的包括时间的聚类. 所用到的维度可能包括乘车日期, 上车时间,下车时间, 乘车站点, 类型(地铁,出租...).... 之
Spark高级分析与机器学习笔记
2020-04-20 10:45

书忆江南的博客 1. 高级分析是指各种旨在发现数据规律，或根据数据做出预测和推荐等核心问题的技术。机器学习最佳的模型结构要根据要执行的任务制定，最常见的任务包括：（1）监督学习，包括分类和回归，其目标是根据数据项的各种...
数据量太大，必须用scanf，在数据量大的时候，这个程序的算法怎么实现？ erlang golang r语言
2018-12-20 13:27

回答 1 已采纳 https://blog.csdn.net/H_Anonymity/article/details/78107354
根据我的经验如何进行数据科学，人工智能或大数据工作
2020-08-03 15:10

cumichun6193的博客 by Richard Freeman, PhD ... 根据我的经验如何进行数据科学，人工智能或大数据工作 (How to work in Data Science, AI, or Big Data based on my experience) In summer 2013, I interviewed for a lead role in th...
Spark SQL: Relational Data Processing in Spark
2019-04-07 09:44

fansy1990的博客 Spark SQL： Relational Data Processing in Spark Spark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译，而是本篇翻译作者的理解（可以理解为批准），所以难免有误，特注！当然翻译...
机器学习入门基础（万字总结）（建议收藏！！！）
2022-12-04 22:36

subsistent的博客介绍机器学习的基础概念和知识，包括机器学习简史、主要流派、与人工智能、数据挖掘的关系、应用领域、算法、一般流程等。伴随着计算机计算能力的不断提升以及大数据时代的迅发展人工智能也取得了前所未有的进步。
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

请问诸如k-means等大数据分析，在spark上的读取机制以及如何进行存储部署的？

1条回答 默认 最新

悬赏问题

1条回答默认最新