关于spark 的执行有问题求教。

前话有点多。。现有一java项目涉及到了hive部分功能，但是由于hive的查询速度很慢，想把底层hive部分的代码替换为spark，了解到CDH5可以直接将hive引擎更换为spark，更换后想测试一下速度差异，但是在hive命令行输入完sql总是会卡住一段时间，找不到原因，然后就尝试用sparksql代码尝试操作hive，因为刚接触spark，在用代码操作hive的过程中也经历很多错误，现在终于能用javaspark连到我集群的hive了，我看网上spark大多都是以jar包的形式提交到服务器执行，而我只是想把spark的部分穿插进java项目里像java代码一样调用，这样可以吗？跟jar包的形式执行有什么差异吗另外求一些spark hive 的经验。。。。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
深圳摆地摊er 2017-11-07 10:24
关注
我觉得你有点大材小用了，，而且太麻烦了，，
首先，spark有原生的sparkSQL可以直接调用，没必要hive
我觉得你对大数据的计算框架没理解透彻，
spark和hadoop都是一样的，计算框架打成jar包在服务器运行是它们的工作原理，在实际开发中，和java一样，只管写你的代码，等程序
完成部署了执行也是打成jar包直接调用，你看到的jar包形式提交到服务器，是为了让你明白它的工作原理，原本就是为了让你容易理解呢
hive的底层是mr，如果java代码直接调用，原理也是将hive语句转换成mr计算框架，和其他的java程序是一样的
而将hive的引擎换成spark实际上是将mr框架变成rdd去执行程序，这样的话就和sparkSQL一样的，因为sparkSQL就是翻译hql语句成一大串rdd再变成代码执行的。
所以，hive和sparkSQL是让一些不懂大数据分析计算框架原理的人直接调用的，而专业的大数据开发是要编写计算框架，然后打成jar包可以直接在
服务器测试，一般spark开发都会用原生的语言，scala ，，你懂了没
至于spark和hive的经验的话，建议你前期不要贪多，每一个点都很难吃透，hive就是进入大数据最好的入口，前期写hql语句，然后结合mr框架理解hql的原理，慢慢掌握mr框架。毕竟mr是比较简单的大数据分析了，除了效率低以外，其他没毛病。
等你mr玩熟了可以学spark，比mr要抽象很多，但是用起来还挺简单。到这里你可以进行一些简单的统计分析没啥问题了，至于后期的计算分析就要看你的高数水平了，毕竟算法是硬伤。。。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Spark快速入门与实战案例解析
2024-10-22 08:45

喵手的博客在当今的大数据时代，数据处理速度与效率成为了竞争的关键。作为一款开源的分布式计算框架，Apache Spark 以其高效的内存计算和简洁的编程模型，迅速成为数据工程师和科学家们的必备工具。无论是批量数据处理，还是...
Java在大数据处理中的应用：从MapReduce到Spark
2025-03-06 14:51

喵手的博客 大数据时代的到来使得传统的数据处理方式面临了前所未有的挑战。随着数据量的急剧增加，传统的数据库和处理技术已经无法满足处理速度和规模的需求。这时，MapReduce和Spark等分布式计算框架应运而生，并成为了大数据...
隐藏的调度逻辑，ILP 导致 Spark On Kubernetes 执行 Job Pod 调度不均匀
2023-03-16 13:30

程序员宝库的博客实在没有办法，既然大量 Job Pod 被 Pending，是因为被调度到一个固定的节点上导致的，大概率的是 Kubernetes 调度器的问题，我们把注意力集中到了 kube-scheduler 运行的 3 台服务器上。例如，在使用容器镜像仓库时...
Apache Spark 实战：大规模数据词频统计的高效实现
2024-12-17 11:12

喵手的博客总结 Apache Spark 作为大数据处理的核心引擎，凭借其内存计算和分布式处理优势，能够高效解决大规模数据的词频统计问题。无论是 RDD 还是 DataFrame，掌握其使用和优化技巧，都是迈向大数据开发的必备技能。...
2018 大数据面试
2018-10-02 16:01

Simple_Zz的博客 大数据工程师(开发)面试 1.HBase和Hive都是基于Hadoop，为什么Hive查询起来非常慢，但HBase不是？ Hive是类SQL引擎，其查询都需要遍历整张表，跑MapReduce自然很慢，但HBase是一种NoSQL的列式数据库，基于Key/...
python爬虫和数据分析哪个有前景_求教各位Python大佬，根据您们的经验，web和爬虫那个方向发展更有前景！（抛开ai和大数据不谈）？...
2020-12-08 00:23

weixin_39953673的博客我认为这两个分开来看，各有优势且并不具有可比性，先抛开技术本身来分析一下：WEB主要是应用方向的考虑，数据呈现和业务呈现是他的核心内容。爬虫主要是数据方向的考虑，数据采集和数据存储是他的核心内容。然后...
大数据错题库（微信群Bug整理）
2021-07-13 13:10

秒懂AI+的博客文章目录请教下大家，我们老的数仓用的Oracle，基于数仓做了些应用，主要是各种角度的查询，用的储存过程来实现。...群里面有面试过外包的吗大数据请教一下，hive，我用insert into对一个分区写入数据，其中，一个
python网络爬虫未来发展方向_求教各位Python大佬，根据您们的经验，web和爬虫那个方向发展更有前景！（抛开ai和大数据不谈）？...
2020-12-04 02:30

weixin_39801158的博客我认为这两个分开来看，各有优势且并不具有可比性，先抛开技术本身来分析一下：WEB主要是应用方向的考虑，数据呈现和业务呈现是他的核心内容。爬虫主要是数据方向的考虑，数据采集和数据存储是他的核心内容。然后...
让你的内容观众采取行动的21个好点子
2024-08-30 15:00

AI钛媒体的博客创建内容时要让其对用户有吸引力、实用且相关。这是与你的受众建立联系、回答他们的问题、让他们停留在你的网站上，并最终在你的网站上转化的最佳方式。, Conductor高级SEO策略总监内容营销不仅仅是吸引观众的艺术，...
使用Java进行大数据处理（与Hadoop或Spark结合）！
2025-07-17 11:59

喵手的博客在大数据时代，数据的处理和分析能力决定了企业的竞争力。对于Java开发者而言，了解如何与Hadoop和Spark这两大分布式计算框架结合，成为了必备的技能。在本篇文章中，我们将从基础的Hadoop MapReduce编程和HDFS操作...
没有解决我的问题, 去提问

关于spark 的执行有问题求教。

3条回答 默认 最新

3条回答默认最新