java连接spark 没有运算结果 5C

idea 代码是这样的:
public final class JavaSparkPi {

public static void main(String[] args) throws Exception {
    SparkSession spark = SparkSession
            .builder()
            .master("spark://192.168.115.128:7077")
            .appName("JavaSparkPi")
            .getOrCreate();

    JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

    int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
    int n = 100000 * slices;
    List<Integer> l = new ArrayList<>(n);
    for (int i = 0; i < n; i++) {
        l.add(i);
    }

    JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);

    int count = dataSet.map(integer -> {
        double x = Math.random() * 2 - 1;
        double y = Math.random() * 2 - 1;
        return (x * x + y * y <= 1) ? 1 : 0;
    }).reduce((integer, integer2) -> integer + integer2);

    System.out.println("Pi is roughly " + 4.0 * count / n);

    spark.stop();
}

}

idea控制台是这样的:

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
18/01/03 10:35:41 INFO SparkContext: Running Spark version 2.2.1
18/01/03 10:35:43 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/01/03 10:35:43 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:378)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:393)
at org.apache.hadoop.util.Shell.(Shell.java:386)
at org.apache.hadoop.util.StringUtils.(StringUtils.java:79)
at org.apache.hadoop.security.Groups.parseStaticMapping(Groups.java:116)
at org.apache.hadoop.security.Groups.(Groups.java:93)
at org.apache.hadoop.security.Groups.(Groups.java:73)
at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:293)
at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:283)
at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:260)
at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:789)
at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:774)
at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:647)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2424)
at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2424)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.util.Utils$.getCurrentUserName(Utils.scala:2424)
at org.apache.spark.SparkContext.(SparkContext.scala:295)
at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:918)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:910)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:910)
at JavaSparkPi.main(JavaSparkPi.java:39)
18/01/03 10:35:43 INFO SparkContext: Submitted application: JavaSparkPi
18/01/03 10:35:44 INFO SecurityManager: Changing view acls to: wmx
18/01/03 10:35:44 INFO SecurityManager: Changing modify acls to: wmx
18/01/03 10:35:44 INFO SecurityManager: Changing view acls groups to:
18/01/03 10:35:44 INFO SecurityManager: Changing modify acls groups to:
18/01/03 10:35:44 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(wmx); groups with view permissions: Set(); users with modify permissions: Set(wmx); groups with modify permissions: Set()
18/01/03 10:35:45 INFO Utils: Successfully started service 'sparkDriver' on port 62919.
18/01/03 10:35:45 INFO SparkEnv: Registering MapOutputTracker
18/01/03 10:35:45 INFO SparkEnv: Registering BlockManagerMaster
18/01/03 10:35:45 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
18/01/03 10:35:45 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
18/01/03 10:35:45 INFO DiskBlockManager: Created local directory at C:\Users\wmx\AppData\Local\Temp\blockmgr-37c3cc47-e21d-498b-b0ec-e987996a39cd
18/01/03 10:35:45 INFO MemoryStore: MemoryStore started with capacity 899.7 MB
18/01/03 10:35:45 INFO SparkEnv: Registering OutputCommitCoordinator
18/01/03 10:35:46 INFO Utils: Successfully started service 'SparkUI' on port 4040.
18/01/03 10:35:46 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://172.21.96.1:4040
18/01/03 10:35:47 INFO StandaloneAppClient$ClientEndpoint: Connecting to master spark://192.168.115.128:7077...
18/01/03 10:35:47 INFO TransportClientFactory: Successfully created connection to /192.168.115.128:7077 after 105 ms (0 ms spent in bootstraps)
18/01/03 10:35:48 INFO StandaloneSchedulerBackend: Connected to Spark cluster with app ID app-20180102183557-0004
18/01/03 10:35:48 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20180102183557-0004/0 on worker-20180101224135-192.168.115.128-37401 (192.168.115.128:37401) with 1 cores
18/01/03 10:35:48 INFO StandaloneSchedulerBackend: Granted executor ID app-20180102183557-0004/0 on hostPort 192.168.115.128:37401 with 1 cores, 1024.0 MB RAM
18/01/03 10:35:48 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20180102183557-0004/0 is now RUNNING
18/01/03 10:35:48 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 62942.
18/01/03 10:35:48 INFO NettyBlockTransferService: Server created on 172.21.96.1:62942
18/01/03 10:35:48 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
18/01/03 10:35:48 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, 172.21.96.1, 62942, None)
18/01/03 10:35:48 INFO BlockManagerMasterEndpoint: Registering block manager 172.21.96.1:62942 with 899.7 MB RAM, BlockManagerId(driver, 172.21.96.1, 62942, None)
18/01/03 10:35:48 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, 172.21.96.1, 62942, None)
18/01/03 10:35:48 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, 172.21.96.1, 62942, None)
18/01/03 10:35:50 INFO StandaloneSchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0
18/01/03 10:35:51 INFO SparkContext: Starting job: reduce at JavaSparkPi.java:56
18/01/03 10:35:51 INFO DAGScheduler: Got job 0 (reduce at JavaSparkPi.java:56) with 2 output partitions
18/01/03 10:35:51 INFO DAGScheduler: Final stage: ResultStage 0 (reduce at JavaSparkPi.java:56)
18/01/03 10:35:51 INFO DAGScheduler: Parents of final stage: List()
18/01/03 10:35:51 INFO DAGScheduler: Missing parents: List()
18/01/03 10:35:51 INFO DAGScheduler: Submitting ResultStage 0 (MapPartitionsRDD[1] at map at JavaSparkPi.java:52), which has no missing parents
18/01/03 10:35:52 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 3.0 KB, free 899.7 MB)

1

6个回答

图片说明

1

spark集群日志是这样的:

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/spark-2.2.1-bin-hadoop2.7/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop-2.7.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
18/01/02 18:12:28 INFO executor.CoarseGrainedExecutorBackend: Started daemon with process name: 54033@ubuntu
18/01/02 18:12:29 INFO util.SignalUtils: Registered signal handler for TERM
18/01/02 18:12:29 INFO util.SignalUtils: Registered signal handler for HUP
18/01/02 18:12:29 INFO util.SignalUtils: Registered signal handler for INT
18/01/02 18:12:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/01/02 18:12:29 INFO spark.SecurityManager: Changing view acls to: root,wmx
18/01/02 18:12:29 INFO spark.SecurityManager: Changing modify acls to: root,wmx
18/01/02 18:12:29 INFO spark.SecurityManager: Changing view acls groups to:
18/01/02 18:12:29 INFO spark.SecurityManager: Changing modify acls groups to:
18/01/02 18:12:29 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(root, wmx); groups with view permissions: Set(); users with modify permissions: Set(root, wmx); groups with modify permissions: Set()
Exception in thread "main" java.lang.reflect.UndeclaredThrowableException
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1713)
at org.apache.spark.deploy.SparkHadoopUtil.runAsSparkUser(SparkHadoopUtil.scala:66)
at org.apache.spark.executor.CoarseGrainedExecutorBackend$.run(CoarseGrainedExecutorBackend.scala:188)
at org.apache.spark.executor.CoarseGrainedExecutorBackend$.main(CoarseGrainedExecutorBackend.scala:284)
at org.apache.spark.executor.CoarseGrainedExecutorBackend.main(CoarseGrainedExecutorBackend.scala)
Caused by: org.apache.spark.SparkException: Exception thrown in awaitResult:
at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:205)
at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:75)
at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:100)
at org.apache.spark.executor.CoarseGrainedExecutorBackend$$anonfun$run$1.apply$mcV$sp(CoarseGrainedExecutorBackend.scala:202)
at org.apache.spark.deploy.SparkHadoopUtil$$anon$2.run(SparkHadoopUtil.scala:67)
at org.apache.spark.deploy.SparkHadoopUtil$$anon$2.run(SparkHadoopUtil.scala:66)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
... 4 more
Caused by: java.io.IOException: Failed to connect to /172.21.96.1:61475
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:232)
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:182)
at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:197)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:194)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:190)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
Caused by: io.netty.channel.AbstractChannel$AnnotatedSocketException: Network is unreachable: /172.21.96.1:61475
at sun.nio.ch.Net.connect0(Native Method)
at sun.nio.ch.Net.connect(Net.java:454)
at sun.nio.ch.Net.connect(Net.java:446)
at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:648)
at io.netty.channel.socket.nio.NioSocketChannel.doConnect(NioSocketChannel.java:242)
at io.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.connect(AbstractNioChannel.java:205)
at io.netty.channel.DefaultChannelPipeline$HeadContext.connect(DefaultChannelPipeline.java:1226)
at io.netty.channel.AbstractChannelHandlerContext.invokeConnect(AbstractChannelHandlerContext.java:540)
at io.netty.channel.AbstractChannelHandlerContext.connect(AbstractChannelHandlerContext.java:525)
at io.netty.channel.ChannelOutboundHandlerAdapter.connect(ChannelOutboundHandlerAdapter.java:47)
at io.netty.channel.AbstractChannelHandlerContext.invokeConnect(AbstractChannelHandlerContext.java:540)
at io.netty.channel.AbstractChannelHandlerContext.connect(AbstractChannelHandlerContext.java:525)
at io.netty.channel.ChannelDuplexHandler.connect(ChannelDuplexHandler.java:50)
at io.netty.channel.AbstractChannelHandlerContext.invokeConnect(AbstractChannelHandlerContext.java:540)
at io.netty.channel.AbstractChannelHandlerContext.connect(AbstractChannelHandlerContext.java:525)
at io.netty.channel.AbstractChannelHandlerContext.connect(AbstractChannelHandlerContext.java:507)
at io.netty.channel.DefaultChannelPipeline.connect(DefaultChannelPipeline.java:970)
at io.netty.channel.AbstractChannel.connect(AbstractChannel.java:215)
at io.netty.bootstrap.Bootstrap$2.run(Bootstrap.java:166)
at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:399)
at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:446)
at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:131)
at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144)
... 1 more

0

图片说明

0

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
这里错误已经很清楚了 没有winutils ,这个应该是在windows上跑的,winutils.exe 是hadoop 访问windows用的,
你的数据不来自Hadoop, 你看看你有没有hadoop的配置文件.先把他删除.
winutils 也可以找一个 放进去.

0
bettermouse1
bettermouse1 回复zhenghailong888: 可以. 首先我建议你用虚拟机装 liunx 系统, 搭建spark集群 ,不要用windows,一是没有公司这么用,二是问题太多了,你解决起来麻烦啊. 你说的运行方式要以,要在网络互通的情况下.还要先在idea里面打成jar包,然后指明jar包位置.这个可以百度
一年多之前 回复
zhenghailong888
zhenghailong888 我能不能跑个jar包程序,用.master("spark://192.168.115.128:7077")指定集群地址,进行运算,我的jar包,不用spark_subumit提交,就java -jar 运行jar包,通过"spark://192.168.115.128:7077"这种 网络访问,能实现实时利用spark计算能力,执行我写好的java方法吗
一年多之前 回复

: Failed to connect to /172.21.96.1:61475 集群错误也很明显啊,,,估计都没搭建好,防火 墙关了吧. 搭建完了用 spark-shell测试一下.

0
zhenghailong888
zhenghailong888 /172.21.96.1:61475是我的win10开发机,我能用.master("spark://192.168.115.128:7077"),把我代码的任务提交到spark集群?然后再获得结果?
一年多之前 回复

这很明显是一个想把spark在windows上运行的错误,然而spark要依赖hadoop,而hadoop需要在windows编译,hadoop在windows编译后会产生winutils.exe文件,在windows本地运行spark代码是要配置hadoop环境变量的,建议如下
1.找个windows编译后的hadoop,并配置环境变量
2.下载相应要用的spark并配置环境变量
3.然后就可以在windows上开心的运行代码了,但是 但是master要设置成 .master("local[*])

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark运算结果写入hbase及优化
在Spark中利用map-reduce或者spark sql分析了数据之后,我们需要将结果写入外部文件系统。 本文,以向Hbase中写数据,为例,说一下,Spark怎么向Hbase中写数据。 首先,需要说一下,下面的这个方法。 foreach (func) 最通用的输出操作,把func作用于从map-reduce生成的每一个RDD(spark  sql生产的DataFrame可转成RDD)
Java与SparkStreaming的Socket通信,结果保存至mysql
Java与SparkStreaming Socket通信还是做毕业设计,到这里出现了与预想中的问题:Java与SparkStreaming,这两者之间互相通信。 Spark的官方文档里面有说用[nc -lk 9999][6] 这样的例子来实现Streaming的数据获取。之前一直是分开来做的,今天两个整合的时候,预想到的问题出现了。整理下整个毕设后端的思路: 1 在Spring里面配置了一个be
Spark通过JdbcRdd连接Oracle数据库(scala)
一、代码 package com.sgcc.hj import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcTest { def main(args: Array[S...
Spark将计算结果写入到Mysql中
Spark将计算结果写入到Mysql中
Spark RDD输出不显示
问题 在本地环境中,直接使用rdd.collect(),无法打印rdd的内容 有三种方法 result .foreach(line =&amp;gt; println(line)) result.collect().foreach {println} rdd.take(10).foreach { println } 官网解释 Printing elements of an RDD An...
Sparkstreaming,Logservice本地测试无法读取到数据
val logServiceProject = &quot;teststreaming04&quot; // LogService 中 project 名 val logStoreName = &quot;teststreaming4logstore&quot; // LogService 中 logstore 名 val loghubConsumerGroupName = &quot;filter_info_count&quot; //...
java 运算注意
java 货币运算问题,在java中货币运算时,如果不注意控制小数点问题,就会出现意想不到的结果,运算结果得到一些没有用到的小数点。
【八】Spark Streaming 用foreachRDD把结果写入Mysql中Local模式(使用Scala语言)
DStream 的foreachRDD是允许把数据发送到外部文件系统中。然而使用不当会导致各种问题。 错误示范1:在driver创建连接,在woker使用。会报错connection object not serializable。 错误示范2:rdd每个记录都创建连接,成本非常高。 正确示范:拿到rdd以后foreachPartition,每个partition创建连接,而且使用数...
Spark里如何把结果写入MySQL
这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。 方法一:把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致) Dataset&amp;lt;Row&amp;gt; resultDF = spark.sql(&quot;select hphm,...
Spark集群执行需求跑Job的结果保存到节点本地磁盘
此次job的提交,具体命令: 1.如果Spark集群没有连接mysql的驱动jar包的话:需要自行提供驱动jar包 spark-submit --master spark://hdp-21:7077 --jars /root/mysql-connector-java-8.0.11.jar --class cn.edu360.day06.IPAdd6 wc.jar hdfs://hdp-21:...
spark操作hbase详细讲解
1.java API实现对hbase的操作 package testhbase; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import...
spark入门三(RDD基本运算)
1. RDD基本操作 val rdd1 = sc.parallelize(List(1,2,3,4,4)) 输出结果:rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at &amp;amp;lt;console&amp;amp;gt;:24 //这里org.apache.spark.rdd.RDD[Int],这里R...
Spark计算过程分析
基本概念 Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程
spark版WordCount(Java),将输出结果排序,并去除输出文件中的括号。
本文为spark版的WordCount(java),主要实现了三个功能:     1.对单词出现的频数进行统计     2.对输出结果中单词的出现的频数从大到小进行了排序     3.去除了输出文件中的括号     具体代码如下:     package com.cxd.core; import java.util.Arrays; import org.apache.spark.Sp
【spark】spark计算Pi
cd $SPARK_HOME/bin ./spark-submit --master spark://node111:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.1.1.jar 100 命令格式:./$SPARK_HOME/bin/spark-submit
spark连接web界面
今天想了一下自己构想的项目
spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.ap
Spark2.0 Java实现将Hive运算结果保存到数据库
package com.gm.hive.SparkHive; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import java.util.P...
Spark MLlib 核心基础:向量 And 矩阵
1、Spark MLlib 核心基础:向量 And矩阵 1.1 Vector 1.1.1 dense vector 源码定义:    * Creates a dense vector from its values.    */   @varargs   def dense(firstValue: Double, otherValues: Double*): Vector =
Spark应用远程调试
本文介绍Spark远程调试的基本方法。基于IntelliJ 社区版。
SparkStreaming(SparkSQL)+Kafka+Oracle 使用SQL完成的实时累加统计
Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在SparkStreaming程序中如果有复杂业务逻辑的统计,使用scala代码实现起来比较困难,也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分...
Java实现SparkSQL Thrift 方式读取Hive数据
private List&amp;lt;List&amp;lt;String&amp;gt;&amp;gt; queryHiveData(String sql) { ResultSet resultSet = null; Statement stmt = null; Connection conn = null; boolean flag = true; int columnsCount ...
离线轻量级大数据平台Spark之单机部署及Java开发
1、Spark平台基本介绍 Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and PeopleLab) 开发,可用来构建大型的、低延迟的数据分析应用程序。 Spark 是在Scala 语言中实现的,它将 Scala 用作其应用程序框架。Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 Spark 是一种与Hadoop 相似的开源
Spark1.4从HDFS读取文件运行Java语言WordCounts并将结果保存至HDFS
习惯印象笔记客户端记录的方便。想想这几天搭建Spark环境,分析spark运行过程,分析程序编写过程的迷茫,记录一篇从Hadoop2.4.0 HDFS系统中读取文件,并使用java语言编译运行的WordCount过程与大家分享吧。 本次实验相关信息如下: 操作系统:Ubuntu 14 Hadoop版本:2.4.0 Spark版本:1.4.0 运行前提是Hadoop和Spark均已正确安装
Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读
Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读Spark SQL包括一个数据源,可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。因为它可以直接返回DataFrame,方便在Spark SQL进行处理,也可以很容易地和其他数据源进行Join操作。从Java或Python也更容易使用JDBC数据源,因为它不需要用户提供ClassTag。(注意,这和使用Spar...
Spark 连接mysql 执行数据查询操作实战--多表查询
系统环境:本地虚拟机(Ubuntu 14 6G内存,2核CPU) 数据量:dat_order_item 240W记录,dat_order 1.4W记录 操作:(1)dat_order_item 和 dat_order 通过表order_id进行连接 (2)对dat_order_item表按item_code,item_type , item_insu_type三个字
spark将计算结果保存到mysql中
定义一个函数,将结果保存到MySQL中: 参数是一个迭代器 TestIp.scala def data2MySQL(it: Iterator[(String, Int)]): Unit = { //一个迭代器代表一个分区,分区中有多条数据 //先获得一个JDBC连接 val conn: Connection = DriverManager.getConnection("...
spark左外连接
左外连接三种方式要求:查找已售出商品唯一位置数(售出商品出现位置的次数)数据:用户表 users.tsvuser_id location_id u1 UT u2 GA u3 CA u4 CA u5 GA交易信息 transactions.tsvtrasaction_id product_id user_id quantity amount
【Spark八十五】Spark Streaming分析结果落地到MySQL
几点总结: 1. DStream.foreachRDD是一个Output Operation,类似于RDD的action,会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数(是一个RDD[T]=&amp;gt;Unit的函数类型),这样,当foreachRDD方法在每个Worker上执行...
spark的JDBC连接池(Scala版),及wordCount的结果保存到MySql中
一个Scala版的连接池,并在使用Spark Streaming进行Word Count时,把每批数据都存到mySql中 import java.sql.{Connection, DriverManager} import java.util object JDBCConnectePools02 { private val max = 10 //设置连接最大数 private val ...
正常启动SparkStreaming之后,但是一直获取不到数据
出现这样子的问题之后,我们将setMaster的值进行了一点点的修改 local[2] 为什么? 之前在进行setMaster的值时,当我们为local的时候,其实表示为local[1] 那么就是告诉我们的程序,只执行一个处理线程。但是在现在通过socket的spark streaming来处理的话 一个进程将不够用?为什么? 因为一个进程需要处理 还需要一个去获取数据 为什么这两处进程不能衔接在...
Java 实现SparkSQL保存查询结果带有字段信息到(header)HDFS
Java 实现SparkSQL保存查询结果带有字段信息到(header)HDFS
Spark从入门到精通第七课:Spark运行模式概述 && Spark standalone模式精讲 && spark核心概念
1、Spark运行模式概述 1、spark的运行模式 local yarn-client yarn-cluster standalone-client standalone-cluster k8s/mesos(不讲) 2、local模式: 在Linux上的local: 将spark安装包解压 JAVA...
使用sparkStreaming与Kafka直连方式WordCount,使用redis存放中间结果
1、maven的pom.xml文件,添加jedis依赖 &amp;amp;lt;!-- redis--&amp;amp;gt; &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&amp;amp;gt;redis.clients&amp;amp;lt;/groupId&amp;amp;gt; &amp;amp;lt;artifactId&amp;amp;gt;jedis&amp;
Spark集群模式println无显示的坑
在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码 rdd.foreach(println(_)) 并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果 rdd.collect().foreach(println(_)) ...
Spark上矩阵运算库(四)基本API搭建完毕
重写MLlib矩阵相关API 上周工作时所用到的矩阵相关API,均是extends MLlib中相关分布式矩阵API,但是很快便遇到了问题,由于我需要重写原先IndexedRow的toString方法,所以写了一个类IndexRow extends IndexedRow,由于MLlib中IndexedRowMatrix是对IndexedRow的RDD封装,即RDD[IndexedRow],我们自
从MySQL中加载数据(Spark Shell方式)和 将数据写入到MySQL中(打jar包方式)
1. 数据源1.1. JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1.1. 从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包/usr/local/spark-1.5.2-bin-hadoop2.6/b...
Spark使用Java读取mysql数据和保存数据到mysql
基于java应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果保存到mysql中。
spark分析出来的结果用echarts展示
&amp;lt;%@ page language=&quot;java&quot; import=&quot;java.util.*&quot; pageEncoding=&quot;utf-8&quot;%&amp;gt; &amp;lt;%@ taglib prefix=&quot;c&quot; uri=&quot;http://java.sun.com/jsp/jstl/core&quot;%&amp;gt; &amp;lt;% String path = request.getContextPa
spark将数据写入hbase以及从hbase读取数据
本文将介绍 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase 2、spark从hbase中读取数据并转化为RDD 操作方式为在eclipse本地运行spark连接到远程的hbase。 java版本:1.7.0 scala版本:2.10.4 zookeeper版本:3.4.5(禁用了hbase自带zoo
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 学习java不会运算 java学习中的非运算

相似问题