2 waeason waeason 于 2016.01.22 23:54 提问

Spark graphx 可扩展性(scalability)如何复现?

在ec2上测试spark的graphx图处理的可扩展性(scalability),用1,2,4,8和16个结点(workers)测试。发现完全没有体现加速(speed up)。请问是否有人有这方面的经验?算法使用graphx的pagerank。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
可伸缩性/可扩展性(Scalable/scalability)
可伸缩性(可扩展性)是一种对软件系统计算处理能力的设计指标,高可伸缩性代表一种弹性,在系统扩展成长过程中,软件能够保证旺盛的生命力,通过很少的改动甚至只是硬件设备的添置,就能实现整个系统处理能力的线性增长,实现高吞吐量和低延迟高性能。    可伸缩性和纯粹性能调优有本质区别, 可伸缩性是高性能、低成本和可维护性等诸多因素的综合考量和平衡,可伸缩性讲究平滑线性的性能提升,更侧重于系统的水平伸缩
SparkGraphX快速入门
1       图 图是由顶点和边组成的,并非代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如: 社交网络 互联网web页面 常用的应用有: 在地图应用中找到最短路径 基于与他人的相似度图,推荐产品、服务、人际关系或媒体 2       术语 2.1    顶点和边 一般关系图中,事物为顶点,关系为边 2.2    有向图和无向图
Spark GraphX相关使用方法
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对
Spark_GraphX安装记录
下载spark ,注意,选择直接下载似乎比较快,我开始选择镜像,结果慢的不行。 另外,手动编译需要安装sbt,这个类似maven, 很麻烦,我只是想运行下GraphX, 因此直接下载pre-built版本,可以直接运行的,无需安装sbt  然后修改配置文件 mv spark-env.sh.template spark-env.sh export HADOOP_CON
spark graphx从txt文件中读数据构建图
最近再搞spark的graphx,目的是做一个知识图谱,由于没有scala编程经验,搞得心好累。。。 话不多说,上demo 文本 zygj_vertice_attr.txt 数据形式 1 阿胶 2 肺 4 肝 5 肾 6 矮地茶 文本 zygj_edge_attr.txt 数据形式 1 2 归经关系 1 4 归经关系 1 5 归经关系 程序功能:导入顶点以及边的数
Spark GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。 互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链
spark-graphx以及图的相关介绍
首先介绍图:一、图的基本概念图是由顶点集合(vertex)及顶点间的关系集合组成的一种数据结构: Graph=( V, E ) V表示顶点的集合,E表示图的边的集合即顶点之间关系的集合。其中 V = { x | x  某个数据对象} 是顶点的有穷非空集合; E = {(x, y) | x, y  V } 或 E = { | x, y  V && Path (x, y)}
Spark GraphX 入门实例完整Scala代码
原文:http://blog.csdn.net/samhacker/article/details/42045539 [1] 完整可执行Scala 代码: [plain] view plain copy package scala.spark.graphx      import org.apache.spark.graphx._   import org.apache.spa
Spark GraphX的边构造过程详解——从 RDD[Edge[ED]] 到 EdgeRDD[ED, VD]
本文介绍Spark GraphX内部对边存储的机理,详解边分区内部的索引构建过程。 在最初,边是这样的 RDD[(srcId, dstId, attr)],它是(srcId, dstId, attr)这个三元组的集合。这种结构并不能提供有效的图计算,如快速找出(srcId, dstId)的属性值attr,找出以srcId为源顶点的所有边等操作若按遍历方式处理,效率将非常低。
谈谈Spark GraphX吧!
一.浅谈Spark GraphX 1.首先,介绍下构成图的两大结构体。 1)一个是节点RDD,其结构体如下: VertexRDD[VertexProperty]=RDD[(VertexId,VertexProperty)] 2)一个是边RDD,其结构体如下: EdgeRDD[EdgeProperty]=RDD[Edge[EdgeProperty]]),附加一个既含有节