把RDD存入文件,得到的文件内容如下,如何才能正确存入RDD的内容? 2C
val result=data.select("termIndices").rdd.map {
      case Row(termIndices: mutable.WrappedArray[int]) =>
        val res=termIndices.iterator.map{
          t=>termMap.get(t)

        }
        res.toArray

    }
    result.saveAsTextFile("file:///D:/data/ld/ld3")

打开文件,文件中的内容结果为

 [Lscala.Option;@7af280cd
[Lscala.Option;@12e3ec85
[Lscala.Option;@4aaab25e
[Lscala.Option;@6bbfebcf
[Lscala.Option;@7bc42a7a

2个回答

RDD result中存储的res.toArray是一个对象,
解决办法为:

 val result=data.select("termIndices").rdd.map {
      case Row(termIndices: mutable.WrappedArray[int]) =>
        val res=termIndices.iterator.map{
          t=>termMap.get(t)

        }
        val d=res.toArray
                val sent = for (i <- Range(0, d.size) )yield d(i)
        sent

    }
    result.saveAsTextFile("file:///D:/data/ld/ld3")
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何把文件存入数据库?
最好还有读取的代码!感激不尽!
如何把链表存入文件!
突然发现如果把链表的每个结点整体写入文件,再读取文件的时候,指针已经没用了!请问链表怎么存入文件?
【spark RDD】RDD编程
%spark/*创建RDD*/ val data0=sc.parallelize(Array(1,2,3,3)) /*************************************对一个数据的RDD进行转换操作************************************************/ /*map*/ val data1=data0.map(x=>x+1)//每个元素
rdd不能嵌套rdd
df_all.show() a = [(1,df_all)] rdd = sc.parallelize(a) 报错 Py4JError: An error occurred while calling o131.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not exist
键值对RDD(Pair RDD )
1:map函数把一个普通的RDD转化为pair RDD var lines = sc.parallelize(List("i love you")) val pairs = lines.map(x=&gt;(x,1)) pairs.foreach(println) (i love you,1) 2:Pai RDDr的转化操作 由于pair RDD中包含二元组,所以需要传递函数应当操作...
创建RDD和RDD的持久化
创建RDD的方式第一种:通过并行化的方式创建RDDval arr = Array(1,2,3,4,5,6,7) val rdd = sc.paralleize(arr,4) //并行化程度是4 //默认是根据集群的情况来设置分区,建议一个cpu分2-4个partition第二种方式:使用本地文件或者HDFS创建RDD textfile来读取文件创建RDD,默认情况下每一个Block创建一个part
如何正确在剪贴板存入自定义格式的内容﹖
varrn PRec: ^TMyRec;rn Data: THandle;rnbeginrn Data := GlobalAlloc(GMEM_DDESHARE, SizeOf(TMyRec));rn PRec := GlobalLock(Data);rnrn PRec.name := '张三';rn PRec.age := 99;rnrn GlobalUnlock(Data);rn Clipboard.SetAsHandle(CF_MY, Data);rnrn网上找到上列例子,例子中 TMyRec 是一个记录结构:rnrnTMyRec = recordrn name: string[8];rn age : Byte;rn end;rnrn这个例子中,我不明白的是 SizeOf 的部份。rn一个记录结构,要算 Size 是容易的,尤其上例中 string 后还加了一个[8]限定长度。rnrn但,如果要存入的是长度不定的呢﹖rnrn例如存入一个 TStringList 的内容。rn难道也用 sizeof(TStringList) 吗﹖rnrn我要实现的比 TStringList 还要难点:基本上是 Linked List 结构。rn每一个Linked List的节点内容,保存的是HTML,长度不一定。rn我写一个示意代码:rnrnTNode = classrnpublicrn HTML: string;rn procedure AddChild(Node: TNode);rn procedure AddBefore(Node: TNode);rn Procedure AddAfter(Node: TNode);rnend;rnrnTMyTree = classrnpublicrn RootNode: TNode;rn procedure AddNode(ParentNode: TNode; str: string); rnend;rnrn类似这样。rn最终我要把这整个 Tree 都存入剪贴板,怎么做啊﹖rnrn(注:Tree的形状、Node数直到黏贴前才确定。Node.HTML 的长度也是直到黏贴前才确定)rnrnrnrn
把文件存入本地
        File targetFile = new File(path, fileName);//path本地路径 filename文件名 // 存入根目录 files.transferTo(targetFile);//files为文件,类型是MultipartFile
文件内容存入链表
[img=https://img-bbs.csdn.net/upload/201510/17/1445049251_480150.png][/img]rn我想把如图所示的txt文件内容存到链表中去,例如201570494 张三 男 90 89 78,依次是学号,姓名,性别,成绩(不同的元组,成绩个数可能不同)。自己用vc++编了个程序,调试时只能读到第一行元组;运行程序并得不到输出。我自己觉得这里面应该要用到链表的嵌套吧,但程序出错检查不出来。请各位大神指导!
什么是RDD以及如何创建RDD
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。 RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表,数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of
spark2 rdd实战-加载数据到rdd
概述 本文讲述通过spark加载各种形式的数据并形成rdd的各种方式。 加载数据到rdd的多种方式 可以有多种方式把数据加载到rdd中。如下: 并行化集合-parallelize函数 介绍 创建rdd的最简单的方式就是并行化(parallelize)数据集,也就是说把一个对象集合转换为可以并行操作的分布式数据集。 在SparkContext中有一个函数parallelize,可以把一般的对象集合转...
RDD的键值对操作(pair RDD)
RDD的键值对操作 创建 可以从RDD中直接通过map函数进行创建 lines = sc.textFile(&quot;file:///usr/local/spark/README.md&quot;) pairs = lines.map( lambda x : (x.split(&quot; &quot;)[0], x) ) # 将第一行的第一个单词作为key,该行字符串作为value,构建pairRDD print( pa...
如何把exec得到的结果存入临时表
ALTER PROCEDURE dbo.查询存储过程 rn @ym int,rn @tablename varchar(20)rnASrn exec('select EmpID,SubID,Amount,' + @ym + ' from ' + @tablename)rnrnrn以上是我写的存储过程已经测试成功,现在我要做的是把得到的结果存入或者插入一个临时表,请问如何实现rnrnexec('select EmpID,SubID,Amount,' + @ym + ' into #temptable from ' + @tablename)rn执行失败:运行[dbo].[查询存储过程] ( @ym = 200802, @tablename = biz200802 ).rnrn没有为第 4 列(属于 '#temptable')指定列。rn没有行受影响。rn(返回 0 行)rn@RETURN_VALUE = 0rn完成 [dbo].[查询存储过程] 运行。rnrn请高人指点
如何把文本框的内容存入到数据库表中?
如何把文本框的内容存入到数据库表中?rn如何把数据库表中的内容显示到文本中,点下一按钮能使文本框中的内容分别向下移一条或向前移一条?
RDD 解析Json文件
1、JSON文件格式为: {"key1":{"产地":"南京","外形尺寸":"50*50","型号":"dddd"},"code":"101331569"} 2、程序如下: public class ExportData {       public static void main(String[] args) {                   SparkConf conf
如何把XML文件的内容读出存入到变量
在线等啊,高手给指点一下吧,谢谢
从RDD转换得到DataFrame
Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是,利用反射来推断包含特定类型对象的RDD的schema,适用对已知数据结构的RDD转换;第二种方法是,使用编程接口,构造一个schema并将其应用在已知的RDD上。 在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有caseclass才能被Spark隐式地转换为DataFrame。(有
SQL如何存入文件
我有一个SQL数据表 表一,有三个字段:员工姓名,性别,简历,其中简历是一个WORD文档,如何用VB在数据表中添加新员工,同时把相应WORD文档的简历放到数据表中
Spark java程序入门(二)创建RDD与查看RDD内容
使用Spark需要RDD编程,而RDD编程的第一步就是构建RDD 有两种方法创建RDD (1)从文件系统中直接读入一个外部数据集, 一个简单的例子,比如  JavaRDD input = sc.textFile("文件路径"); //文件路径的写法根据所使用的不同的文件系统有所变化 (2)从驱动器程序里分发对象集合。            有不少情况下,并不需要程序的每一步都使用
把文件存入数据库的问题
我想把一个文件存入数据库代码如下:rn[code=Java]rnpublic void saveArticles()rn checkConn();rn String sql="insert into articles (article,time,zuoze) values(?,?,?)";rn System.out.println(new Date().getTime());rn rn File f=new File("src/net/BaseDao.java");rn Reader rd=null;rn try rn rd=new BufferedReader(new FileReader(f));rn rn catch (FileNotFoundException e) rn e.printStackTrace();rn rn rn int num=exeUpdt(sql, new Object[]rd,new java.sql.Timestamp(new Date().getTime()),"bbs02");rn if(num==1)rn System.out.println("成功传入了一条数据");rn elsern System.out.println("插入失败!");rn rn rn closer();rn rnrn[/code]rnexeUpdt方法代码如下:rn[code=Java]rnpublic int exeUpdt(String sql,Object[] params)rn int count=0;rn try rn pstmt= conn.prepareStatement(sql);rn if(params !=null)rn for(int i=0;i
sparkstreaming--window把多个批次中RDD合并成一个RDD
object WordCountWindows { def main(args: Array[String]): Unit = { System.setProperty(&quot;hadoop.home.dir&quot;, &quot;E:\\software\\bigdate\\hadoop-2.6.0-cdh5.15.0\\hadoop-2.6.0-cdh5.15.0&quot;) val conf= ...
对象如何存入文件
对象如何存入文件. rn例如,有一个学生类 rnclass Student rn rn string name; rn string num; rn int age; rn rnrn这样一个类实例化若干个对象,如何把这些对象存如文件,以便数据保存后不会丢失. rnrn我还是停留在控制台上操作的. rnrn谢了!
c++中读取文件内容存入到另一个文件
使用fstream库中函数读取文件内容并存入到另一个文件中的demo。#include <stdio.h> #include <stdlib.h> #include <string> #include <string.h> #include <iostream> #include <unistd.h> #include <fstream> #define MASK_FILE_PATH "./i2cl
如何把TStrings存入记录文件中?
unit Unit1;rninterfacernusesrn Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,rn Dialogs, StdCtrls, Grids;rntypern TDDML=Record //调度命令rn CZBZ:TStrings;//操作步骤rn end;rn DDMLFileType=file of TDDML;rn TForm1 = class(TForm)rn StringGrid1: TStringGrid;rn WriteButton: TButton;rn ReadButton: TButton;rn procedure WriteButtonClick(Sender: TObject);rn procedure ReadButtonClick(Sender: TObject);rn privatern Private declarations rn publicrn Public declarations rn end;rnvarrn Form1: TForm1;rnrnimplementationrn$R *.dfmrnprocedure TForm1.WriteButtonClick(Sender: TObject);rnvar DDML:TDDML;rn DDMLFile:DDMLFileType;rn FileName:string;//文件名rnbeginrn FileName:='c:\调度命令';rn AssignFile(DDMLFile,FileName);rn if FileExists(FileName) thenrn Reset(DDMLFile)rn elsern Rewrite(DDMLFile);rn DDML.CZBZ:=TStringList.Create;rn DDML.CZBZ.Add('第一步');rn DDML.CZBZ.Add('第二步');rn seek(DDMLFile,0);rn write(DDMLFile,DDML);rn CloseFile(DDMLFile);rnend;rnrnprocedure TForm1.ReadButtonClick(Sender: TObject);rnvar DDML:TDDML;rn DDMLFile:DDMLFileType;rn FileName:string;//文件名rn i:Integer;rnbeginrn FileName:='c:\调度命令';rn AssignFile(DDMLFile,FileName);rn if FileExists(FileName) thenrn Reset(DDMLFile)rn elsern Rewrite(DDMLFile);rn if FileSize(DDMLFile)<>null thenrn beginrn seek(DDMLFile,0);rn Read(DDMLFile,DDML);rn end;rn CloseFile(DDMLFile);rn for i:=0 to DDML.CZBZ.Count-1 dorn StringGrid1.Cells[0,i]:=DDML.CZBZ[i];rnend;rnend.rnrn运行程序,点击WriteButton后,再点击ReadButton,StringGrid1中会正确地显示操作步骤,rn关掉程序,再重新运行,如果直接点击ReadButton,就会出现如下错误:rn"Access violation at address 5320534D. Read of address 5320534D."rn如何把TStrings存入记录文件中?
如何把300以二进制存入文件?
我有一个int=300,我使用writeShort(300)的方法存到文件的时候结果是01 2C,但是我想把它存为2C 01怎么办到?且存writeShort(30)的时候是1E 00而不是00 1E。固定占2位。rn 谢谢!
如何把文件直接存入db2?
我的数据库有一个表要存放一些图片?rn怎么才能直接把图片直接存放到db2中去?rn
如何把图片文件存入到access数据库中
问题:我已经建立了ole属性的字段rn1,如何把选到的图片存入其中.rn2,如何限制图片的大小.rn3,如何把图片数据从access中读取出来rnrn以上问题希望有代码支持.最好有例程.rn急!!!
如何把csv文件存入数组?
请大家帮忙,如何把csv文件按逗号分割插入数组啊?关键是文件内容里还含有',' 这该怎么处理啊?
如何打印Spark RDD中的内容
一、方法 2种方式:   1              rdd.collect().foreach {println} 2              rdd.take(10).foreach { println }   //take(10) 取前10个   二、例子        val logData = sparkcontext.textFile(logFile, 2).c...
******如何把文件存入oracle数据库中******
现在想用ado连接来吧文件存入数据库中rn我保存的代码如下:rnvarrn s:TStream;rn Stream:TMemoryStream;rnrnbeginrn opendialog1.Execute;rn if opendialog1.FileName<>'' thenrn beginrn tryrn S:=TFileStream.Create(opendialog1.FileName,fmopenread);rn Adoquery1.Close;rn Adoquery1.SQL.Clear;rn Adoquery1.SQL.Add('select * from word');rn Adoquery1.Active:=true;rn Adoquery1.Insert;rn Adoquery1.FieldByName('a').Value:=ExtractFileName(opendialog1.FileName);rn Tblobfield(Adoquery1.FieldByName('b')).LoadFromstream(s);rn Adoquery1.Post;rn// listbox1.Items.Add(opendialog1.FileName);rn finallyrn s.Free;rn Adoquery1.Close;rn end;rn end;rnend;rn但是好像没有保存进取,如果要保存大文件的画有错误(1m都不行)rn给位帮帮忙了!!rn读取的是:rnvarrns:string;rnbeginrnsavedialog1.Execute;rnAdoquery1.Close;rnAdoquery1.SQL.Clear;rnAdoquery1.SQL.Add('select * from word where a='''+listbox1.Items.Strings[listbox1.ItemIndex]+'''');rn//showmessage('select * from word where a='''+listbox1.Items.Strings[listbox1.ItemIndex]+'''');rnAdoquery1.Active:=true;rn(Adoquery1.FieldByName('b') as TBlobField).savetofile(ExtractFileName(saveDialog1.FileName));rnrnrn现在不知道是保存有错误还是读取有错误。
如何把文件信息存入内存缓存中
我生成一个文件,里面有新添加的信息rn现在要做的是把这个文件写如内存缓存中,而不是存到硬盘里rnStream file = null;rn string sname = DateTime.Now.ToString("yyMMddhhmmss");rn Random Rand = new Random(4);rn sname = sname+Convert.ToString(Rand.Next());rnfile = new FileStream (@"D:\WINSOR\PDF_OUT\PDF\PDF_OUT" + sname + ".pdf", FileMode.OpenOrCreate);rn这样是把这个文件存到了D:\WINSOR\PDF_OUT\PDF\PDF_OUT目录下rn而我现在不是要存到硬盘中,而是要存到内存中,这样一来在服务器中就不会产生一些不必要的文件rn请问该怎么做rn在JAVA中用的是file = new ByteArrayOutputStream()rnC#中不会
如何把任意文件存入数据库问题
文件都是二进制的,内容存入一个单元,文件名存入一个单元,不就实现了文件在数据库中的存放了么。rn这个思想具体怎么实现阿?
存入文件
我从数据库读了一个dataset,rn怎样把它转化成文本存入到文本文件里啊。
单个RDD去重、两个RDD去重
RDD去重 RDD根据某一字段去重,RDD联合去重
spark源码阅读笔记RDD(一)RDD的基本概念
什么是RDD? 从文献1我们知道,Matei Zaharia博士给RDD下的定义是: Formally, an RDD is a read-only, partitioned collection of records。关键词有只读、已分区记录的集合,也就是 说:我们操作的RDD是一个只可读不可写的集合,而且这个集合是已经分好区且会有标记的集合。 RDD怎么创建? RDD只能
RDD基础学习-[1]RDD建立与WordCount
简介 构建RDD [1]读外部文件: textFile() [2]从scala数据集构建RDD: parallelize() readme.txt I love you Please waiting for me I will try my best to find you import org.apache.spark.{SparkConf, Spar
rdd算子中能使用rdd的引用吗?
rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误: java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster这是因为客户函数将以闭包的形式发送至各个worker。若客户
python读取文件内容存入mysql
python读取文件内容存入mysqlmysql导入支持sql文件和txt文件(csv),但在txt直接导入会出现乱码,所以直接用python读取每一行,然后写入数据库。 最近看兄长生写jsp代码,逻辑运转之快让我们瞠目结舌,常年写代码才是技术积累的关键啊。不知道十年以后会不会像兄长这么牛逼。。。 下面贴代码: python处理乱码主要有三步: 创建数据库时声明 CREATE DATABASE
RDD概述
http://note.youdao.com/share/?id=dfa94f9f39aeb68314c021916643032c&type=note
创建RDD
创建RDD的两种方式:1. 读取稳定物理存储(eg:HDFS)外部数据集2. 在驱动程序中对一个集合进行并行化(也就是其它已有的RDD上执行确定性操作,这些确定性操作称作转换(Transformation)) 方法一:创建 RDD 最简单的方式就是把程序中一个已有的集合传给 SparkContext 的 parallelize()方法,这种方式在学习 Spark 时非常有用,它让你可以在 shel...
相关热词 c# 标准差 计算 c#siki第五季 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池