如何给rdd/dataframe增加一个自增列?

如题 假设目前有一个dataframe转化过来的rdd
a,b,c
d,e,f
g,h,i
现在我想增加一个自增列
1,a,b,c
2,d,e,f
3,g,h,i
dataframe或者rdd形式的都可以
请问大佬们怎么实现?

2个回答

有两种方法。
一个是全局发号器(例如ZooKeeper有Sequence型节点,或者自己弄个发号器服务不断产生递增值作为发号),但是效率会比较低。
二个是mapPartition,获得当前分区的分区号。然后分区号x一个系数+当前分区本地递增值。系数是分区最大的数据条数+一定冗余。
最省事是前者,最快但容易出问题是后者。

你可以在R中直接call X,会看到已经改成你要的结果了,第一二列的名字都是“good”。 只是用View 函数查看X的时候,第二列会自动显示为“good.1" 如果我的回答没能帮助您,请继续追问。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!