这是一个评分表数据,
目前想的就是获得不重复的userId,然后下面这是别人的代码
import pandas as pd
DATA_PATH = 'C:/Users/leaf/Desktop/ml-latest-small/ratings.csv' # 矩阵分解所用的文件
dataType = [('userId', np.int32), ('movieId', np.int32), ('rating', np.float32)]
dataset = pd.read_csv(DATA_PATH, dtype=dataType, usecols=range(3)) # 读取csv文件
user_index = dataset.groupby('userId').agg([list])[[dataset.columns[1], dataset.columns[2]]].index
最后一行user_index就获得了不重复的userId,但是修改如下,得到的结果好像也是一样的啊
user_index = dataset.groupby('userId').agg([list]).index
所以原作者加上中间这部分是为了啥啊,不明白