每行11列,以分号作为分隔符,第1列是userID,第2-10列是与该用户最相似的10个用户的userID,按相似度值从大到小排列,其中相似度是通过review.txt中的前两列计算得到的Jaccard index值。该文件中不同行之间的顺序,按照第1列的userID从小到大排列。注:如果没有使用多线程实现扣5分,如果没有按相似度从大到小排列扣5分。
我的思路是就是计算每一个uid和其他uid的相似度,但是这样子内存根本就不够,全部计算出来后对他们排序为很离谱,所以有没有什么比较好的思路是我可以不用把每一个id 和其他的都算一遍相似度,直接可以找到前10的方法