pyspark的数据格式不匹配

基于pyspark的电影分析
运行之后报错如下

代码如下

import os
import math
import time
import config
from pyspark import SparkContext
from pyspark.sql import SQLContext, Row, SparkSession
from pyspark.mllib.recommendation import ALS
import os

os.environ['PYSPARK_PYTHON'] = r'C:\Users\。\PycharmProjects\pythonProject13\venv\Scripts\python.exe'
# Adding paths to the datasets
large_dataset_path = 'dataset/movies_large/'
small_dataset_path = 'dataset/movies_small/'

# Getting the SparkContext
sc = SparkContext()
# Initializing the SQLContext
sqlContext = SQLContext(sc)
# Initializing Spark Session
spark = SparkSession \
    .builder \
    .appName("netflix-recommendation-system") \
    .getOrCreate()

# Creating the Dataframe for the small dataset using SQLContext
small_file = os.path.join(small_dataset_path, 'ratings.csv')
small_raw_data = sc.textFile(small_file)
small_raw_data_header = small_raw_data.take(1)[0]
small_raw_data_DF = sqlContext.read.csv(small_file, header=True, inferSchema=True)
small_raw_data_DF.show(10)

# Creating dataframe for visualization in temp table 'D'
data = sc.textFile(small_file)
data = data.filter(lambda line: line != small_raw_data_header).map(lambda line: line.split(',')). \
    map(lambda x: Row(userId=int(x[0]), movieId=int(x[1]), rating=float(x[2]), timestamp=str(x[3])))
dataDF = sqlContext.createDataFrame(data)
dataDF.registerTempTable("D")


small_data = small_raw_data \
    .filter(lambda line: line != small_raw_data_header) \
    .map(lambda line: line.split(",")) \
    .map(lambda tokens: (tokens[0], tokens[1], tokens[2])).cache()

# Creating the small dataset Dataframe
small_movies_file = os.path.join(small_dataset_path, 'movies.csv')
small_movies_raw_data = sc.textFile(small_movies_file)
small_movies_raw_data_header = small_movies_raw_data.take(1)[0]
small_movies_raw_data = sc.textFile(small_movies_file)
data = small_movies_raw_data.filter(lambda line: line != small_movies_raw_data_header).map(
    lambda line: line.split(',')). \
    map(lambda x: Row(movieId=int(x[0]), title=(x[1]).encode('utf-8')))
dataDF = sqlContext.createDataFrame(data)
training_RDD, validation_RDD, test_RDD = small_data.randomSplit([6, 2, 2], seed=0)
validation_for_predict_RDD = validation_RDD.map(lambda x: (x[0], x[1]))
test_for_predict_RDD = test_RDD.map(lambda x: (x[0], x[1]))


seed = config.seed
iterations = config.iterations
regularization_parameter = config.regularization_parameter
ranks = config.ranks
errors = config.errors
err = config.err
tolerance = config.tolerance

min_error = float('inf')
best_rank = -1
best_iteration = -1
for rank in ranks:
    model = ALS.train(training_RDD, rank, seed=seed, iterations=iterations, lambda_=regularization_parameter)
    predictions = model.predictAll(validation_for_predict_RDD).map(lambda r: ((r[0], r[1]), r[2]))
    rates_and_predictions = validation_RDD.map(lambda r: ((int(r[0]), int(r[1])), float(r[2]))).join(predictions)
    error = math.sqrt(rates_and_predictions.map(lambda r: (r[1][0] - r[1][1]) ** 2).mean())
    errors[err] = error
    err += 1
    if error < min_error:
        min_error = error
        best_rank = rank
# print('The best model was trained with rank %s' % best_rank)

model = ALS.train(training_RDD, best_rank, seed=seed, iterations=iterations, lambda_=regularization_parameter)
predictions = model.predictAll(test_for_predict_RDD) \
    .map(lambda r: ((r[0], r[1]), r[2]))
rates_and_predictions = test_RDD \
    .map(lambda r: ((int(r[0]), int(r[1])), float(r[2]))) \
    .join(predictions)
error = math.sqrt(rates_and_predictions.map(lambda r: (r[1][0] - r[1][1]) ** 2).mean())
# print('For testing data the RMSE is %s' % error)

large_file = os.path.join(large_dataset_path, 'movies.csv')
large_raw_data = sc.textFile(large_file)
large_raw_data_header = large_raw_data.take(1)[0]

# Parse the dataset
large_data = large_raw_data \
    .filter(lambda line: line != large_raw_data_header) \
    .map(lambda line: line.split(",")) \
    .map(lambda tokens: (int(tokens[0]), tokens[1], tokens[2])).cache()
large_titles = large_data.map(lambda x: (int(x[0]), x[1]))
# print("There are %s movies in the large dataset" % (large_titles.count()))

# Large dataset file parsing
complete_file = os.path.join(large_dataset_path, 'ratings.csv')
complete_raw_data = sc.textFile(complete_file)
complete_raw_data_header = complete_raw_data.take(1)[0]
complete_data = complete_raw_data \
    .filter(lambda line: line != complete_raw_data_header) \
    .map(lambda line: line.split(",")) \
    .map(lambda tokens: (int(tokens[0]), int(tokens[1]), float(tokens[2]))) \
    .cache()


def get_counts_and_averages(ID_and_ratings_tuple):
    nratings = len(ID_and_ratings_tuple[1])
    return ID_and_ratings_tuple[0], (nratings, float(sum(x for x in ID_and_ratings_tuple[1])) / nratings)


movie_ID_with_ratings_RDD = (complete_data.map(lambda x: (x[1], x[2])).groupByKey())
movie_ID_with_avg_ratings_RDD = movie_ID_with_ratings_RDD.map(get_counts_and_averages)
movie_rating_counts_RDD = movie_ID_with_avg_ratings_RDD.map(lambda x: (x[0], x[1][0]))


new_user_ID = 0


new_user_ratings = config.user_ratings

# parallelize the datasets
new_user_ratings_RDD = sc.parallelize(new_user_ratings)

complete_data_with_new_ratings_RDD = small_data.union(new_user_ratings_RDD)


t0 = time.time()
new_ratings_model = ALS.train(complete_data_with_new_ratings_RDD, best_rank, seed=seed, iterations=iterations, lambda_=regularization_parameter)
tt = time.time() - t0



new_user_ratings_ids = map(lambda x: x[1], new_user_ratings)
new_user_unrated_movies_RDD = large_data \
    .filter(lambda x: x[0] not in new_user_ratings_ids) \
    .map(lambda x: (new_user_ID, x[0]))



recommendations_RDD = new_ratings_model.predictAll(new_user_unrated_movies_RDD)

recommendations_rating_RDD = recommendations_RDD.map(lambda x: (x.product, x.rating))
recommendations_rating_title_and_count_RDD = \
    recommendations_rating_RDD.join(large_titles).join(movie_rating_counts_RDD)



recommendations_rating_title_and_count_RDD = \
    recommendations_rating_title_and_count_RDD \
        .map(lambda r: (r[1][0][1], r[1][0][0], r[1][1]))
top_movies = recommendations_rating_title_and_count_RDD \
    .filter(lambda r: r[2] >= 15) \
    .takeOrdered(15, key=lambda x: -x[1])

print('Recommended movies for you:\n%s' %
      '\n'.join(map(str, top_movies)))

> ****

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

PySpark数据处理过程简析
2023-08-06 02:01

光子AI的博客 PySpark 是 Apache Spark 的 Python API，可以用 Python 进行分布式数据处理，它在内存中利用了 Apache Hadoop YARN 资源调度框架对数据进行并行处理。PySpark 可以直接使用 Hadoop 文件系统、HDFS 来存储数据，也...
11、PySpark数据处理：选择列、描述统计与数据连接
2025-08-31 03:45

奶茶API的博客本文介绍了在 PySpark 中进行数据处理的关键操作，包括列的选择、排序、删除和重命名，使用 describe 和 summary 方法获取描述统计信息，以及多种数据连接方法的应用。通过示例代码详细讲解了如何处理 CSV 文件、...
PySpark-核心编程
2023-08-19 17:00

白莲居仙的博客 PySpark核心编程笔记记录，内含详细代码演示
11、数据工程师的数据编程与查询
2025-08-10 02:43

注意力农民的博客本文全面介绍了数据工程师在数据编程与查询方面的核心知识和技能，涵盖了数据处理基础、PySpark与Spark对比、JSON/CSV/parquet文件操作、DataFrame常用方法、PySpark内置函数、流处理、C#和.NET SDK的使用，以及REST...
（一）PySpark3：安装教程及RDD编程
2024-01-30 10:51

小楼一夜听春雨258的博客 PySpark允许使用Python编程语言来利用Spark的强大功能，使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择：PySpark：使用简洁而易学的Python作为编程语言，这使得PySpark学习难度...
【Spark】(task1)PySpark基础数据处理
2022-03-15 15:44

山顶夕景的博客文章目录学习总结一、Spark介绍1.1 Scala和PySpark1.2 Spark原理1.3 一个具体栗子二、安装方式三、测试是否安装成功四、Spark程序的模块分类五、数据处理任务5.1 使用Python链接Spark环境5.2 创建dateframe数据5.3 ...
Python数据摄取实战
2025-10-30 07:10

这一部分是数据工程中非常重要的内容，因为数据摄取过程中不可避免地会遇到各种问题，包括数据质量不佳、数据丢失或者格式不匹配等，能够有效地监控和识别这些问题，是确保数据质量的关键。除了技术层面的内容，书中...
16、数据建模与多语言数据科学实战
2025-09-11 09:06

convnet3designer的博客本文探讨了数据建模与多语言数据科学的实战应用。首先，使用Vowpal Wabbit进行回归分析，基于白葡萄酒的理化特性预测...通过这些实践，展示了如何在不同工具和编程语言之间灵活切换，以提高数据科学任务的效率和效果。
25、自然语言处理中的数据标注与应用部署
2025-09-01 01:46

vim8coder的博客本文探讨了自然语言处理（NLP）中的数据标注与应用部署关键问题。内容涵盖数据标注的基本术语、标注指南的制定、标注人员的来源选择、一致性评估、迭代标注方法以及文本标注的特殊考虑。此外，还详细讨论了NLP应用的...
【Pyspark教程】SQL、MLlib、Core等模块基础使用
2022-05-21 16:45

山顶夕景的博客 pyspark.SparkContext: Spark 库的主要入口点，它表示与Spark集群...- pyspark.RDD: 是Spark的主要数据抽象概念，是Spark库中定义的一个抽象类。 - pyspark.streaming.StreamingContext 一个定义在Spark Streaming库中
pyspark-data-pipeline
2021-03-27 04:38

PySpark使得数据工程师、数据科学家和分析师能够以Python编程语言高效地处理大规模数据。Apache Spark是一种分布式计算框架，它提供了一个交互式环境，支持快速计算以及在内存中处理数据，从而大大提高了大数据分析...
PySpark数据分析基础：pyspark.sql.SparkSession类方法详解及操作+代码展示
2022-07-25 16:55

fanstuck的博客 SparkSQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在SparkSQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据。.........
PySpark_Tutorial
2021-03-13 04:36

而Python作为数据科学中最常用的编程语言之一，与Spark结合的PySpark为数据分析提供了强大的工具。本教程将深入探讨PySpark的核心概念和常用操作，帮助你掌握在Jupyter Notebook环境中运用PySpark进行数据处理的基本...
大数据处理需要用到的编程语言开发语言
2019-03-22 18:51

congcangnuo6739的博客你有一个大数据项目，你知道问题领域（problem domain），也知道使用什么基础设施，甚至可能已决定使用哪种框架来处理所有这些数据，但是有一个决定迟迟未能做出：我该选择哪种语言？（或者可能更有针对性的问题是，...
pyspark提交py文件指南
2023-07-31 15:48

SunnyRivers的博客它接受一个本地 Python 解释器的路径，可以是 Python 执行...然而，由于 Python 的内存管理机制的限制，以及 PySpark 中的一些兼容性问题，当使用 PySpark 编程时，可能需要单独配置 Executor 的内存使用情况，即使用。
R 语言与 Python 数据分析核心区别：选型指南与场景适配
2025-12-08 11:59

编程大师哥的博客对比维度R 语言Python统计分析专业深度第一，学术首选够用且兼容，工程化适配可视化定制化强，学术图表天花板高效实用，适配商业与开发场景数据处理结构化数据清洗高效，贴近分析思维全类型数据兼容，支持全链路自动...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月3日

pyspark的数据格式不匹配

0条回答 默认 最新

问题事件

0条回答默认最新