基于统计分析的电影数据处理

出现以下错误，关键词错误


KeyError                                  Traceback (most recent call last)
<ipython-input-16-7df382df59c7> in <module>()
     20 #__________________
     21 # load the dataset
---> 22 credits = load_tmdb_credits('D:/Datamovies/tmdb_5000_movies.csv')
     23 credits.head()
KeyError: 'cast'

import json
import pandas as pd
#___________________________
def load_tmdb_movies(path):
    df = pd.read_csv(path)
    df['release_date'] = pd.to_datetime(df['release_date']).apply(lambda x: x.date())
    json_columns = ['genres', 'keywords', 'production_countries',
                    'production_companies', 'spoken_languages']
    for column in json_columns:
        df[column] = df[column].apply(json.loads)
    return df
#___________________________
def load_tmdb_credits(path):
    df = pd.read_csv(path)
    json_columns = ['cast', 'crew']
    for column in json_columns:
        df[column] = df[column].apply(json.loads)
    return df
#___________________
LOST_COLUMNS = [
    'actor_1_facebook_likes',
    'actor_2_facebook_likes',
    'actor_3_facebook_likes',
    'aspect_ratio',
    'cast_total_facebook_likes',
    'color',
    'content_rating',
    'director_facebook_likes',
    'facenumber_in_poster',
    'movie_facebook_likes',
    'movie_imdb_link',
    'num_critic_for_reviews',
    'num_user_for_reviews']
#____________________________________
TMDB_TO_IMDB_SIMPLE_EQUIVALENCIES = {
    'budget': 'budget',
    'genres': 'genres',
    'revenue': 'gross',
    'title': 'movie_title',
    'runtime': 'duration',
    'original_language': 'language',
    'keywords': 'plot_keywords',
    'vote_count': 'num_voted_users'}
#_____________________________________________________
IMDB_COLUMNS_TO_REMAP = {'imdb_score': 'vote_average'}
#_____________________________________________________
def safe_access(container, index_values):
    # return missing value rather than an error upon indexing/key failure
    result = container
    try:
        for idx in index_values:
            result = result[idx]
        return result
    except IndexError or KeyError:
        return pd.np.nan
#_____________________________________________________
def get_director(crew_data):
    directors = [x['name'] for x in crew_data if x['job'] == 'Director']
    return safe_access(directors, [0])
#_____________________________________________________
def pipe_flatten_names(keywords):
    return '|'.join([x['name'] for x in keywords])
#_____________________________________________________
def convert_to_original_format(movies, credits):
    tmdb_movies = movies.copy()
    tmdb_movies.rename(columns=TMDB_TO_IMDB_SIMPLE_EQUIVALENCIES, inplace=True)
    tmdb_movies['title_year'] = pd.to_datetime(tmdb_movies['release_date']).apply(lambda x: x.year)
    # I'm assuming that the first production country is equivalent, but have not been able to validate this
    tmdb_movies['country'] = tmdb_movies['production_countries'].apply(lambda x: safe_access(x, [0, 'name']))
    tmdb_movies['language'] = tmdb_movies['spoken_languages'].apply(lambda x: safe_access(x, [0, 'name']))
    tmdb_movies['director_name'] = credits['crew'].apply(get_director)
    tmdb_movies['actor_1_name'] = credits['cast'].apply(lambda x: safe_access(x, [1, 'name']))
    tmdb_movies['actor_2_name'] = credits['cast'].apply(lambda x: safe_access(x, [2, 'name']))
    tmdb_movies['actor_3_name'] = credits['cast'].apply(lambda x: safe_access(x, [3, 'name']))
    tmdb_movies['genres'] = tmdb_movies['genres'].apply(pipe_flatten_names)
    tmdb_movies['plot_keywords'] = tmdb_movies['plot_keywords'].apply(pipe_flatten_names)
    return tmdb_movies


import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import math, nltk, warnings
from nltk.corpus import wordnet
from sklearn import linear_model
from sklearn.neighbors import NearestNeighbors
from fuzzywuzzy import fuzz
from wordcloud import WordCloud, STOPWORDS
plt.rcParams["patch.force_edgecolor"] = True
plt.style.use('fivethirtyeight')
mpl.rc('patch', edgecolor = 'dimgray', linewidth=1)
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "last_expr"
pd.options.display.max_columns = 50
%matplotlib inline
warnings.filterwarnings('ignore')
PS = nltk.stem.PorterStemmer()
#__________________
# load the dataset
credits = load_tmdb_credits('D:/Datamovies/tmdb_5000_movies.csv')
credits.head()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间优质创作者: Java、后端开发技术领域 2024-03-22 19:03
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
该错误是KeyError，即键错误。出现这个错误的原因是在载入数据集时，在load_tmdb_credits函数中，json_columns中的一个键'cast'在数据中不存在。可能是由于数据集中缺失了这个键或者它被命名为其他名称。为了解决这个错误，可以使用以下代码来在函数中增加一个检查：
def load_tmdb_credits(path): df = pd.read_csv(path) json_columns = ['cast', 'crew'] for column in json_columns: if column not in df.columns: # 注意这里的检查 print(f"Error: {column} column not found in dataset.") return None df[column] = df[column].apply(json.loads) return df

这样，在读取json_columns前，函数会检查当前DataFrame是否包含这些列，如果不存在，它会输出一个错误消息并返回None。这样，我们就可以在该错误出现时快速发现问题所在。案例：假设我们要读取一个文件mydata.csv，其中包含以下两列：'A'和'B'，但是我们意外地删除了'B'列，现在我们尝试读取数据：

import pandas as pd df = pd.read_csv('mydata.csv') print(df['B'])

这将产生一个KeyError，因为'B'列不存在。我们现在可以使用上述代码将其修改为：

import pandas as pd df = pd.read_csv('mydata.csv') if 'B' not in df.columns: print("Error: B column not found in dataset.") else: print(df['B'])

这样，我们就可以得到一个错误消息并且知道问题所在。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Spark的电影数据集分析
2022-06-24 12:52

使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集，以Python为编程语言，使用大数据框架Spark对数据进行了预处理，然后分别从多个方面对数据进行了分类和分析，并对分析结果进行可视化。...
基于Python编程语言实现数据处理与可视化分析的开源项目_数据清洗统计分析机器学习数据可视化PandasNumPyMatplotlibSeabornJupyter.zip
2025-09-13 10:10

基于Python编程语言实现数据处理与可视化分析的开源项目_数据清洗统计分析机器学习数据可视化PandasNumPyMatplotlibSeabornJupyter.zip
基于python的新冠疫情数据分析.zip
2020-06-27 22:47

首先，Python是当前数据科学领域广泛使用的编程语言，它具有丰富的库和模块，使得数据处理和分析变得简单易行。在这个项目中，我们重点使用了`requests`库，这是一个用于发送HTTP请求的Python库，它允许我们从网络上...
美国总统大选捐款数据分析与可视化项目_该项目基于Python编程语言利用PandasNumPy等数据处理库对美国大选捐款数据集进行深度清洗整合与统计分析通过Matplotl.zip
2025-12-10 16:25

美国总统大选捐款数据分析与可视化项目_该项目基于Python编程语言利用PandasNumPy等数据处理库对美国大选捐款数据集进行深度清洗整合与统计分析通过Matplotl.zip
从零开始掌握R语言：数据处理、统计分析与可视化【书籍推荐】
2024-11-02 14:05

一键难忘的博客在数据驱动的时代，掌握数据分析与可视化的技能尤为重要。R语言作为一个统计分析工具，具备强大的数据处理、建模与绘图功能。本篇文章将带领读者逐步掌握R语言统计分析与可视化，从基本操作到高级应用。
基于Hadoop的豆瓣电影影评数据分析(大作业报告)
2024-06-20 10:30

To be No.1026的博客目标是获取影评数据，并进行统计分析和可视化展示。基本步骤包括环境搭建、数据采集、数据分析和数据可视化。 2.环境搭建 2.1系统环境 Linux的版本采用的是centos7 内存2GB 处理器4 硬盘20GB 图2-1 2.2 编程环境 1....
Spark 大数据实战：基于 RDD 的大数据处理分析
2024-01-19 20:09

汪子熙的博客是一个开源的、快速而通用的集群计算系统，提供了高级的数据处理接口，包括Spark SQLMLlib（机器学习库）和GraphX（图计算库）。Spark的一个主要特点是能够在内存中进行数据处理，从而大大加速计算速度。Scala编程...
基于Python的豆瓣电影评论数据分析与可视化（开源代码）
2024-03-09 12:08

AI小张的博客本研究旨在通过对豆瓣电影评论数据的分析和可视化，探讨用户对电影的喜好、评分规律、热门电影等方面的信息，为电影制作公司和相关行业提供参考。通过研究豆瓣电影评论数据，可以了解用户对电影的偏好和口碑，为电影...
基于地震数据的Spark数据处理与分析
2023-12-29 16:17

lyc_QAQ的博客 5.根据经纬度获取地名针对全球重大地震数据进行分析，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并对结果进行数据可视化。
Python 高级实战：基于自然语言处理的情感分析系统
2024-06-26 08:11

摸五休二的博客在大数据和人工智能迅猛发展的今天，自然语言处理（NLP）作为人工智能的重要分支，已经深入到我们的日常生活和工作中。情感分析作为NLP中的一个重要应用，广泛应用于市场分析、舆情监控和客户反馈等领域。本文将讲述...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月22日

基于统计分析的电影数据处理

2条回答 默认 最新

问题事件

2条回答默认最新