SparkSQL编程：DataFrame创建

为什么我已经改了数据类型还是报错啊，希望各位帮助解决一下


org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 377, in main
    process()
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 372, in process
    serializer.dump_stream(func(split_index, iterator), outfile)
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 400, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 99, in wrapper
    return f(*args, **kwargs)
  File "/usr/local/spark/python/pyspark/sql/session.py", line 730, in prepare
    verify_func(obj)
  File "/usr/local/spark/python/pyspark/sql/types.py", line 1391, in verify
    verify_value(obj)
  File "/usr/local/spark/python/pyspark/sql/types.py", line 1372, in verify_struct
    verifier(v)
  File "/usr/local/spark/python/pyspark/sql/types.py", line 1391, in verify
    verify_value(obj)
  File "/usr/local/spark/python/pyspark/sql/types.py", line 1317, in verify_integer
    verify_acceptable_types(obj)
  File "/usr/local/spark/python/pyspark/sql/types.py", line 1280, in verify_acceptable_types
    % (dataType, obj, type(obj))))
TypeError: field id: IntegerType can not accept object '3' in type <class 'str'>


```python
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession

spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

#设置模式信息
schema = StructType([StructField("id",IntegerType(),True),StructField("name",StringType(),True),StructField("gender",StringType(),True),StructField("age",IntegerType(),True)])

#创建RDD
employeeRDD = spark.sparkContext.parallelize(["3 Mary F 26","4 Tom M 23"]).map(lambda x:x.split(" "))

#创建Row对象
rowRDD = employeeRDD.map(lambda p:Row(int(p[0].strip()),p[1].strip(),p[2].strip(),int(p[3].strip())))

#建立Row对象与模式之间的对应关系，即把数据与模式对应起来
employeeDF = spark.createDataFrame(employeeRDD,schema)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
星拱北辰 Python领域优质创作者 2023-03-27 15:25
关注
我试着回答一下：

这个错误的原因是因为 employeeRDD 是一个包含字符串的 RDD，当使用 createDataFrame() 函数创建 DataFrame 时，Spark 无法将字符串转换为模式中定义的整数类型，因此会抛出 TypeError 异常。
解决方法是使用 rowRDD 替换 employeeRDD，因为 rowRDD 中的数据已经按照模式定义进行了类型转换。
最后一行代码改为employeeDF = spark.createDataFrame(rowRDD,schema)

如果我的回答对你有帮助，还望采纳

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

SparkSQL编程：DataFrame创建 mysql spark
2023-03-27 15:02

回答 2 已采纳我试着回答一下：这个错误的原因是因为 employeeRDD 是一个包含字符串的 RDD，当使用 createDataFrame() 函数创建 DataFrame 时，Spark 无法将字符串转换为
求解答:dataframe求各班的及格率 python 有问必答
2021-11-22 23:38

回答 1 已采纳可以先取出及格人数的数据框，再用groupby分组计数。参考代码： import pandas as pd df=pd.DataFrame({'id':[2101,2102,2103,2104,210
python报错：AttributeError: 'DataFrame' object has no attribute 'stopword' python 有问必答
2022-04-07 14:48

回答 5 已采纳 1.读取文件路径要改一下：stopwords = pandas.read_csv("D:/demo/stopwords.txt",encoding='utf-8',index_col=False,qu
SparkSQL编程-DataFrame
2024-05-30 10:56

早拾碗吧的博客【代码】SparkSQL编程-DataFrame。
AttributeError: 'DataFrame' object has no attribute 'itemtype' python
2020-02-01 16:13

回答 3 已采纳用hasattr判断下是否有'itemtype' 属性，如果没有就跳过或者加上默认值，根据你的需要。 https://www.cnblogs.com/cheyunhua/p/11016127.htm
Python创建dataframe python
2022-05-09 10:21

回答 1 已采纳你说啥问题
结巴分词时，AttributeError: 'DataFrame' object has no attribute 'decode'， python 有问必答
2021-09-12 19:53

回答 1 已采纳 jieba的cut方法，接受的参数为str类型，而你的参数ecom_info是一个dataframe。你应该先将ecom_info转换为str类型才可以，或者用apply对dataframe具体的值应
SparkSql编程之《DataFrame转换操作》
2022-02-24 17:56

IMezZ的博客创建DataFrame val df = spark.read.json("input/people.json") 二、DataFrame上的转化操作 1、where操作 df.where("name='Andy'").show() |age|name| +---+----+ | 30|Andy| 2、查询操作（1）select ...
AttributeError: 'DataFrame' object has no attribute 'label'问题很简明却一直搜不到解决方法 python pytorch 人工智能有问必答
2021-10-20 22:24

回答 3 已采纳我不清楚我下载的spambase.csv和你的是不是一个文件，就是一个垃圾邮件分类的吧，这个csv文件的第一行是从1-58，第58列是标签，就没有“label”这一列，所以才会报错。spambase.
如何创建Pandas DataFrame格式 python
2022-12-22 18:36

回答 2 已采纳一、你要把‘Date’设置为索引df.set_index('Date',inplace=True)二、要把时间戳转换为数据中的日期时间对象df = df.rename(index=pd.Timesta
数据处理问题：在dataframe中以已知某列映射出新列 python
2021-05-03 12:12

回答 2 已采纳这是改进版 >>> import pandas as pd >>> import numpy as np >>> df = pd.DataFr
SparkSQL编程之DataFrame详解
2020-08-14 08:19

小刘同学-很乖的博客在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和...
python：对dataframe拆分使用透视表的np.sum之后，小数位数改变了 python 数据分析有问必答
2022-02-14 15:50

回答 3 已采纳这个应该是精度问题吧试试math.fsum
SparkSQL【概述，DataFrame核心编程】
2022-09-03 08:00

OneTenTwo76的博客文章目录一 SparkSQL概述 1 SparkSQL是什么 2 Hive and SparkSQL 3 SparkSQL特点 4 DataFrame是什么 5 DataSet是什么二 SparkSQL核心编程 1 新的起点 2 DataFrame （1）创建DataFrame 从Spark数据源进行创建（2）...
SparkSQL 之 DataFrame&DataSet
2023-09-01 15:01

是阿威啊的博客 sparkSQL中的dataframe和dataset的知识记录
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

SparkSQL编程：DataFrame创建

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新