从零开始写代码 2024-10-01 21:14 采纳率: 72.7%
浏览 1

大数据处理dask的一些问题

请看源码:

import dask.dataframe as dd

# 读取大数据集
df = dd.read_csv('../6/数据源/farming2.csv',assume_missing=True)

#数据类型转换
df['平均交易价格'] = dd.to_numeric(df['平均交易价格'], errors='coerce')
print(df['平均交易价格'].dtypes)
print(df.dtypes)
# 进行数据处理
mean_df = df['平均交易价格'].mean(numeric_only=True).compute()

请看报错

img

神奇的是,这列数据它就是数值型

img

所以这个报错很奇怪,其实目标就是为了找出“平均交易价格”这列数据的异常值由于数据量太大之前pandas一直跑不出结果就换了dask去处理,结果现在报错了,问了AI也解决不了。

以下附上数据集,感谢指点thx
[](通过网盘分享的文件:data
链接: https://pan.baidu.com/s/18YkogYGuOEHCsBC8NfioBQ?pwd=xtyd 提取码: xtyd)

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 创建了问题 10月1日

    悬赏问题

    • ¥15 微信小程序 用oss下载 aliyun-oss-sdk-6.18.0.min client报错
    • ¥15 ArcGIS批量裁剪
    • ¥15 labview程序设计
    • ¥15 为什么在配置Linux系统的时候执行脚本总是出现E: Failed to fetch http:L/cn.archive.ubuntu.com
    • ¥15 Cloudreve保存用户组存储空间大小时报错
    • ¥15 伪标签为什么不能作为弱监督语义分割的结果?
    • ¥15 编一个判断一个区间范围内的数字的个位数的立方和是否等于其本身的程序在输入第1组数据后卡住了(语言-c语言)
    • ¥15 Mac版Fiddler Everywhere4.0.1提示强制更新
    • ¥15 android 集成sentry上报时报错。
    • ¥15 抖音看过的视频,缓存在哪个文件