机器学习编程中遇到的问题

import dask.dataframe as dd
import pandas as pd
import numpy as np
import sys

# change the location of the downloaded test file as necessary.
infile="text/test.csv"
#infile="kaggle/sample.csv"
outfile="sample_solution.csv"

# Make sure you are using 64-bit python.
if sys.maxsize < 2**32:
    print("You seem to be running on a 32-bit system ... this dataset might be too large.")
else:
    print ("Hurray! 64-bit.")

# read file
alldata = dd.read_csv(infile)
alldata = alldata.set_index('Id')

def marshall_palmer(ref, minutes_past):
    #print "Estimating rainfall from {0} observations".format(len(minutes_past))
    # how long is each observation valid?
    valid_time = np.zeros_like(minutes_past)
    valid_time[0] = minutes_past.iloc[0]
    for n in range(1, len(minutes_past)):
        valid_time[n] = minutes_past.iloc[n] - minutes_past.iloc[n-1]
    valid_time[-1] = valid_time[-1] + 60 - np.sum(valid_time)
    valid_time = valid_time / 60.0

    # sum up rainrate * validtime
    sum = 0
    for dbz, hours in zip(ref, valid_time):
        # See: https://en.wikipedia.org/wiki/DBZ_(meteorology)
        if np.isfinite(dbz):
            mmperhr = pow(pow(10, dbz/10)/200, 0.625)
            sum = sum + mmperhr * hours
    return sum


# each unique Id is an hour of data at some gauge
def myfunc(hour):
    #rowid = hour['Id'].iloc[0]
    # sort hour by minutes_past
    hour = hour.sort('minutes_past', ascending=True)
    est = marshall_palmer(hour['Ref'], hour['minutes_past'])
    return est

# this writes out the file, but there is a bug in dask
# where the column name is '0': https://github.com/blaze/dask/pull/621
estimates = alldata.groupby(alldata.index).apply(myfunc, columns='Expected')
estimates.to_csv(outfile, header=True)

这段代码报错如下：

TypeError: myfunc() got an unexpected keyword argument 'columns'
ValueError: Metadata inference failed in `groupby.apply(myfunc)`.

试了网上说的升级pandas没有用，我的pandas为1.2.4

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-07 17:23
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
看下这篇博客，也许你就懂了，链接：机器学习中常用的评估指标

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习特征值训练遇到的难题 python 人工智能机器学习
2023-01-04 04:04

回答 2 已采纳（1）特征值是列表，如何构造输入取决于特征值的属性。如果列表中每一项元素有明确的属性，原则上可以展开为特征向量。（2）你的问题中列表长度不同，就要搞清楚列表元素到底是什么，才能考虑如何构造输入。（
机器学习中的估计集是什么人工智能机器学习
2023-02-08 21:05

回答 3 已采纳估计集是机器学习中用来估计模型参数的样本集，其中每个样本都有一个与之相关联的标签。估计集与其他样本集的关系是，估计集用来估计模型参数，而其他样本集用来测试模型的性能好坏。
机器学习特征重要程度问题 python 人工智能机器学习
2020-12-22 17:33

回答 11 已采纳就是特征值这两个类的占比。比如特征值等于1 ，a类占比多少，b类占比多少。这两个占比区分度越大，对目标值越有可能高权值
人工智能知识全面讲解：什么问题适合用机器学习方法解决？
2022-06-21 15:25

Lee达森的博客 机器学习不是万能的，不能解决所有的问题。机器学习擅长的是通过已知经验找到规律去解决问题。如果我们面对的问题没有任何规律可循，完全是一个随机事件，那么使用再复杂的机器学习算法也无济于事。值得注意的是...
机器学习交叉验证问题人工智能机器学习
2022-03-29 20:00

回答 1 已采纳我觉得可能是数据的问题。我之前做叶绿素，验证集也是一直低于训练，但是这是没问题的，可能是数据量太小的缘故，但是我那个数据量提升也还是验证loss低于训练
关于机器学习中knn算法的一些问题 python 机器学习
2022-05-21 15:34

回答 1 已采纳好家伙，你这特征数量真心不少。KNN的核心是计算距离，你这个特征这么多，计算的复杂度就会很高，不知道你用的距离算法，也不知道你CPU能不能受的住。减少特征的数量，比如颜色特征，看看能
python机器学习书中案例出现ValueError问题 python 数据分析机器学习
2021-10-14 00:30

回答 1 已采纳跟你训练集有关吧，检查下X-train
人工智能、机器学习、深度学习和神经网络的关系
2022-07-09 01:02

star.29的博客深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标--人工智能。神经网络的研究领域主要包括：模式识别、信号处理、知识工程、专家系统、优化组合、机器人控制等。.........
机器学习方法自动分类遇到plt显示空白图的问题 python 分类机器学习
2022-11-13 22:00

回答 1 已采纳我复现了你的问题，是matplotlib版本问题，你的版本太高了。我测试的另一个版本3.3.4可以显示结果。 3.3.4可以显示。3.5.0不能显示
机器学习有关特征处理的问题 python 有问必答机器学习
2023-01-04 20:38

回答 3 已采纳当数据特征的量级差别很大的时候，通常会使用归一化来解决这个问题。归一化的方法有很多，比如将数值缩放到固定范围内，比如 [-1, 1]；或者将数值缩放到 [0, 1] 区间内。这种方法可以让所有的特征在
机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
【AI】人工智能复兴的推进器之机器学习
2023-12-22 23:57

giszz的博客 机器学习是一种科学方法，它通过训练算法，使计算机系统能够从数据中自动学习、识别模式并做出决策。这种方法利用统计学、概率论、优化理论等数学工具，结合算法设计和计算机编程，实现对数据的自动分析和预测。机器...
机器学习python问题 python 机器学习神经网络
2022-09-24 21:21

回答 1 已采纳如果你的数据集够多，可以用网络训练。但听你的描述，感觉大概是非线性规划，就是有目标方程和多种目标条件限制，比如说求利润最大，里面要考虑运输成本，人的行为博弈，还有人数安排。我推荐你可以先看看一些启发式
2021 年最值得学习的 5 大机器学习编程语言！
2021-01-12 07:00

hzbooks的博客【导读】绝大部分提起机器学习想到的第一编程语言就是 Python，而Python也的确是学习机器学习的利器。但现在，如果想研究更多的编程语言，那你还有其他4种语言可选。译者 | 弯月 ...
机器学习中的异常检测
2022-03-14 13:51

Imagination官方博客的博客 机器学习最常用的应用程序之一是异常检测。寻找和识别异常有助于防止欺诈、对手攻击和网络入侵，所有这些都可能危及公司的未来。在这篇文章中，我们将讨论如何进行异常检测，可以使用哪些机器学习技术，...
没有解决我的问题, 去提问

悬赏问题

¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用

机器学习编程中遇到的问题

1条回答 默认 最新

悬赏问题

1条回答默认最新