kaggle fashion-mnist.csv python的问题

本人python小白,在网上东拼西凑弄的代码

 >>> def toInt(array):
    array=mat(array)
    m,n=shape(array)
    newArray=zeros((m,n))
    for i in range(m):
        for j in range(n):
            newArray[i,j]=int(array[i,j])
    return newArray

>>> def nomalizing(array):
    m,n=shape(array)
    for i in range(m):
        for j in range(n):
            if array[i,j]!=0:
                array[i,j]=1
    return array

>>> import csv
>>> def loadTrainData():
    l=[]
    with open('fashion-mnist_train.csv') as file:
        lines=csv.reader(file)
        for line in lines:
            l.append(line)
    l.remove(l[0])
    l=array(l)
    label=l[:,0]
    data=l[:,1:]
    return nomalizing(toInt(data)),toInt(label)

>>> def loadTestData():
    l=[]
    with open('test_data.csv') as file:
        lines=csv.reader(file)
        for line in lines:
            l.append(line)
    l.remove(l[0])
    l=array(l)
    data=l[:,1:]
    return nomalizing(toInt(data))

>>> def loadTestResult():
    l=[]
    with open('sample_submission.csv') as file:
        lines=csv.reader(file)
        for line in lines:
            l.append(line)
    l.remove(l[0])
    label=array(l)
    return toInt(label[:,1])
    >>> def classify0(inX, dataSet, labels, k):
    inX=mat(inX)
    dataSet=mat(dataSet)
    labels=mat(labels)
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = array(diffMat)**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    classCount={}
    for i in range(k):
        voteIlabel = labels[0,sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
    >>> import KNN
>>> from numpy import *
>>> import operator
>>> def handwritingClassTest():
    trainData,trainLabel=loadTrainData()
    testData=loadTestData()
    testLabel=loadTestResult()
    m,n=shape(testData)
    errorCount=0
    resultList=[]
    for i in range(m):
        classifierResult = classify0(testData[i], trainData, trainLabel, 5)
        resultList.append(classifierResult)
        print ("the classifier came back with: %d, the real answer is: %d") % (classifierResult, testLabel[0,i])
        if (classifierResult != testLabel[0,i]): errorCount += 1.0
    print ("\nthe total number of errors is: %d") % errorCount
    print ("\nthe total error rate is: %f") % (errorCount/float(m))
    saveResult(resultList)
>>> handwritingClassTest()

运行了3个多小时,运行过程中的图片如下图片说明

结果如下
图片说明

result.csv也在桌面上显示了,但是为0字节

求问各位大神,如何修改code呢?是不是再次运行还得3个小时呀、

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
kaggle fashion-mnist.csv python问题
[b][code=python]rn>>> import csvrn>>> import KNNrn>>> from numpy import *rn>>> import operatorrn>>> def toInt(array):rn array=mat(array)rn m,n=shape(array)rn newArray=zeros((m,n))rn for i in range(m):rn for j in range(n):rn newArray[i,j]=int(array[i,j])rn return newArrayrnrn>>> def nomalizing(array):rn m,n=shape(array)rn for i in range(m):rn for j in range(n):rn if array[i,j]!=0:rn array[i,j]=1rn return arrayrn>>> def loadTrainData():rn l=[]rn with open('fashion-mnist_train.csv') as file:rn lines=csv.reader(file)rn for line in lines:rn l.append(line)rn l.remove(l[0])rn l=array(l)rn label=l[:,0]rn data=l[:,1:]rn return nomalizing(toInt(data)),toInt(label)rnrn>>> def loadTestData():rn l=[]rn with open('test_data.csv') as file:rn lines=csv.reader(file)rn for line in lines:rn l.append(line)rn l.remove(l[0])rn l=array(l)rn data=l[:,1:]rn return nomalizing(toInt(data))rnrn>>> def loadTestResult():rn l=[]rn with open('sample_submission.csv') as file:rn lines=csv.reader(file)rn for line in lines:rn l.append(line)rn l.remove(l[0])rn label=array(l)rn return toInt(label[:,1])rn>>> def classify0(inX, dataSet, labels, k):rn inX=mat(inX)rn dataSet=mat(dataSet)rn labels=mat(labels)rn dataSetSize = dataSet.shape[0]rn diffMat = tile(inX, (dataSetSize,1)) - dataSetrn sqDiffMat = array(diffMat)**2rn sqDistances = sqDiffMat.sum(axis=1)rn distances = sqDistances**0.5rn sortedDistIndicies = distances.argsort()rn classCount=rn for i in range(k):rn voteIlabel = labels[0,sortedDistIndicies[i]]rn classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1rn sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)rn return sortedClassCount[0][0]rn>>> def handwritingClassTest():rn trainData,trainLabel=loadTrainData()rn testData=loadTestData()rn testLabel=loadTestResult()rn m,n=shape(testData)rn errorCount=0rn resultList=[]rn for i in range(m):rn classifierResult = classify0(testData[i], trainData, trainLabel, 5)rn resultList.append(classifierResult)rn print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, testLabel[0,i]))rn if (classifierResult != testLabel[0,i]): errorCount += 1.0rn print ("\nthe total number of errors is: %d" % errorCount)rn print ("\nthe total error rate is: %f" % (errorCount/float(m)))rn saveResult(resultList)rn>>> handwritingClassTest()rnrn[/code]rn运行过程如下图,总共10000个数据:rn[img=https://img-bbs.csdn.net/upload/201710/11/1507705724_227428.png][/img]rnrn运行了3个多小时,结果如下图:rn[img=https://img-bbs.csdn.net/upload/201710/11/1507705760_572556.png][/img]rnrn错误率如此之高,而且还有error……桌面上有个result.csv,但是是0字节rn求问各位大神,如何修改code呢?是不是再次运行还得3个多小时、[/b]
kaggle入门(python数据处理)
目前入坑机器学习machine learning,kaggle算是最著名的机器学习比赛(其实主要是特征工程),所以如果想走算法岗,光理论肯定不行,一定要实战,就拿kaggle开刀了,不求多好的结果,但求通过参与的过程对数据挖掘有更好的贴近数据项目的体验,最近与DC的Oliver组成了jo-team。开始一步一步踏坑了,下面是我看到的一些数据处理以及训练的方法,主要是python的。best paac
kaggle泰坦尼克号python和r
之前用了一阵子spss modeler,自己整了r,后来发现国内高手都用python,发现了网上两篇类似的python和r写的文章,这里加上原文链接,可以一起学习: 1:python版本链接:http://blog.csdn.net/longxinchen_ml/article/details/49798139 2:r语言版本链接:http://blog.csdn.net/xmuecor/ar
kaggle的手写识别比赛(python sklearn-KNN)
如果你想知道怎么玩一下kaggle?那这篇文章就非常适合你了。 Kaggle练手项目:https://www.kaggle.com/c/digit-recognizer 0~9的手写体识别。 项目简要: 训练集:第一列为标签列,其余784列为对应像素点的明亮程度(28*28的图像) 测试集:给你N*784列的像素点,让你判断这N样本的手写输入。 解题思路:使用KNN算法,测算临近5个训练集是什么数字,选择投票最高的。
kaggle上的Python机器学习入门教程
This notebook is a companion to the book Data Science Solutions (https://www.amazon.com/Data-ScienceSolutions-Startup-Workflow/dp/1520545312). The notebook walks us through a typical workflow for solving data science competitions at sites like Kaggle. There are several excellent notebooks to study data science competition entries. However many will skip some of the explanation on how the solution is developed as these notebooks are developed by experts for experts. The objective of this notebook is to follow a step-by-step workflow, explaining each step and rationale for every decision we take during solution development.
python机器学习kaggle竞赛之路
想参加比赛的亲们快看过来啊,加油,你们也可以的! 《Python机器学习及实践:从零开始通往Kaggle竞赛之路》面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具,如Scikit-learn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。   《Python机器学习及实践:从零开始通往Kaggle竞赛之路》共分4章。第1章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikit-learn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。
《Python机器学习kaggle案例》-- 网易云课堂
《Python机器学习kaggle案例》-- 网易云课堂 https://study.163.com/course/courseMain.htm?courseId=1003551009   numpy--python科学计算库 pandas--Python数据分析处理库 scikit-learn -- Python机器学习库   titannic数据   Variable ...
kaggle 激活问题
激活了半天,没有成功。 验证提示 果断上百度查了一下,原来激活用到了google captcha人机验证 怎么翻墙呢,之前用的laod hosts已经下载不了了。 试着自己建立批处理,用nslookup 从dns:8.8.8.8刷出能ping通的ip,但是,刷了一批能用的ip,将该ip放入host文件,总是提示拒绝连接,不知道搞什么鬼。用host看来是行不通。 网上有人说注册
kaggle房价预测问题
参考:https://blog.csdn.net/m0_37870649/article/details/80979783 sklean的线性模型完成kaggle房价预测问题 https://www.kaggle.com/c/house-prices-Advanced-regression-techniques 赛题给我们79个描述房屋的特征,要求我们据此预测房屋的最终售价,即对于测试集中每个房屋...
Kaggle 注册问题
一、需求        需要在kaggle上下载数据集,在下载之前必须登录kaggle,因此需要注册一个kaggle账号。 二、问题        注册kaggle账号时总是激活不了,提示验证失败,没有出现人机验证的界面。 三、解决方案        需要下载一个hosts文件,下载的hosts文件用来替换系统中的hosts文件,文件的位置是:C:\Windows\System32\dr...
Kaggle问题总结1
目录 文章目录目录前言账号验证ie失败电话号码验证API数据下载 前言 Kaggle是一个国际级的数据科学比赛网站,上面有很多相应的数据比赛可以参加。 但是参加这个比赛不容易,账号注册,验证等等都会遇到很多问题,本文对作者参加比赛过程中遇到的问题进行一个小小的总结,希望能帮助到后来的各位。 账号验证 账号验证这一块儿的坑在于,如果你用普通浏览器是不行的. ie失败 直接点击邮件里的activate...
PYTHON机器学习及实践-通往KAGGLE竞赛
从零开始通往KAGGLE竞赛之路\PYTHON机器学习
Kaggle - 图片脏文档清洗-python
10 概述 消除印刷文本的噪音 待处理图片 处理后 方案 方案一 删除背景 import numpy as np from PIL import Image from scipy import signal def load_image(path): # 将矩阵中的值空值在0-1范围内 归一化 return np...
python机器学习及其实践--从零开始kaggle之路
此资源是我在学习kaggle时入手的第一个资料,写的很好,浅显易懂,而且还是高清版的pdf所以有需要的人可以自行下载。
Python机器学习实践与Kaggle实战 配套代码
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》帮助对机器学习、数据挖掘感兴趣的读者整合时下流行的基于Python语言的程序库。如Scikit-learn,Pandas, NLTK,Gensim, XGBoost,TensorFlow等,并且针对现实中遇到的数据,甚至是Kaggle竞赛中的分析任务,快速搭建有效的机器学习系统。   同时,作者尽力减少读者为了理解本书,而对编程技能、数学背景的过分依赖,进而降低机器学习模型的实践门槛,让更多的兴趣爱好者体会到使用经典模型以及新的高效方法解决实际问题的乐趣。
Python机器学习实战与Kaggle实战之路
python机器学习实战,只要8分,就可以通往年薪30万,还等什么,快来啊
【Kaggle实战】Python进行泰坦尼克生存预测
Kaggle泰坦尼克生存预测 一、问题 ——预测坦坦尼克号乘客的存活状态 二、数据理解 1.数据来源: https://www.kaggle.com/c/titanic/data 得到两个csv文件: ① train.csv:包含一部分乘客的基本信息和生存状态。 ② test.csv:包含了另一部分乘客的基本信息,无生存状态,需要建模预测。 2.导入包和数据 #导入包 import numpy a...
python 常用数据可视化函数 kaggle House Price
import missingno as msno import pandas as pd import matplotlib.pyplot as plt #读入数据并简单描述 train = pd.read_csv(r'G:\MachineLearning\data\HousePricePrediction\train.csv') train.describe() #无效矩阵数据密集显示 m...
基于Python的Kaggle案例分析(一)
预测来自电子商务站点的搜索结果的准确性 案例大纲: 1、案例背景 2、数据预处理 3、特征工程 4、模型实现 1、案例背景        目前,小型在线企业没有很好的方法来评估其搜索算法的性能,使得他们难以提供卓越的客户体验。这个比赛的目的是创建一个可以用来衡量搜索结果相关性的开源模型,要求评估搜索算法准确性。        训练数据属性包括:         -----
python机器学习及实践 kaggle竞赛之路
python机器学习及实践——从零开始通往kaggle竞赛之路
注册kaggle帐号及kaggle绑定手机收不到验证码的问题
由于自己在这上面折腾了不少时间,故写下这篇博客,希望对大家有用。 一、注册kaggle帐号 点击进入kaggle网站 kaggle网站 1.点击sign in 2.如果有雅虎、google、facebook账户的话,是可以直接登录的。如果没有这些账户,就点击Register with email >> 3.然后填写相关信息,如下图 4.填写完成后再勾选相关协议,同意后就会向你填写的...
数据挖掘-kaggle
对数据挖掘、机器学习感兴趣,自己也觉得是未来的职业发展挑战,看到这篇博文(http://geek.csdn.net/news/detail/208138)很受启发,文章中提到了kaggle,觉得以后可以在kaggle上举办的竞赛中获得锻炼相关链接: 1. http://blog.csdn.net/u012162613/article/details/41929171 2. https://www
Kaggle笔记
kaggle比赛:https://www.kaggle.com/competitions 在这里可以看到一些机器学习中数据分析的问题,同时在kernels中可以看到哪些技术能够比较好的解决对应的 经验贴:https://zhuanlan.zhihu.com/p/22266330 预测titanic上的人是否会幸存: https://www.kaggle.com/c/titani
kaggle初探
传说kaggle是一个提供了机器学习比赛的地方,作为一个初学者,也想去看一看。于是搜索了一些kaggle入门的文章,决定从提供了指导的泰坦尼克预测下手。 Titanic: Machine Learning from Disaster  https://www.kaggle.com/c/titanic/data 一、首先看看概述(overview),需要我们干什么。 1.1描述     “I...
Kaggle数据处理
Brief introduction import pandas as pd from sklearn.model_selection import train_test_split # Read the data X_full = pd.read_csv('../input/train.csv', index_col='Id') X_test_full = pd.read_csv('../in...
【kaggle】入门
小记 前几个月开始玩kaggle,顺便巩固下自己的机器学习知识,记录一些常用到的代码~ 删除数据的方式 #行删除 train = train.drop(train[(train['GrLivArea']>4000)].index) #列删除 train.drop("Id", axis = 1, inplace = True) 连接数据 [PANDAS 数据合并与重塑(...
kaggle入门
Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台,Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。 Kaggle 是 Google 旗下的数据建模和数据分析竞赛平台,其上汇集了大量的数据建模和数据分析比赛。本文主要对 Kaggle 比赛进行整理和汇...
kaggle泰坦尼克
转载 作者:karmalk 来源:CSDN 原文:https://blog.csdn.net/karmacode/article/details/78884986 版权声明:本文为博主原创文章,转载请附上博文链接!
kaggle(二):最大利润问题
这是一个监督学习求解最大利润的题目。给很多人去放款贷款,目的是预测这些贷款的人会不会还款;如果还,标签为1,说明银行预测正确,可以得到利润;如果不还,标签为0,银行不可以得到利润。模型预测之后,和真实的标签去对比,评估模型的好坏。这道题牵扯到了比kaggle(一)更多的属性特征和样本数,(二)更多的数据清洗操作;(三)模型评估指标的应用。# coding: utf-8 import pandas ...
关于kaggle填电话号码的问题
kaggle需要电话号码认证,但是一开始输电话号码的时候老是被告知输入不正确。 多次尝试后发现是格式的问题。 天朝手机号的国际长途号码是在自己的手机号前加上“+86”,比如号码132 xxxx xxxx,对应的国际长途电话号码格式应为 +86 132 xxxx xxxx。 在kaggle认证的那里填电话号码的时候要加“-”哦,比如上面的号码,在kaggle那里填的就是 +86-132-xxxx-...
解决Kaggle无法注册问题
kaggle注册需要链接外网 首次注册kaggle时会向邮件发送激活链接,如下图: 但是点击链接后,会越到无法验证的情况。因为验证需要链接外网,需要使用VPN软件(经推荐手机下载了一款VPN app,用手机解决了验证问题)。 当成功验证后,再次登陆就不需要链接VPN了。 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅...
kaggle文本分类
import pandas as pd from keras.layers import Dense,LSTM,Bidirectional,Embedding from keras.models import Sequential import keras.preprocessing as preprocessing from nltk.corpus import stopwords from ...
【Kaggle】手机验证
先要科学上网! 手机前要加+860,例如你的手机是123456789,那么在手机号码那里填+860123456789 勾选人机验证 发送验证 填写验证码即可
Kaggle入门
由于选修了数据挖掘课程,课程作业是完成Kaggle上的一个比赛,所以在机缘巧合下就知道了Kaggle这个平台,事实上我认为这是用来练手数据挖掘的一个绝佳场所。这篇文章适合和我一样刚接触Kaggle的朋友,对于已经熟悉这个平台的朋友,欢迎指出我的错误,必定虚心受教。本文分为两个部分,第一部分简单介绍在上面完成比赛的流程,第二部分以手写数字识别为例子详细描述完成比赛的整个过程。 1、Kaggle
Kaggle 开始!
出发  今天开始记录kaggle的学习历程,主要还是搬运一些大神的notebook。共勉!
Kaggle学习笔记
最近在学习kaggle,分享下学习笔记,很值得收藏看之又看。
kaggle:黑色星期五
kaggle上关于零售商店中黑色星期五的55万条观察数据集,包含不同类型的数字或分类变量,包含缺失值。
kaggle数据集
数据集合适合机器学习入门者的数据集合,可以用来进行特征提取,降维,基础算法测试。
初识kaggle,以及记录 kaggle的使用
版权声明:本文为博主原创文章,未经博主允许不得转载。1.简介:Kaggle是一个数据建模和数据分析竞赛的平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛,通过“众包”的形式以产生最好的模型。Kaggle可以分为Competitions竞赛、Datasets数据集以及Kernel内核三个子平台、配套的Forum论坛模块以及供各类公司或组织招聘人才的Jobs模块。2.进行 账...
Kaggle手机验证码无法发送问题
Kaggle手机验证码无法发送问题解决方法 我们参加kaggle的竞赛时,可能需要验证手机号。 若手机号前+860无法发送短信验证码,可能是发送前的人机验证无法加载,此时就需要科学上网才能正常加载(与注册账号时一样)。 验证后便可顺利发送短信验证码了。 注:验证码居然发自浙江绍兴的联通号...
相关热词 c# 线程结束时执行 c# kb mb 图片 c# 替换第几位字符 c#项目决定成败 c# 与matlab c# xml缩进 c#传感器基础 c#操作wps c# md5使用方法 c# 引用父窗口的组件