有没有哪位用python处理过百万或者千万级别的数据集?
数据集类型: txt和sas7bdat
数据大小:6G一个数据集
待实现功能: 读取数据集,并对指定列排序
目前存在问题: 数据集太大无法读取,应该怎么读取和处理以上待实现功能?是否可告知代码?
衍生问题: 跑以上代码耗时需要多久??能否提速?
Python大数据分析处理
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
1条回答 默认 最新
关注【相关推荐】
- 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7440560
- 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:python根据txt文件路径,批量下载照片到本地
- 除此之外, 这篇博客: Python机器学习数据预处理:读取txt数据文件并切分为训练和测试数据集中的 代码实现 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
# 引入所需包 import numpy as np import random
#读取数据函数,输入为数据文件名和训练、测试切分比率,返回为list类型的训练数据集和测试数据集 def loadData(fileName,ratio): trainingData=[] testData=[] with open(fileName) as txtData: lines=txtData.readlines() for line in lines: lineData=line.strip().split(',') #去除空白和逗号“,” if random.random()<ratio: #数据集分割比例 trainingData.append(lineData) #训练数据集列表 else: testData.append(lineData) #测试数据集列表 return trainingData,testData#输入为list类型数据,分割为特征和标签两部分,返回为np.narray类型的特征数组和标签数组 def splitData(dataSet): character=[] label=[] for i in range(len(dataSet)): character.append([float(tk) for tk in dataSet[i][:-1]]) label.append(dataSet[i][-1]) return np.array(character),np.array(label)
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^解决评论 打赏 举报无用 1