Quant_Joker 2024-01-16 19:33 采纳率: 0%
浏览 5

Python大数据分析处理

有没有哪位用python处理过百万或者千万级别的数据集?
数据集类型: txt和sas7bdat
数据大小:6G一个数据集
待实现功能: 读取数据集,并对指定列排序
目前存在问题: 数据集太大无法读取,应该怎么读取和处理以上待实现功能?是否可告知代码?
衍生问题: 跑以上代码耗时需要多久??能否提速?

  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2024-01-16 22:23
    关注

    【相关推荐】



    • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7440560
    • 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:python根据txt文件路径,批量下载照片到本地
    • 除此之外, 这篇博客: Python机器学习数据预处理:读取txt数据文件并切分为训练和测试数据集中的 代码实现 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
      # 引入所需包
      import numpy as np
      import random
      #读取数据函数,输入为数据文件名和训练、测试切分比率,返回为list类型的训练数据集和测试数据集
      def loadData(fileName,ratio):   
          trainingData=[]
          testData=[]
          with open(fileName) as txtData:
              lines=txtData.readlines()
              for line in lines:
                  lineData=line.strip().split(',')    #去除空白和逗号“,”
                  if random.random()<ratio:             #数据集分割比例
                      trainingData.append(lineData)   #训练数据集列表
                  else:
                      testData.append(lineData)       #测试数据集列表
          return trainingData,testData
      #输入为list类型数据,分割为特征和标签两部分,返回为np.narray类型的特征数组和标签数组
      def splitData(dataSet):  
          character=[]
          label=[]
          for i in range(len(dataSet)):
              character.append([float(tk) for tk in dataSet[i][:-1]])
              label.append(dataSet[i][-1])
          return np.array(character),np.array(label)

    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

问题事件

  • 创建了问题 1月16日