Python大数据分析处理

有没有哪位用python处理过百万或者千万级别的数据集？
数据集类型: txt和sas7bdat
数据大小:6G一个数据集
待实现功能: 读取数据集，并对指定列排序
目前存在问题: 数据集太大无法读取，应该怎么读取和处理以上待实现功能？是否可告知代码？
衍生问题: 跑以上代码耗时需要多久？？能否提速？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2024-01-16 22:23
关注
【相关推荐】

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7440560
我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：python根据txt文件路径，批量下载照片到本地
除此之外, 这篇博客: Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集中的 代码实现 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
# 引入所需包 import numpy as np import random
#读取数据函数,输入为数据文件名和训练、测试切分比率，返回为list类型的训练数据集和测试数据集 def loadData(fileName,ratio): trainingData=[] testData=[] with open(fileName) as txtData: lines=txtData.readlines() for line in lines: lineData=line.strip().split(',') #去除空白和逗号“,” if random.random()<ratio: #数据集分割比例 trainingData.append(lineData) #训练数据集列表 else: testData.append(lineData) #测试数据集列表 return trainingData,testData
#输入为list类型数据,分割为特征和标签两部分，返回为np.narray类型的特征数组和标签数组 def splitData(dataSet): character=[] label=[] for i in range(len(dataSet)): character.append([float(tk) for tk in dataSet[i][:-1]]) label.append(dataSet[i][-1]) return np.array(character),np.array(label)

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

总的来说，这个大作业将帮助你掌握Python爬虫技术，理解如何从网上获取数据，以及如何利用数据可视化工具将数据转化为有意义的图形，这对于数据分析、研究或者产品决策都有着重要的作用。在实践中，你还会遇到许多...
使用Python进行大规模数据处理和分析
2024-05-27 01:53

一键难忘的博客在本文中，我们深入探讨了如何利用Python进行大规模数据处理和分析。我们首先介绍了Python在这一领域的优势，包括其开源生态系统、并行处理能力和数据可视化能力。随后，我们通过具体的代码示例展示了如何处理不同...
【Python】【数据分析】Python 数据分析与可视化：全面指南
2024-09-26 12:28

丶2136的博客本文演示了如何使用 Python 进行数据分析与可视化。关键步骤包括数据处理、分析和可视化。使用pandas进行数据清洗与分析，使用matplotlib和seaborn进行可视化，展示了不同的图表和分析结果。在实际应用中，数据分析...
【Python入门系列】第九篇：Python数据分析和处理
2023-07-05 08:16

杰西笔记的博客 Python数据分析和处理是当今数据科学领域中的重要技能之一。随着大数据时代的到来，越来越多的组织和企业需要从海量数据中提取有价值的信息。Python作为一种功能强大且易于上手的编程语言，提供了丰富的数据分析和...
Python金融大数据分析快速入门与案例详解
2024-12-13 16:52

hacker707的博客书中涵盖的内容主要有Python概览，结合金融场景演示Python的基本操作，金融数据的获取及实战，MySQL数据库详解及应用，Python在金融大数据分析方面的核心模块详解，金融分析及量化投资，Python量化交易，数据可视化...
python数据分析与可视化
2024-06-17 18:15

黎金铃的博客 Python数据分析主要包括数据清洗、数据探索和数据可视化三个部分。数据清洗是数据分析的重要环节，主要是对数据进行预处理，包括缺失值处理、异常值处理、数据类型转换等。数据探索则是通过对数据进行初步分析，了解...
【python与数据分析】Python与数据分析概述
2022-09-11 17:45

韩博士要加油鸭的博客 数据分析的介绍与Python在数据分析方面的应用
Python数据分析与处理(例题)
2022-06-03 12:00

i道i的博客 1.请用列表编程，已知某基金公司持有的股票本周成交量如下： [56200,73900,49600,67200,96000,47100,87500,101700,39500,23600] 对其中偶数下标的元素进行降序排列，奇数下标的元素不变，并输出处理后的列表内容。...
如何利用Python进行数据分析
2022-05-04 11:06

python2021_的博客今天我们主要的目标是：给大家介绍在所有的编程语言里，为什么Python能被广泛使用，甚至排名第一，给那些做数据分析相关工作和转行的小伙伴介绍数据分析行业里如何使用Python。首先介绍一下什么是编程语言。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月16日

Python大数据分析处理

1条回答 默认 最新

问题事件

1条回答默认最新