如何用python筛选出一个较大数据集中的子集

import random
import csv

filein = open('data/BX-Book-Ratings.csv','r')
fileout = open('data/rating1.csv','a',newline='')

for i in range(1,100):
a = random.randrange(1,10000)
if a in filein:
line = filein.readline(a)
fileout.write(line,dialect='csv')


```我有一个比较大的数据集，csv文件，数量上万，我现在只想要其中的1000条，要保证随机筛选出1000条，而不是按顺序的1000条，不知道该怎么做,代码看上面

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CALch 2019-05-15 22:02
关注
很简单，假如有10000条，生成1-10000的列表，随机打乱列表元素，以列表前1000个元素作为索引去取csv就好了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用Python将数据集分为两个子集 big data python sqlite 有问必答
2021-09-28 04:17

回答 2 已采纳 df_eedi = df[df["Technical Efficiency Index"] == "EEDI"] df_evi = df[df["Technical Efficiency Index
用python语言实现“子集和数”问题的分支限界算法 python
2022-05-28 00:54

回答 2 已采纳 def subset_sum(lst, target): for i in range(1, 2**len(lst)): pick = list(mask(lst, bin(
用Python进行一系列的数据分析问题 big data python 有问必答
2021-09-28 04:45

回答 1 已采纳数据点中的异常值处理，可参考如下方法：这个首先获取两个列数据中的四分位差IQR=Q3-Q1,a,b=df['device'].quantile([0.25,0.75])IQR=b-a获取到IQR,然后
111个Python数据分析实战项目，代码已跑通，数据可下载
2022-12-05 19:45

qazwsxpy的博客 111个Python数据分析实战项目，代码已跑通，数据可下载
python爬虫如何取出定位标签下的所有子集文本 python
2021-03-27 16:46

回答 1 已采纳将原代码中这段内容： for j in page_spec_data: for k in j.a: # print(k.string) value_word
python运算符\内置函数问题 python
2022-06-09 16:51

回答 1 已采纳 def main(lst)： temp=list(set(lst)) return sorted(temp,key=lambda x:lst.index(x))
【python】数据挖掘分析清洗——特征选择（特征筛选）方法汇总
2023-04-27 16:15

blankxxc的博客将这些特征进行筛选特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差...
python集合的函数方法操作 python 有问必答
2021-05-25 01:46

回答 4 已采纳 liA=input("请输入集合A的任意多个数值（以空格分隔）：").strip().split(" ") liB=input("请输入集合B的任意多个数值（以空格分隔）：").strip().sp
请问大佬们，我用python编写了一个id3算法，如何让让用户自己输入数据来验证这些数据对应的结果？ python
2020-01-09 10:51

回答 1 已采纳 ``` def predict(tree, labels, test_sample): """ 对单个样本进行分类 tree: 训练的字典 labels: 除
Python帮助：代码如何修改/ list list python 有问必答
2022-04-09 23:07

回答 2 已采纳 a=list(input()) 不对应该是a=list( map(int,input().split())) a=list( map(int,input().split())) min=999 for
python数据分析——数据分析的数据模型
2023-09-24 01:00

鲜于言悠905的博客在进行数据分析之前,先搭建数据分析模型,根据模型中的内容,具体细分到不同的数据指标进行细化分析,最终得到想要的分析结果或结论。在本章中,我们将讨论数学分类模型,包括最优化模型,统计模型,特别是统计推断模型,和...
python 新手python小问题 python 机器学习
2018-04-17 14:46

回答 5 已采纳调试下，if classList.count(classList[0]) == len(classList): 是否永远为真，或者len(dataSet[0]) == 1:永远不为真？
Python数据分析步骤？一个案例教你搞懂 !
2023-11-29 22:04

码农必胜客的博客本文首先将会介绍Python在数据分析领域最常见的两个包:pandas和numpy的使用，然后通过一个简单的案例巩固前面的内容。
【Python实战】数据预处理（数据清理、集成、变换、归约）
2023-03-13 20:38

愛彈吉他的小盆友的博客因疫情原因，距上次写博客已过许久这次回看以前的书籍，发现数据预处理这块在业务中极其重要业务中，数据的准确率对业务的影响至关重要好的数据往往百利而无一害，相对的，不好的数据会带来无法预期的损失管理好数据...
没有解决我的问题, 去提问

悬赏问题

¥30 matlab解优化问题代码
¥15 写论文，需要数据支撑
¥15 identifier of an instance of 类 was altered from xx to xx错误
¥100 反编译微信小游戏求指导
¥15 docker模式webrtc-streamer 无法播放公网rtsp
¥15 学不会递归，理解不了汉诺塔参数变化
¥15 基于图神经网络的COVID-19药物筛选研究
¥30 软件自定义无线电该怎样使用
¥15 R语言mediation包做中介分析，直接效应和间接效应都很小，为什么？
¥15 Jenkins+k8s部署slave节点offline

如何用python筛选出一个较大数据集中的子集

1条回答 默认 最新

悬赏问题

1条回答默认最新