原文件数据格式:userdata_31_clean.csv
数据提取代码:
import pandas as pd
table = pd.read_csv('userdata_31_clean.csv',sep = ',',encoding = 'utf-8')
len=table.shape[0] #第二维长度
ind=pd.Series(list(range(len))) #创建一个一维列表数组
data=pd.DataFrame(index=(range(len)),columns=('id','time','jd','wd')) #data中加入一行数据
j=-1
for i in table.iloc[:,0]: #使用iloc方法提取table读到的数据中的第0列并用i遍历
a=i.split(';') #列用“;”对i中数据进行分割
c=[a[0],a[2],a[3],a[4]] #创建一个数组由。。组成
data.values[j]=c #以行添加
j=j+1
print(data.head()) #打印data的头
#data['id']=data['id'].astype('str')
ind=data['id'].drop_duplicates() #对ID去重
for i in ind:
data1=data.loc[data['id']==i,:] #提取data["id"]=i的行
name='userdata_'+i+'.csv' #建立i变化的文件
data1.to_csv(name,index=False,encoding="gbk") #存储data1于name文件,非布尔类型
提取结果:
如何删除提取的数据中多余的""""""?