源数据: “1”;“00360C3360EEA3EF8648017CE3488F6A”;“2018-12-27 10:45:02”;“118.8207540”;“32.3732720”;“161389467”;“27” “1”;“00360C3360EEA3EF8648017CE3488F6A”;“2018-12-27 10:45:53”;“118.8194490”;“32.3605400”;“84343044”;“27” 提取代码: import pandas as pd table = pd.read_csv(‘userdata_31_clean.csv’,sep = ‘,’,encoding = ‘utf-8’) len=table.shape[0] #第二维长度 ind=pd.Series(list(range(len))) #创建一个一维列表数组 data=pd.DataFrame(index=(range(len)),columns=(‘id’,‘time’,‘jd’,‘wd’)) #data中加入一行数据 j=-1 for i in table.iloc[:,0]: #使用iloc方法提取table读到的数据中的第0列并用i遍历 a=i.split(‘;’) #列用“;”对i中数据进行分割 c=[a[0],a[2],a[3],a[4]] #创建一个数组由。。组成 data.values[j]=c #以行添加 j=j+1 print(data.head()) #打印data的头
#data[‘id’]=data[‘id’].astype(‘str’) ind=data[‘id’].dropduplicates() #对ID去重 for i in ind: data1=data.loc[data[‘id’]==i,:] #提取data[“id”]=i的行 name=‘userdata’+i+‘.csv’ #建立i变化的文件 data1.to_csv(name,index=False,encoding=“gbk”) #存储data1于name文件,非布尔类型 提取结果: id,time,jd,wd 1,“”“2018-12-27 10:46:24”“”,“”“118.8196860”“”,“”“32.3586430”“” 1,“”“2018-12-27 10:48:57”“”,“”“118.8257510”“”,“”“32.3325110”“” 如何使得结果为纯数字不带多余的“”“”“”。