2 mangguo0824 mangguo0824 于 2017.08.28 16:57 提问

python处理文本中结构化数据的问题

图片说明
如图所示,有一批文本数据,包含学生的姓名,年龄,家乡学号以及格言,每项占一行,每名同学信息以空行隔开,现在想用python将其转换为如下形式:
图片说明

import sys,os,string

def readvote(file_in,file_ou):
fp_in = open(file_in,'r')
fp_ou = open(file_ou,'w+')
flag = ["nam","age","hom","num","txt"]
str_ou = ""
for line in fp_in:
for i in range(0,len(flag)):
sub_flag = line[0:3]
if sub_flag == flag[i]:
str_i = line[4:len(line)].replace("\n",",")
str_ou = str_ou + str_i
str_ou = str_ou[0:(len(str_ou)-1)]
fp_ou.write(str_ou)
if name =='__main__':
path_in = r"d:\v0\student.txt"
path_ou = r"d:\v1\student_v.txt"
readvote(path_in,path_ou)

结果就是这样:
图片说明

自己临时想的这个代码确实有很大的bug,也曾想过用字典来处理,但是字典的顺序是随机的,不适合处理。希望大神多多指教。谢谢

2个回答

caozhy
caozhy   Ds   Rxr 2017.08.29 00:01
已采纳
mangguo0824
mangguo0824 感谢您给的链接,看了list的一些操作使用,茅塞顿开,上午花了一点时间利用list把问题解决了,再次表示感谢!!!
3 个月之前 回复
mangguo0824
mangguo0824 感谢您给的链接,看了list的一些操作使用,茅塞顿开,上午花了一点时间利用list把问题解决了,再次表示感谢!!!
3 个月之前 回复
m0_37828248
m0_37828248   2017.08.30 00:16

看你是在转数据的格式,我建议你用pandas提供的dataframe,把数据读出来后直接就建立称dataframe,然后就可以随心所欲的处理了。
对你以后学数据分析很有用哦
#coding:utf8
import sys
from pandas import DataFrame #DataFrame通常来装二维的表格
import pandas as pd #pandas是流行的做数据分析的包

#建立字典,键和值都从文件里读出来。键是nam,age……,值是lili,jim……
dict_data={}

#打开文件
with open('file_in.txt','r')as df:
#读每一行
for line in df:
#如果这行是换行符就跳过,这里用'\n'的长度来找空行
if line.count('\n') == len(line):
continue
#对每行清除前后空格(如果有的话),然后用":"分割
for kv in [line.strip().split(':')]:
#按照键,把值写进去
dict_data.setdefault(kv[0],[]).append(kv[1])
#print(dict_data)看看效果
#这是把键读出来成为一个列表
columnsname=list(dict_data.keys())
#建立一个DataFrame,列名即为键名,也就是nam,age……
frame = DataFrame(dict_data,columns=columnsname)

#把DataFrame输出到一个表,不要行名字和列名字

frame.to_csv('file_out0.txt',index=False,header=False)

mangguo0824
mangguo0824 哦,因为今年才开始学PYTHON,后面我会加强学习这方面的知识,谢谢你,也希望后面能得到您的指点
3 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片