关于用pandas.read_csv函数清洗txt文本数据的问题

文件如下图所示，是药品的说明书

这个文本文件里有几十万个这样的商品资料
我要把这个文本文件处理成一个表格

就是把每一行的说明书抬头【】里的文字，作为pandas表格的列名，把后面的内容作为这一列的内容
有简便的方法实现吗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

繁华落尽，寻一世真情 2021-05-03 23:08

关注

你这是公开数据集吗？如果是，麻烦也发我个连接，如果不是那就算了。我刚才写了份代码，应该是能实现你的要求

# -*- coding:utf-8 -*-
import pandas as pd
import re
import numpy as np
import os
import glob
pd.set_option('display.max_columns', None)  #设置显示总行数


def max_columns_dataframe(data_path):
    #返回药品说明书中最多的列
    num = []
    for i,path in enumerate(data_path): #
        df = pd.read_csv(path,encoding="utf-8")
        columns = df[df.columns.tolist()[0]].apply(lambda x:str(x)[:str(x).find("】")].replace("【","")) 
        num.append(len(columns))
    file = data_path[num.index(max(num))] #找出列明最多的文件
    df = pd.read_csv(file,encoding="utf-8")
    columns = df[df.columns.tolist()[0]].apply(lambda x:str(x)[:str(x).find("】")].replace("【","")) 
    columns_name = columns.values.tolist()
    index = re.findall("\d", df.columns.tolist()[0], flags=0)[0]  #获取商品ID
    dicts = dict.fromkeys(columns_name)
    pf = pd.DataFrame([dicts],index=[index])  #创建新datafrom    
    return pf.dropna()

data_path = glob.glob("*txt")
pf = max_columns_dataframe(data_path)
#添加数据
for file in data_path:
    df = pd.read_csv(file,encoding="utf-8")
    columns = df[df.columns.tolist()[0]].apply(lambda x:str(x)[:str(x).find("】")].replace("【",""))
    columns_name = columns.values.tolist()
    index = re.findall("\d", df.columns.tolist()[0], flags=0)[0]  #获取商品ID
    dicts = dict.fromkeys(columns_name)
    tf = pd.DataFrame([dicts],index=[index])  #创建新datafrom
    for i,j in zip(columns_name,df.values.tolist()):
        if j[0].find(i) == 1:
            #tf[i] = df.values.tolist()[0][0].split("】")[1]
            tf[i] = j[0].split("】")[1]
        else:
            tf[i] = np.nan
    pf = pd.concat([pf,tf])
pf.sort_index(inplace=True) #根据索引排序
pf.to_csv("药品说明书预处理.csv")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

Pandas df.to_csv后数据丢失 python 数据分析机器学习
2021-07-28 20:15

回答 1 已采纳问题已经解决了，来自stack overflow top 0.2%的大佬
pandas read_csv sep 逗号作为分隔符 python
2022-05-11 15:59

回答 7 已采纳可能是你本地的csv文件有问题吧，我把这里的代码和文件内容复制到自己机器上，结果是正常的打印两次可能是因为你目录下有两个文件，一个是CSV文件，另一个不是CSV文件，然后内容还是一样的，你把fil
python中dtype()函数用法 python
2022-11-25 12:27

回答 2 已采纳 import pandas as pd # 读入外部数据 data3 = pd.read_csv('deaths.csv') #####begin##### print(data3.info())
详解python中的pandas.read_csv()函数
2024-06-10 17:15

程序员洲洲的博客详解python中的pandas.read_csv()函数
怎么将biao.csv中的数据用train_test_split划分第一次接触求帮助 python
2021-07-01 23:30

回答 1 已采纳代码里面不是已经使用train_test_split 划分了么？
关于python pandas的几个问题 python
2021-12-03 16:07

回答 1 已采纳官网上有demo，看pandas官网就行
python timedelta python
2022-11-06 18:56

回答 1 已采纳这不是报错只是警告而已不影响程序运行的
Python pandas.read_csv函数方法的使用
2024-06-03 21:10

weixin_42098295的博客 pandas.read_csv 是 Pandas 库中最常用的函数之一，用于读取 CSV 文件并将其转换为 DataFrame。header: 用作列名的行号，默认为 0（第一行）。index_col: 用作行索引的列号或列名。skiprows: 要跳过的行数或行号列表...
tensorflow中model.fit（）函数输入参数报错，如何解决？ python tensorflow 有问必答机器学习
2022-04-12 01:32

回答 2 已采纳 loss不是binary_crossentropy？
PYTHON EXCEL转换CSV并汇总成一个文件 list python 人工智能
2019-07-13 12:48

回答 5 已采纳之前有人问类似的问题，要C#的，我用C#写了一个给他，结果那人拿了程序就跑了，再也不采纳 https://download.csdn.net/download/caozhy/10585160
python中isnull()函数用法 python
2022-11-25 20:57

回答 1 已采纳 import pandas as pd # 读入外部数据 data3 = pd.read_csv('deaths.csv') #####begin##### null_sum = data3.is
python pandas.read_csv()函数详解
2021-03-24 15:20

lienGu的博客这里将更新最新的最全面的read_csv()函数功能以及参数介绍，参考资料来源于官网。目录pandas库简介csv文件格式简介函数介绍函数原型函数参数以及含义输入返回函数使用实例 pandas库简介官方网站里详细说明了pandas...
Python数据处理之Pandas（pandas.read_csv函数详解）
2020-01-15 20:29

bigcindy的博客 pandas.read_csv参数整理读取CSV（逗号分割）文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html 参数： filepath_or_buffer: str，...
【Pandas】pandas.read_csv 详解与实战应用：从CSV文件中读取数据
2024-08-01 19:41

I'mAlex的博客在数据分析与科学中，CSV（Comma-Separated...Pandas 提供了强大的 read_csv 函数来读取 CSV 文件并将其转换为 DataFrame。这篇博客将详细讲解 read_csv 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。
Python之Pandas：pandas.read_csv()函数的简介、具体案例、使用方法详细攻略
2020-10-13 20:59

一个处女座的程序猿的博客 Python之Pandas：pandas.read_csv()函数的简介、具体案例、使用方法详细攻略目录 read_csv()函数的简介 read_csv()函数的简介 pd.read_csv('data.csv') pandas.read_csv(filepath_or_buffer, sep='...
没有解决我的问题, 去提问

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

码龄粉丝数原力等级 --

关于用pandas.read_csv函数清洗txt文本数据的问题

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

关于用pandas.read_csv函数 清洗txt文本数据的问题

2条回答 默认 最新

悬赏问题

关于用pandas.read_csv函数清洗txt文本数据的问题

2条回答默认最新