Tyche_BO 2019-05-05 21:45 采纳率: 0%
浏览 5544
已采纳

关于python中处理带逗号的CSV文件

现在要处理大量的TXT文件数据,txt文件中数据是用逗号分隔的,但有部分数据是本身已经含有逗号。这样就导致了我用spilt()函数分隔时造成分隔出错。请问下有python经验或者用python处理大量CSV TXT 或者excel经验的老大怎么解决这个问题。

我自己的想法是:
1,可不可在处理文件前直接把txt文件全部重命名成为CSV,然后用CSV模块出处理,这样行不行。

除了这个还有没有更加可行的方法。

另外再请问一个问题 用py来处理这种数据量大的表格 怎么实现类始于Vlookup这种功能来筛选需要的数据的方法。简单说明下就好

谢谢,小白一个 现在自学py 多谢各位老大了

  • 写回答

2条回答 默认 最新

  • huanyeliu 2019-05-05 23:09
    关注

    一个可行的办法是,在本身含有逗号的数据段两端加上引号后写入文件名结尾是.csv的文件,再用CSV模块读入这个文件导入到python自己的数据结构比如list或dictionary。
    但这个方法的前提是能够找出本身含有逗号的数据段与其他数据段所不同的特征,这样才可以利用数据段的特征在数据段两端加上引号,比如可以用python string的index,find方法或结合regular expression 模块来处理字符串。所以你最好能贴出一个txt文件的前几行,来看一下本身含有逗号的数据段有什么特点区别于其他数据段。

    另外你提到的将txt重命名为csv文件,CSV模块仍然会把本身含有逗号的一个数据段当成多个以逗号分隔的数据段,你可以用Excel打开改名后的csv件检验一下,会发现本身含有逗号的一个数据段被分成了若干列。
    你提到第二个问题可以用pandas模块来处理表格,用pandas.read_csv方法将csv文件转换成dataframe以后,可以用dataframe的join或pandas 的merge方法配合dataframe 的行索引,列索引来实现类似excel的vlookup功能来筛选数据。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 matlab中使用gurobi时报错
  • ¥15 WPF 大屏看板表格背景图片设置
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭
  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么
  • ¥15 banner广告展示设置多少时间不怎么会消耗用户价值
  • ¥16 mybatis的代理对象无法通过@Autowired装填
  • ¥15 可见光定位matlab仿真
  • ¥15 arduino 四自由度机械臂