HaHaHarry1126 2021-07-28 20:15 采纳率: 100%
浏览 440
已结题

Pandas df.to_csv后数据丢失

执行以下语句

df.info()
df.to_csv(file,index=False,sep=',',encoding='utf_8_sig')
df=pd.DataFrame(pd.read_csv(file,encoding='utf_8_sig'))
df.info()

得到了如下输出:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6723 entries, 0 to 6722
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   cmt_id          6723 non-null   int64  
 1   info_id         6723 non-null   int64  
 2   cmt_user_id     6723 non-null   int64  
 3   publish_time    6723 non-null   object 
 4   cmt_time        6723 non-null   object 
 5   diff_time       6723 non-null   float64
 6   platform        6723 non-null   object 
 7   post            6723 non-null   object 
 8   cmt_content     6723 non-null   object 
 9   post_view       4098 non-null   object 
 10  post_like       6723 non-null   object 
 11  post_dislike    6723 non-null   object 
 12  post_cmt        6559 non-null   object 
 13  post_repost     1965 non-null   object 
 14  cmt_like        5630 non-null   object 
 15  cmt_dislike     5630 non-null   object 
 16  cmt_reply       4336 non-null   object 
 17  cmt_repost      4460 non-null   object 
 18  user_gender     3091 non-null   object 
 19  user_score      4572 non-null   object 
 20  user_post_star  4048 non-null   object 
 21  user_reply      993 non-null    object 
 22  user_post       4572 non-null   object 
 23  user_friend     993 non-null    object 
dtypes: float64(1), int64(3), object(20)
memory usage: 1.2+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6723 entries, 0 to 6722
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   cmt_id          6723 non-null   int64  
 1   info_id         6723 non-null   int64  
 2   cmt_user_id     6723 non-null   int64  
 3   publish_time    6723 non-null   object 
 4   cmt_time        6723 non-null   object 
 5   diff_time       6723 non-null   float64
 6   platform        6723 non-null   object 
 7   post            6419 non-null   object 
 8   cmt_content     6723 non-null   object 
 9   post_view       4098 non-null   float64
 10  post_like       2081 non-null   float64
 11  post_dislike    1767 non-null   float64
 12  post_cmt        6544 non-null   float64
 13  post_repost     1446 non-null   float64
 14  cmt_like        0 non-null      float64
 15  cmt_dislike     0 non-null      float64
 16  cmt_reply       0 non-null      float64
 17  cmt_repost      124 non-null    float64
 18  user_gender     2622 non-null   object 
 19  user_score      4065 non-null   float64
 20  user_post_star  3579 non-null   float64
 21  user_reply      519 non-null    float64
 22  user_post       4103 non-null   float64
 23  user_friend     148 non-null    float64
dtypes: float64(15), int64(3), object(6)
memory usage: 1.2+ MB

可以看到有很多列都出现了数据丢失,问题应该出在to_csv函数,因为路径文件内就有丢失。(网上提到编码,但肯定不是编码的问题)
请问为什么会出现这样的情况?如何解决?

  • 写回答

1条回答 默认 最新

  • HaHaHarry1126 2021-07-29 00:23
    关注

    问题已经解决了,来自stack overflow top 0.2%的大佬
    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 8月6日
  • 已采纳回答 7月29日
  • 创建了问题 7月28日

悬赏问题

  • ¥50 使用CUDA如何高效的做并行化处理,是否可以多个分段同时进行匹配计算处理?目前数据传输速度有些慢,如何提高速度,使用gdrcopy是否可行?请给出具体意见。
  • ¥15 基于STM32,电机驱动模块为L298N,四路运放电磁传感器,三轮智能小车电磁组电磁循迹(两个电机,一个万向轮),如何通过环岛的原理及完整代码
  • ¥20 机器学习或深度学习问题?困扰了我一个世纪,晚来天欲雪,能饮一杯无?
  • ¥15 c语言数据结构高铁订票系统
  • ¥15 关于wkernell.PDB加载的问题,如何解决?(语言-c#|开发工具-vscode)
  • ¥15 (标签-STM32|关键词-智能小车)
  • ¥20 关于#stm32#的问题,请各位专家解答!
  • ¥15 (标签-python)
  • ¥20 搭建awx,试了很多版本都有错
  • ¥15 java corba的客户端该如何指定使用本地某个固定IP去连接服务端?