python读取csv，中文输出乱码

问题描述
进行聊天记录可视化的过程中，用python读取csv文件，某一列是中文，输出是乱码

相关代码

import pandas as pd
import sys

print(sys.getdefaultencoding())    # 获得系统编码

cols = ["Type", "SubType", "IsSender", "CreateTime", "StrContent"]
data = pd.read_csv('myfile.csv', usecols=cols, encoding='ISO-8859-1')  

print(type(data))
print(type(data.itertuples()))

msgContent = ""    # 定义空字符串
for index, msgType, SubType, IsSender, createTime, content in data.itertuples():
    if index<=5:
        msgContent += content
        print(msgContent)
        break

运行结果

我的初步解决思路
查看了系统编码和部分数据类型，见上面的代码
参考网上的教程，尝试了不同的编码和解码方法，见下。

engine ='python'    # 读取文件时加上这句，输出仍是乱码
msgContent.encode('ISO-8859-1','ignore').decode('ISO-8859-1')    # 输出仍是乱码
msgContent.encode('gbk','ignore').decode('gbk')    # 输出仍是乱码
msgContent.encode('gbk','ignore').decode('utf-8')    # 报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
msgContent.encode('gb18030','ignore').decode('gbk')    # 报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position 0: illegal multibyte sequence

无法解决这个问题。如果输出是乱码，做成的词云图全是英文，因为文本消息之外的其他消息都是英文存储的，有点像html
求解决办法！！
Tips: 需要自建一个有中文的csv文件运行程序，并作一些读取上的修改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

20条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师 Java领域新星创作者 2024-02-04 10:54
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，您可以参考如下，如果回答的不正确，及时评论区回复我，我会根据你错误描述追加回复。如果解决了您的问题，麻烦帮我点击个采纳！谢谢您的肯定！
根据您的描述和尝试过的解决方案，您在读取CSV文件中包含中文的部分时遇到了乱码问题。由于您的CSV文件中的中文编码似乎不是ISO-8859-1，因此尝试了多种编码方式但未成功。

建议您首先确定CSV文件的实际编码方式。您可以使用一些工具（如Notepad++、Sublime Text等）查看文件的编码格式。

这里提供一种可能的解决方案：

import pandas as pd # 假设CSV文件实际编码为UTF-8 data = pd.read_csv('myfile.csv', usecols=cols, encoding='utf-8') # 或者尝试GB18030编码（针对某些旧的中文编码文件） data = pd.read_csv('myfile.csv', usecols=cols, encoding='gb18030') msgContent = "" for index, msgType, SubType, IsSender, createTime, content in data.itertuples(): if index <= 5: msgContent += content print(msgContent) break

如果以上两种编码方式都无效，请确保CSV文件没有损坏或被错误地转换过编码。另外，在创建CSV文件时应保持一致性，确保其内容始终使用相同的字符编码进行保存。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(19条)

报告相同问题？

关注问题

一个python读取csv文件对指定列求和问题 python 开发语言
2022-02-14 15:21

回答 5 已采纳 import pandas as pd df=pd.read_csv('d:/data/newly_confirmed_cases_daily.csv') num=df.Akita.sum() pr
python 读取csv时出现特殊符号如何解决 python
2021-12-01 15:48

回答 2 已采纳 with open('读取文件.csv',encoding='utf-8') as f: for line in f: sendemail = int(line[:line.
python读取csv文件并将字符转化为浮点型 python 有问必答
2021-06-16 22:23

回答 4 已采纳我大概知道问题了，你原来再excel读过来的数据，最终转换成了一个numpy的数组。而我们现在的结果还是一个列表。你可以尝试在现在的基础上添加以下内容： import numpy as np
python读取csv，中文输出乱码的解决方案
2024-08-25 08:00

爱编程的喵喵的博客本文主要介绍了python读取csv，中文输出乱码的解决方案，希望能对使用Python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案
python读取csv文件 python
2022-04-26 15:45

回答 2 已采纳换成绝对路径，或者放到程序的启动目录，而且如果你是压缩着的，要解压
python修改csv文件后读取csv文件失败 python
2022-04-24 16:46

回答 1 已采纳不要用utf-8 换成gbk
python 读取csv文件报错，如何解决？ python
2022-07-01 22:42

回答 2 已采纳少了个单引号KFC = pd.read_csv(r'/Users/31736/Desktop/Final Test for Data Analysis (KFC).csv')
python读取csv中文乱码_Python读取 csv文件中文乱码处理
2020-11-30 10:01

weixin_39827315的博客需求：按行解析读取csv文件存入关系型数据库——主要是中文字体解析；遇到的问题：直接解析出来的数据为list形式，而且编码格式为unicode;解决问题：前提了解：中文编码的规则 —— GB2312字符串在Python内部的表示...
Python读取csv文件后str转换为float python
2018-02-02 08:39

回答 4 已采纳 >>> a="-1" >>> float(a) -1.0 >>> a="-" >>> float(a) Traceba
python读取csv文件修改 python 有问必答
2022-03-25 09:28

回答 4 已采纳 import pandas as pd csvobj=pd.read_csv('1.csv') Profitability=[] Cost=list(csvobj["Cost"]) Paid=list
Python读取csv文件如何计算某列为空的另一列的和 python 后端数据挖掘有问必答
2022-01-12 10:13

回答 2 已采纳那就做两次筛选，不用切片用 isna 或者 isnull 函数
Python 读取csv文件，解决中文乱码问题
2022-05-17 10:08

bingbangx的博客 python读取csv文件，解决中文乱码问题当读取csv文件时，发现文件读进python后会出现中文乱码的情况：最简单粗暴的方式，设置读取的格式问题，并将引擎设置为python： data = pd.read_csv('爱奇艺视频数据....
请问python如何读取csv文件某列时保留空值？ python 机器学习
2019-11-07 05:02

回答 4 已采纳你取了一列带空值的dataFrame，统计元素个数的时候用这个dict(data['Gender'].value_counts()) 就是默认去掉空值，那你画图也就没有空值了，你可以用这个：dic
python输出csv文件中文乱码-Python读取 csv文件中文乱码处理
2020-11-11 15:14

weixin_39992312的博客需求：按行解析读取csv文件存入关系型数据库——主要是中文字体解析；遇到的问题：直接解析出来的数据为list形式，而且编码格式为unicode;解决问题：前提了解：中文编码的规则 —— GB2312字符串在Python内部的表示...
python——python2读取csv文件中文乱码问题
2023-05-29 19:56

兰泽S的博客 csv文件中，中文gbk编码改为utf-8编码
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家修改了标签 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月4日
展开全部

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

python读取csv，中文输出乱码

20条回答 默认 最新

问题事件

悬赏问题

20条回答默认最新