UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence

if __name__ == '__main__':
    ws = Word2Sequence()
    path = r"D:\data\Desktop\aclImdb_v1.tar\aclImdb_v1\aclImdb\train"
    temp_data_path = [os.path.join(path,"pos"),os.path.join(path,"neg")]
    for data_path in temp_data_path:
        file_paths = [os.path.join(data_path,file_name) for file_name in os.listdir(data_path) if file_name.endswith("txt")]
        for file_path in tqdm(file_paths):
            sentence = tokenlize(open(file_path).read())
            ws.fit(sentence)
    ws.build_vocab(min=10,max_feature=5000)
    pickle.dump(ws, open("../pythonProject/ws.pkl",'rb'))   
    print(len(ws))

按照网上的解答，在open()里加入encoding
pickle.dump(ws, open("../pythonProject/ws.pkl",'rb',encoding='utf-8'))
但不论是加入encoding='utf-8'还是再加一个error='ignore'
依然报相同的错误
是不是环境的问题啊？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

Yang2023. 2023-02-13 09:19

关注

在第5行中，应将open函数的参数改为'rb'；
在第13行中，应将print函数的参数改为len(ws.vocab)；
在第14行中，应将open函数的参数改为'wb'；

经过修改后，代码如下：


```python



if __name__ == '__main__':
    ws = Word2Sequence()
    path = r"D:\data\Desktop\aclImdb_v1.tar\aclImdb_v1\aclImdb\train"
    temp_data_path = [os.path.join(path,"pos"),os.path.join(path,"neg")]
    for data_path in temp_data_path:
        file_paths = [os.path.join(data_path,file_name) for file_name in os.listdir(data_path) if file_name.endswith("txt")]
        for file_path in tqdm(file_paths):
            sentence = tokenlize(open(file_path, 'rb').read())
            ws.fit(sentence)
    ws.build_vocab(min=10,max_feature=5000)
    pickle.dump(ws, open("../pythonProject/ws.pkl",'wb'))   
    print(len(ws.vocab))

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence nlp python
2023-02-12 23:40

回答 3 已采纳在第5行中，应将open函数的参数改为'rb'；在第13行中，应将print函数的参数改为len(ws.vocab)；在第14行中，应将open函数的参数改为'wb'；经过修改后，代码如下：
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb0 in position 18: illegal multibyte sequence python
2021-12-27 10:34

回答 6 已采纳这个CSV到底时啥编码呀。发邮件给我看看。hndm@qq.com
python 3.8安装第三方包（pip install）报 unicodedecodeerror错误，请教！ python windows
2022-08-05 17:25

回答 1 已采纳把你的-r去掉
解决：UnicodeDecodeError: gbk codec can t decode byte 0xaf in position 349: illegal multibyte sequenc
2023-10-14 21:19

micol～的博客不能识别GBK。
使用pip instal -r requirements.txt安装的时候报错如下： python 有问必答
2022-03-26 18:10

回答 2 已采纳把 requirements.txt 贴出来研究一下一般来说 requirements.txt 只包含库及版本试试修改下 requirements.txt pip
UnicodeDecodeError：“gbk”编解码器问题 pycharm python 有问必答
2021-11-29 23:08

回答 3 已采纳题主这个代码从哪搞来的，应该好老了。采集的这个页面已经不存在了，跳转到http://quote.eastmoney.com/center/gridlist.html#hs_a_board这个页面，这个
UnicodeDecodeError python
2021-06-28 17:10

回答 1 已采纳 etree解析是不支持编码声明的Unicode字符串的可以用response.content
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9a in position 27: illegal multibyte sequence怎么办
2024-02-04 16:10

嘬一口冰美式的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 27: illegal multibyte sequence怎么解决。
出现了错误UnicodeDecodeError python 有问必答
2022-02-12 11:52

回答 4 已采纳 stopword = [line.strip() for line in open(filepath, 'r').readlines()] 这一行的open()中加 encoding='utf-8'
python办公自动化 python 正则表达式
2022-09-10 14:10

回答 2 已采纳 f=open(r'D:\政府工作报告.txt')改成f = open(r'D:\政府工作报告.txt', 'r', encoding='utf-8')试试？
Python文件读取无法显示 python
2022-07-25 14:14

回答 4 已采纳编码不正确1.先打开txt，另存为，把编码格式改为utf82.open方法后面加参数，encoding='utf8'编码一致才能读出来
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 198: illegal multibyte sequence
2022-12-07 20:06

AI浩的博客 'gbk' codec can't decode byte 0x80 in position 198: illegal multibyte sequence 读取data的yaml文件遇到了无法解析的字符。原因分析新版本的YoloV5，在yaml文件里有个小火箭的图标 # YOLOv5 by Ultralytics, ...
有哪位能帮我看一下代码？ python
2022-07-14 14:23

回答 1 已采纳 with open('国家、首都名.txt', encoding='utf8')as file
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 2467: illegal multibyte sequence
2023-04-02 02:31

半宿su的博客报错 & 解决方法 UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2467: illegal multibyte sequence
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c in position 62: illegal multibyte sequence
2023-06-12 18:06

川上川下山的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x8c in position 62: illegal multibyte sequence。解决办法
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x98 in position 1130: illegal multibyte sequence
2023-04-24 10:22

初学者5213的博客今天在使用yolov5运行的时候报错，UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x98 in position 1130: illegal multibyte sequence，仔细看着像是编码问题，请看下图：提示说这行有问题，直接双击点...
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 218: illegal multibyte sequence
2022-10-21 21:07

Vertira的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 218: illegal multibyte sequence
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x98 in position 1093: illegal multibyte sequence
2022-09-09 13:48

落花雨12138的博客把Yolov5项目代码下载运行时，出现 “UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x98 in position 1093: illegal multibyte sequence” 报错，不过并不影响程序运行和图像的检测，最后还是觉得看一下这...
关于 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9a in position 52: illegal multibyte sequence
2023-04-18 21:56

少年xyz的博客 Python 的 open 方法默认编码取决于平台，如果是 Windows 平台，默认编码是 gbk，如果文件是 utf-8 编码，就会报这个错误。最近学习，python file文件，读取文件内容的时候报错了。
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x82 in position 9891: illegal multibyte sequence
2022-11-04 10:54

桃子小迷妹的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x82 in position 9891: illegal multibyte sequence
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月12日

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新