mifavhalcyon 2023-02-12 23:40 采纳率: 100%
浏览 49
已结题

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence

if __name__ == '__main__':
    ws = Word2Sequence()
    path = r"D:\data\Desktop\aclImdb_v1.tar\aclImdb_v1\aclImdb\train"
    temp_data_path = [os.path.join(path,"pos"),os.path.join(path,"neg")]
    for data_path in temp_data_path:
        file_paths = [os.path.join(data_path,file_name) for file_name in os.listdir(data_path) if file_name.endswith("txt")]
        for file_path in tqdm(file_paths):
            sentence = tokenlize(open(file_path).read())
            ws.fit(sentence)
    ws.build_vocab(min=10,max_feature=5000)
    pickle.dump(ws, open("../pythonProject/ws.pkl",'rb'))   
    print(len(ws))

按照网上的解答,在open()里加入encoding
pickle.dump(ws, open("../pythonProject/ws.pkl",'rb',encoding='utf-8'))
但不论是加入encoding='utf-8'还是再加一个error='ignore'
依然报相同的错误
是不是环境的问题啊?

  • 写回答

3条回答 默认 最新

  • Yang2023. 2023-02-13 09:19
    关注
    1. 在第5行中,应将open函数的参数改为'rb';
    2. 在第13行中,应将print函数的参数改为len(ws.vocab);
    3. 在第14行中,应将open函数的参数改为'wb';

    经过修改后,代码如下:

    
    
    
    ```python
    
    
    
    if __name__ == '__main__':
        ws = Word2Sequence()
        path = r"D:\data\Desktop\aclImdb_v1.tar\aclImdb_v1\aclImdb\train"
        temp_data_path = [os.path.join(path,"pos"),os.path.join(path,"neg")]
        for data_path in temp_data_path:
            file_paths = [os.path.join(data_path,file_name) for file_name in os.listdir(data_path) if file_name.endswith("txt")]
            for file_path in tqdm(file_paths):
                sentence = tokenlize(open(file_path, 'rb').read())
                ws.fit(sentence)
        ws.build_vocab(min=10,max_feature=5000)
        pickle.dump(ws, open("../pythonProject/ws.pkl",'wb'))   
        print(len(ws.vocab))
    
    
    

    ```

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月21日
  • 已采纳回答 2月13日
  • 创建了问题 2月12日

悬赏问题

  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
  • ¥15 关于#Java#的问题,如何解决?
  • ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
  • ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
  • ¥20 BAPI_PR_CHANGE how to add account assignment information for service line
  • ¥500 火焰左右视图、视差(基于双目相机)