想搜索一特定目录下word文档中的关键词，但一直出现 'utf-8' codec can't decode

请教各位前辈：我想用python搜索一特定目录下（D:\test\）的word文档中的一个关键词（Shengaiwei）。
#!/usr/bin/python
#coding:utf8
import os

#判断文件中是否包含关键字，是则将文件路径打印出来
def is_file_contain_word(file_list, query_word):
for _file in file_list:
#if query_word in open(_file,'r',encoding = 'gbk').read():
if query_word in open(_file,'r',encoding='UTF-8'or'gbk').read():
#line.decode("utf8","ignore")#我后加的好像也不起作用
print (_file)
print("Finish searching.")

#返回指定目录的所有文件（包含子目录的文件）

def get_all_file(floder_path):
file_list = []
if floder_path is None:
raise Exception("floder_path is None")
for dirpath, dirnames, filenames in os.walk(floder_path):
for name in filenames:
file_list.append(dirpath + '\' + name)
return file_list

query_word = input("Please input the key word that you want to search:")

basedir = input("Please input the directory:")

is_file_contain_word(get_all_file(basedir), query_word)

input("Press Enter to quit.")
运行后按照要求我输入了关键词：Shengaiwei
然后输入目录文件夹：D:\test\
系统提示错误：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 14: invalid continuation byte

开始我是用： if query_word in open(_file).read():
后来用：if query_word in open(_file,'r',encoding='UTF-8'or'gbk').read():
和 if query_word in open(_file,'r',encoding='UTF-8').read():
但都没有解决问题。
为了简化操作，我目前这个目录下的文件包括文件名和文件的内容还都用的是英文的，但还是出现错误。请前辈指点，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
代码的灵魂是bug！ 2020-07-03 09:48
关注
操作word文档可以安装docx库；https://blog.csdn.net/qq_37648632/article/details/81661007

关键词查找可以用正则的方式去匹配word的内容
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想搜索一特定目录下word文档中的关键词，但一直出现 'utf-8' codec can't decode python
2020-07-03 09:28

回答 1 已采纳 1. 操作word文档可以安装docx库；https://blog.csdn.net/qq_37648632/article/details/81661007 2. 关键词查找可以用正则的方式去
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 0: invalid start byte flask python
2022-04-04 11:44

回答 2 已采纳不是应该用二进制模式传吗 with open(image_loca_path,"rb") as f:
'utf-8' codec can't decode byte 0xb2 in position 0:invalid start byte django python
2020-03-02 14:26

回答 1 已采纳 ``` 开头加上 # encoding: utf-8 或者 import sys sys.setdefaultencoding('utf-8') 并且保存你的py文件的时候选择urf8
如何使用python提取txt文档中包含特定字符串的全部行并保存到另一份txt文档中且不会出现编解码错误 'gbk' codec can't decode byte
2020-02-15 11:40

苍狼搏鹰的博客如：将a.txt中含有’TIF_HAL_API_TEST '字符串的全部行保存到b.txt文...3）关键点：在打开文件的编码时加入encoding=‘utf-8’,来解决编码出错 doc=open(‘b.txt’,‘w’,encoding=‘utf-8’) for l in open(‘a.txt...
报错：'utf-8' codec can't decode byte 0xd5 in position 98: invalid continuation byte python
2020-08-07 11:48

回答 2 已采纳读取文件编码不统一可以尝试在代码后添加命令例如 path = './PlayNow.ini' path_config.read(path,encoding='UTF-16')
Python，UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte eclipse python
2019-11-27 14:43

回答 2 已采纳 wb 改为w是试下 ``` fb = open('./report/test.html', 'w') ```
'utf-8' codec can't decode byte 0x87 in position 10: invalid start byte在mac系统里怎么消掉 ios linux python
2022-06-05 23:32

回答 8 已采纳这行打开文件的时候，加上encoding='gbk' xxx = pd.read_csv('xxxtest.csv',encoding='gbk')
gbk编码python_python的编码判断_unicode_gbk/gb2312_utf8（附函数）
2020-11-28 08:41

weixin_39866265的博客 python中，我们平常使用最多的三种编码为 gbk/gb2312, utf8 , unicode。...我们知道，unicode编码是1位 gbk，gb2312是2位 utf-8是3位所以，若只有一个汉字，我们可以通过长度来判断：len(u'啊') == 1 ...
'utf-8' codec can't decode byte 0xca in position 4 python
2017-08-10 05:48

回答 2 已采纳最后结一下帖子，我的错误是因为计算机的名字是中文的，要改成英文的所以才会报错
小白求教：Python中运行unittest.main()时出现“‘utf-8 codec can't decode byte 0xc8 in position 26: invalid continuation byte’”。请问是什么原因 python
2020-03-07 16:13

回答 1 已采纳文件保存为utf-8 这一步参考 https://blog.csdn.net/moledyzhang/article/details/78978312 源代码开头加上 ``` #coding
django启动服务时报错 UnicodeDecodeError: 'utf8' codec can't decode byte 0xcb django python
2019-04-19 00:26

回答 2 已采纳代码含有中文，并且所在py文件开头未添加编码声明
python深度学习--处理文本数据（one-hot; word Embedding)
2019-03-12 21:10

SunChao3555的博客 #出现UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 14: illegal multibyte sequence错误：添加encoding='utf-8' f=open(os.path.join(dir_name,fname),encoding='utf-8') texts.append(f...
python3，Win环境下报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 2: invalid cont python
2021-08-08 21:50

回答 2 已采纳我来解释一下，你发送的内容是中文，所以用gbk替换掉utf-8，程序都改为gbk就好了如果明白了，点击右上角给个采纳哦~
Python字符串的encode与decode研究心得乱码问题解决方法
2013-06-24 12:29

丝滑拿铁的博客简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode...
python 文本处理保留中英文和标点符号_【NLP】Python NLTK处理原始文本
2020-12-03 21:39

weixin_39622891的博客作者：白宁超2016年11月8日22:45:44摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-...
python基础
2023-04-08 20:37

haonanxu的博客点击这里，边看视频讲解，边学习以下内容有的函数执行一个流程就完了，并不需要返回什么信息，比如print函数，就是打印一下参数字符串，就完成了它的任务。但是有的函数，需要返回一个结果给调用者。比如计算两个...
计算机二级Python基本排序题-序号46（补充）
2024-01-21 20:39

—Miss. Z—的博客要求：在文件PY301-1.py中补充代码，对文件data.txt的内容进行清理，去除中文标点符号，只保留中文、英文、数字、英文标点符号等字符，将结果输出到文件clean.txt中。示例如下：德国工业4.0战略计划实施建议摘编机械...
Python 基础（一）
2021-12-29 10:10

chengRantianxia的博客 Python 文件中如果未指定编码，在执行过程会出现报错： #!/usr/bin/python print ("你好，世界") 以上程序执行输出结果为： File "test.py", line 2 SyntaxError: Non-ASCII character '\xe4' in file test.py ...
没有解决我的问题, 去提问

悬赏问题

¥15 winform的chart曲线生成时有凸起
¥15 msix packaging tool打包问题
¥15 finalshell节点的搭建代码和那个端口代码教程
¥15 用hfss做微带贴片阵列天线的时候分析设置有问题
¥15 Centos / PETSc / PETGEM
¥15 centos7.9 IPv6端口telnet和端口监控问题
¥20 完全没有学习过GAN，看了CSDN的一篇文章，里面有代码但是完全不知道如何操作
¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
¥20 海浪数据南海地区海况数据，波浪数据
¥20 软件测试决策法疑问求解答

想搜索一特定目录下word文档中的关键词，但一直出现 'utf-8' codec can't decode

1条回答 默认 最新

悬赏问题

1条回答默认最新