python3 word="0"的编码如何变为“utf-8”

python3 最近要通过python实现搜索文件中的关键词出现次数的功能，定义输入的关键字字符串为word=""，代码从docx文件读取编码为"utf-8"，然后进行匹配搜索。目前输入word="1",word="0"都会报错，word="1234"就不会报错，分析大概是**编码问题**导致的。总的来说，我希望检索“0”这个字符串在某个word文档中出现的次数；是需要从word加载的内容全部转为unicode或者utf-8编码再匹配查找吗？目前“0”会在循环的某个判断停掉：if i.find(word) != -1:，关于在匹配关键词时用什么编码这块比较小白，希望大神可以帮忙看下：

# -*- coding: UTF-8 -*-
from docx import Document
import re, chardet
filename = "D:\python测试\科目四.docx"
word = "米".encode(encoding='utf-8')
#打开文档
document = Document(filename)
print (filename)
#读取每段资料
l = [paragraph.text.encode(encoding='utf-8', errors='ignore') for paragraph in document.paragraphs]
count = 0
count_2 = 0
j = 0
for i in l:
    i = i.strip()
    if i.find(word) != -1:
        count = count + 1
        j = j + 1
        print('-', count, '-', i.decode('utf-8'))
        print("计数： ", j)
        count_2 = count_2 + j
print("该篇中出现字符的个数为:", count_2)

每次报错不一样，有时就是直接循环结束但最后一个print没有执行，也没有任何报错，和输入word参数有关:
图片说明
如果把编码全部去掉，大部分输入没问题，但是当word="0"时最后一个print没输出，这个如何解释
############################
刚才又改了下，如果加try就会运行正确，不加try就不打印最后一个print：

如下是正确的输出：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
吃鸡王者 2019-09-25 17:00
关注
话说，你为什么要编码后去匹配字符串啊？
直接以str类型来匹配有问题吗？

-*- coding: UTF-8 -*-

from docx import Document
import re, chardet
filename = "D:\python测试\科目四.docx"
word = "米"
#打开文档
document = Document(filename)
print (filename)
#读取每段资料
l = [paragraph.text for paragraph in document.paragraphs]
count = 0
count_2 = 0
j = 0
for i in l:
i = i.strip()
if i.find(word) != -1:
count = count + 1
j = j + 1
print('-', count, '-', i)
print("计数： ", j)
count_2 = count_2 + j
print("该篇中出现字符的个数为:", count_2)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python3 word="0"的编码如何变为“utf-8” python
2019-09-25 13:53

回答 2 已采纳话说，你为什么要编码后去匹配字符串啊？直接以str类型来匹配有问题吗？ # -*- coding: UTF-8 -*- from docx import Document import re
python如何将hex转为utf-8 python 有问必答
2021-06-19 15:33

回答 2 已采纳 n1=65 print(chr(n1)) n1=97 print(chr(n1)) s="\xe0" s.encode('raw_unicode_escape') print(s)
python如何实现批量修改文件编码为utf8 python
2018-03-18 11:09

回答 5 已采纳此处用的是python2，main函数为主函数，请采纳，如有疑问，请回复。 ``` # coding = utf-8 import os path = r"D:\课件临时\2" d
python3设置编码为utf8,Python3：解码转换为字符串的UTF-8字节
2020-11-23 13:48

V豚的博客 Suppose I have something like:a = "Gżegżółka"a = bytes(a, 'utf-8')a = str(a)which returns string in form:b'G\xc5\xbceg\xc5\xbc\xc3\xb3\xc5\x82ka'Now it's send as simple string (I get it as ...
Python以'rb'的形式打开文件，无法encoding = 'UTF-8' python 有问必答
2021-09-18 15:46

回答 2 已采纳读取文件写'r'就可以,'rb'是以二进制形式读入将其改为encoding='bytes'即可(资料来源见评论)有帮助望采纳
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python默认编码格式已经是utf-8了，为什么open读取文件时还会出现乱码问题 python 有问必答
2021-08-17 16:12

回答 2 已采纳你输出下myfile这个对象，看看实际打开时使用的编码是什么。肯定不是utf-8
使用python批量转换文件编码为UTF-8
2020-04-01 11:07

public void main的博客由于以前脑残的我不知道改编码方式，导致出现了大量的GBK，这就很难受，要是一个两个还好说，可是这么多要是一个一个的改我会觉得现在的我比以前还脑残，于是乎，我就想用python批量的修改一下，然后就产生了这篇...
python中num*=-1是什么意思 python
2021-10-31 00:53

回答 1 已采纳 num*=-1，即num=num*(-1)如果num是负数，乘-1之后就变成正数了，所以就取了绝对了；也可以使用num=0-num 有帮助请采纳
Python:关于sum=0的位置选择问题 python 有问必答
2022-03-28 22:51

回答 3 已采纳因为sum是单独一个数的各个因子之和你要把sum=0放入循环内, 这样每测试一个数之前sum都要重置为0之后内循环中sum只累加单独一个数的各个因子之和如果sum=0在循环之前, 只是初始时sum设置
jupyter中加上 sys.setdefaultencoding('utf-8') 后就不能输出了 jupyter python
2016-11-21 03:32

回答 4 已采纳这个问题已经解决了，参考了http://www.2cto.com/kf/201411/355112.html 主要是reload(sys)的时候，sys.stdout 这个参数被重置为了ipytho
python3设置编码为utf8_Python3：解码转换为字符串的UTF-8字节
2020-11-23 13:48

weixin_39941721的博客 Suppose I have something like:a = "Gżegżółka"a = bytes(a, 'utf-8')a = str(a)which returns string in form:b'G\xc5\xbceg\xc5\xbc\xc3\xb3\xc5\x82ka'Now it's send as simple string (I get it as ...
python 如何判断 javascript 的源文件编码格式为UTF-8? javascript python
2015-01-13 07:36

回答 4 已采纳 ``` import chardet f = open("/1.txt") s = f.read() print chardet.detect(s) ``` 把文件路径换成j
python bytes转str提示utf-8错误_使用python读取UTF8字符时出错
2020-12-24 06:48

王土三的博客在使用io模块打开文本文件并在读取时将其解码到Unicode：with io.open("to-filter.txt","r", encoding="utf-8") as f:这假设您的to-filter.txt文件是UTF-8编码的。在您还可以使用以下命令将读取的文件收缩到数组中：...
（Python文件处理）doc文档转UTF-8格式的TXT文档
2022-01-23 16:26

乐蘼_lemin的博客目录下所有doc文档转txt，本来想直接用SaveAs规定转存编码格式，但是得到的是带BOM的UTF-8格式，所以又加了个去BOM的过程。 doc转txt 得到带BOM的UTF-8： import os import sys import codecs import fnmatch ...
没有解决我的问题, 去提问

悬赏问题

¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向
¥15 如何用python向钉钉机器人发送可以放大的图片？
¥15 matlab（相关搜索：紧聚焦）
¥15 基于51单片机的厨房煤气泄露检测报警系统设计
¥15 Arduino无法同时连接多个hx711模块，如何解决？
¥50 需求一个up主付费课程
¥20 模型在y分布之外的数据上预测能力不好如何解决

python3 word="0"的编码如何变为“utf-8”

2条回答 默认 最新

-*- coding: UTF-8 -*-

悬赏问题

2条回答默认最新

-- coding: UTF-8 --