zmm1912 2021-03-17 18:35 采纳率: 100%
浏览 63
已采纳

2个问题:查找word 关键字 查找结果重复输出,怎么解决?另一个问题在正文

想查找.docx文件中的关键字,并且输出结果,代码如下:

from docx import Document
import os,sys
choice = input('''
请输入需要查找文件的位置:
1.2018年工作
2.2019年工作
3.2020年工作 
4.2021年工作
5.桌面查找
''')
keyword = input('请输入需要查找的关键字:')  
if choice == '1':
    scripts_path = 'E:/2018养老中心/'
elif choice == '2':
    scripts_path = 'E:/2019养老中心/'
elif choice == '3':
    scripts_path = 'E:/2020养老中心/'
elif choice == '4':
    scripts_path = 'E:/2021养老中心/'
elif choice == '5':
    scripts_path = r'C:\Users\Lenovo\Desktop'

files_path_list = []

for root,dirs,files in os.walk(scripts_path):
        if files:
            for file in files:
                if file.endswith(".docx"):
                    files_path_list.append(os.path.join(root,file).replace("\\","/"))
                

try:
    for i in files_path_list:
        document = Document(i)
        for paragraph in document.paragraphs:
            if keyword in paragraph.text:
                print('找到了文件位置在:'+i)
                
except:
    print('docx.opc.exceptions.PackageNotFoundError:')

现在的问题有两个:

1.总是提示:docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名,不知道怎么处理,只能加一个try except

2.在以下代码:

for paragraph in document.paragraphs:

            if keyword in paragraph.text:

                print('找到了文件位置在:'+i)

这段代码中,输入的关键字在word中多次重复出现,于是输出的结果,就是出现几次输出几次结果

现在我需要解决的是

1.解决“docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名”这个错误

2.关键词在word中多次出现,只输出一个结果

请各位老师、大神帮帮忙

  • 写回答

3条回答 默认 最新

  • coagenth 2021-03-17 19:50
    关注

    对形如~xxx.docx的word文档临时文件无法读取报错问题及输出重复问题均可在代码中进行排除。

    from docx import Document
    import os,sys
    choice = input('''
    请输入需要查找文件的位置:
    1.2018年工作
    2.2019年工作
    3.2020年工作 
    4.2021年工作
    5.桌面查找
    ''')
    keyword = input('请输入需要查找的关键字:')  
    if choice == '1':
        scripts_path = 'E:/2018养老中心/'
    elif choice == '2':
        scripts_path = 'E:/2019养老中心/'
    elif choice == '3':
        scripts_path = 'E:/2020养老中心/'
    elif choice == '4':
        scripts_path = 'E:/2021养老中心/'
    elif choice == '5':
        scripts_path = r'C:\Users\Lenovo\Desktop'
    src=[]
    for root, dirs, files in os.walk(scripts_path):    
        for fn in files:          
            if fn.endswith(".docx") and not fn.startswith('~'):
                f=os.path.join(root, fn).replace("\\", "/")            
                document = Document(f)            
                for paragraph in document.paragraphs:
                    if keyword in paragraph.text and f not in src:
                        print(f'关键字{keyword}在文件{f}找到')
                        src.append(f)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥30 STM32 INMP441无法读取数据
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动
  • ¥15 x趋于0时tanx-sinx极限可以拆开算吗
  • ¥500 把面具戴到人脸上,请大家贡献智慧
  • ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。
  • ¥15 各位 帮我看看如何写代码,打出来的图形要和如下图呈现的一样,急
  • ¥30 c#打开word开启修订并实时显示批注
  • ¥15 如何解决ldsc的这条报错/index error
  • ¥15 VS2022+WDK驱动开发环境