zmm1912 2021-03-17 18:35 采纳率: 100%
浏览 63
已采纳

2个问题:查找word 关键字 查找结果重复输出,怎么解决?另一个问题在正文

想查找.docx文件中的关键字,并且输出结果,代码如下:

from docx import Document
import os,sys
choice = input('''
请输入需要查找文件的位置:
1.2018年工作
2.2019年工作
3.2020年工作 
4.2021年工作
5.桌面查找
''')
keyword = input('请输入需要查找的关键字:')  
if choice == '1':
    scripts_path = 'E:/2018养老中心/'
elif choice == '2':
    scripts_path = 'E:/2019养老中心/'
elif choice == '3':
    scripts_path = 'E:/2020养老中心/'
elif choice == '4':
    scripts_path = 'E:/2021养老中心/'
elif choice == '5':
    scripts_path = r'C:\Users\Lenovo\Desktop'

files_path_list = []

for root,dirs,files in os.walk(scripts_path):
        if files:
            for file in files:
                if file.endswith(".docx"):
                    files_path_list.append(os.path.join(root,file).replace("\\","/"))
                

try:
    for i in files_path_list:
        document = Document(i)
        for paragraph in document.paragraphs:
            if keyword in paragraph.text:
                print('找到了文件位置在:'+i)
                
except:
    print('docx.opc.exceptions.PackageNotFoundError:')

现在的问题有两个:

1.总是提示:docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名,不知道怎么处理,只能加一个try except

2.在以下代码:

for paragraph in document.paragraphs:

            if keyword in paragraph.text:

                print('找到了文件位置在:'+i)

这段代码中,输入的关键字在word中多次重复出现,于是输出的结果,就是出现几次输出几次结果

现在我需要解决的是

1.解决“docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名”这个错误

2.关键词在word中多次出现,只输出一个结果

请各位老师、大神帮帮忙

  • 写回答

3条回答 默认 最新

  • coagenth 2021-03-17 19:50
    关注

    对形如~xxx.docx的word文档临时文件无法读取报错问题及输出重复问题均可在代码中进行排除。

    from docx import Document
    import os,sys
    choice = input('''
    请输入需要查找文件的位置:
    1.2018年工作
    2.2019年工作
    3.2020年工作 
    4.2021年工作
    5.桌面查找
    ''')
    keyword = input('请输入需要查找的关键字:')  
    if choice == '1':
        scripts_path = 'E:/2018养老中心/'
    elif choice == '2':
        scripts_path = 'E:/2019养老中心/'
    elif choice == '3':
        scripts_path = 'E:/2020养老中心/'
    elif choice == '4':
        scripts_path = 'E:/2021养老中心/'
    elif choice == '5':
        scripts_path = r'C:\Users\Lenovo\Desktop'
    src=[]
    for root, dirs, files in os.walk(scripts_path):    
        for fn in files:          
            if fn.endswith(".docx") and not fn.startswith('~'):
                f=os.path.join(root, fn).replace("\\", "/")            
                document = Document(f)            
                for paragraph in document.paragraphs:
                    if keyword in paragraph.text and f not in src:
                        print(f'关键字{keyword}在文件{f}找到')
                        src.append(f)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器