zmm1912 2021-03-17 18:35 采纳率: 100%
浏览 63
已采纳

2个问题:查找word 关键字 查找结果重复输出,怎么解决?另一个问题在正文

想查找.docx文件中的关键字,并且输出结果,代码如下:

from docx import Document
import os,sys
choice = input('''
请输入需要查找文件的位置:
1.2018年工作
2.2019年工作
3.2020年工作 
4.2021年工作
5.桌面查找
''')
keyword = input('请输入需要查找的关键字:')  
if choice == '1':
    scripts_path = 'E:/2018养老中心/'
elif choice == '2':
    scripts_path = 'E:/2019养老中心/'
elif choice == '3':
    scripts_path = 'E:/2020养老中心/'
elif choice == '4':
    scripts_path = 'E:/2021养老中心/'
elif choice == '5':
    scripts_path = r'C:\Users\Lenovo\Desktop'

files_path_list = []

for root,dirs,files in os.walk(scripts_path):
        if files:
            for file in files:
                if file.endswith(".docx"):
                    files_path_list.append(os.path.join(root,file).replace("\\","/"))
                

try:
    for i in files_path_list:
        document = Document(i)
        for paragraph in document.paragraphs:
            if keyword in paragraph.text:
                print('找到了文件位置在:'+i)
                
except:
    print('docx.opc.exceptions.PackageNotFoundError:')

现在的问题有两个:

1.总是提示:docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名,不知道怎么处理,只能加一个try except

2.在以下代码:

for paragraph in document.paragraphs:

            if keyword in paragraph.text:

                print('找到了文件位置在:'+i)

这段代码中,输入的关键字在word中多次重复出现,于是输出的结果,就是出现几次输出几次结果

现在我需要解决的是

1.解决“docx.opc.exceptions.PackageNotFoundError:Package not found at+文件名”这个错误

2.关键词在word中多次出现,只输出一个结果

请各位老师、大神帮帮忙

  • 写回答

3条回答 默认 最新

  • coagenth 2021-03-17 19:50
    关注

    对形如~xxx.docx的word文档临时文件无法读取报错问题及输出重复问题均可在代码中进行排除。

    from docx import Document
    import os,sys
    choice = input('''
    请输入需要查找文件的位置:
    1.2018年工作
    2.2019年工作
    3.2020年工作 
    4.2021年工作
    5.桌面查找
    ''')
    keyword = input('请输入需要查找的关键字:')  
    if choice == '1':
        scripts_path = 'E:/2018养老中心/'
    elif choice == '2':
        scripts_path = 'E:/2019养老中心/'
    elif choice == '3':
        scripts_path = 'E:/2020养老中心/'
    elif choice == '4':
        scripts_path = 'E:/2021养老中心/'
    elif choice == '5':
        scripts_path = r'C:\Users\Lenovo\Desktop'
    src=[]
    for root, dirs, files in os.walk(scripts_path):    
        for fn in files:          
            if fn.endswith(".docx") and not fn.startswith('~'):
                f=os.path.join(root, fn).replace("\\", "/")            
                document = Document(f)            
                for paragraph in document.paragraphs:
                    if keyword in paragraph.text and f not in src:
                        print(f'关键字{keyword}在文件{f}找到')
                        src.append(f)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 echarts绘制图表
  • ¥15 根据企业名称 对照两个文件 样本筛选/匹配
  • ¥15 Linux环境下CA证书更新问题
  • ¥15 sqlserver语句提取结果以外数据
  • ¥60 微信小程序如何上传QQ聊天文件
  • ¥300 开发的系统遭到无良商家的破解,请问如何防止再次发生,并追回损失
  • ¥15 java代码写在记事本上后在cmd上运行时无报错但又没生成文件
  • ¥15 关于#python#的问题:在跑ldsc数据整理的时候一直抱这种错误,要么--out识别不了参数,要么--merge-alleles识别不了参数(操作系统-linux)
  • ¥15 PPOCRLabel
  • ¥15 混合键合键合机对准标识