佛系厌世 2023-04-17 21:09 采纳率: 100%
浏览 87
已结题

python使用import docx读取word内容有缺失

使用 import docx读取word的时,部分内容读不出来,括号中的月日就是没有的,就很莫名奇妙,有能解决这个问题的方法吗?data_2是我读取word的xml文件读出来的内容,但是比较麻烦

import docx
docx_path = r"word.docx"
docx_text = docx.Document(docx_path)
all_list1 = docx_text.paragraphs
all_list = [i.text for i in all_list1]
data = pd.DataFrame({'text':all_list})

img

  • 写回答

2条回答 默认 最新

  • 守时间的孤岛 2023-04-18 09:18
    关注

    该回答引用chatgpt:针对这种情况,可以使用正则表达式过滤掉空格和特殊字符,以保证读取的内容完整。例如,可以使用如下代码过滤空格和特殊字符:

    
    import re
    import docx
    
    doc = docx.Document('/Users/changzhenwei/Desktop/111.docx')
    text = '\n'.join([para.text for para in doc.paragraphs])
    filtered_text = re.sub(r'\s+', '', text)
    print(filtered_text)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月26日
  • 已采纳回答 4月18日
  • 创建了问题 4月17日