佛系厌世 2023-04-17 21:09 采纳率: 100%
浏览 33
已结题

python使用import docx读取word内容有缺失

使用 import docx读取word的时,部分内容读不出来,括号中的月日就是没有的,就很莫名奇妙,有能解决这个问题的方法吗?data_2是我读取word的xml文件读出来的内容,但是比较麻烦

import docx
docx_path = r"word.docx"
docx_text = docx.Document(docx_path)
all_list1 = docx_text.paragraphs
all_list = [i.text for i in all_list1]
data = pd.DataFrame({'text':all_list})

img

  • 写回答

2条回答 默认 最新

  • 守时间的孤岛 2023-04-18 09:18
    关注

    该回答引用chatgpt:针对这种情况,可以使用正则表达式过滤掉空格和特殊字符,以保证读取的内容完整。例如,可以使用如下代码过滤空格和特殊字符:

    
    import re
    import docx
    
    doc = docx.Document('/Users/changzhenwei/Desktop/111.docx')
    text = '\n'.join([para.text for para in doc.paragraphs])
    filtered_text = re.sub(r'\s+', '', text)
    print(filtered_text)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月26日
  • 已采纳回答 4月18日
  • 创建了问题 4月17日

悬赏问题

  • ¥15 AT89C51控制8位八段数码管显示时钟。
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 下图接收小电路,谁知道原理
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
  • ¥15 ETLCloud 处理json多层级问题
  • ¥15 matlab中使用gurobi时报错
  • ¥15 这个主板怎么能扩出一两个sata口