pingfanren2
pingfanren2
采纳率16.7%
2021-03-05 23:08

python使用python-docx模块读取word表格发生重复

import os
import docx


if __name__=='__main__':
    workpath=str(os.getcwdb(),encoding='utf-8') #获取当前目录
    filepath=workpath+r'\test2.docx' #获取文件目录
    doc1=docx.Document(filepath) #打开文件
    tables=doc1.tables
    table=tables[0]

    for row in table.rows:
        for cell in row.cells:
            print(cell.text,end=' ')
        print('\n')
    print('end')

word文件放在云盘里,代码如上,具体问题如下,很多cell读取的时候都重复读取了好多遍,我也不知道怎么回事,这个表格是学校下发的表格,不是自己做的,非常感谢。https://kdocs.cn/l/siUDPGHApKNE
[金山文档] test2.docx

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

4条回答

  • qq_34480387 qq_34480387 8天前

    遍历的时候有意识去重就可以了

    value_list = list()
    for row in table.rows:
        temp = list()
        for cell in row.cells:
            if cell.text not in temp:
                 temp.append(cell.text)
                 print(cell.text,end=' ')
        print('\n') print('end')
        value_list.append(temp)
    点赞 评论 复制链接分享
  • pingfanren2 pingfanren2 14天前

    把这个Word复制粘贴进excel就会发现这一个单元格实际上是很多单元格,我都采集出来去重了

    点赞 评论 复制链接分享
  • hds4856 hds4856 17天前

    怎么办啊大哥

    点赞 评论 复制链接分享
  • hds4856 hds4856 17天前

    我也碰到这个问题

    点赞 评论 复制链接分享