Python如何批量删除doc文件中的图片？

在使用Python批量处理Word文档（.docx）时，一个常见问题是：如何高效地遍历多个.docx文件并删除其中嵌入的图片？虽然`python-docx`库能读取和修改文档内容，但它不直接支持删除图像，尤其是当图片作为段落或形状存在时难以定位。开发者常因无法准确识别并移除`inline_shapes`或`drawing`元素而失败。此外，处理旧版二进制.doc文件（非.docx）时，缺乏有效解析工具更增加了难度。如何结合`zipfile`操作、XML解析与文档结构知识，安全清除所有图片而不破坏文档格式，成为实际应用中的技术难点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-11-21 19:19

关注

让【宝码香车】来帮您解答，本回答参考DeepSeek编写，并整理提供。

如果答案能帮助您，请采纳，非常感谢！
.
每日一句正能量，让它带给您好心情：给自己多一点鼓励，少一点否定，你会发现自己很棒。
.

在处理Word文档时，批量删除图片确实是一个常见的需求，尤其是当文档中包含大量嵌入图像时。下面我将详细介绍如何使用Python和相关库来实现这一目标，主要针对.docx文件，并提及一些处理旧版.doc文件的注意事项。

方法概述

核心思路：.docx文件本质上是一个ZIP压缩包，其中包含XML文件和其他资源。通过解析XML结构，我们可以定位并删除图片元素，同时保持文档格式的完整性。
主要工具：python-docx库用于基本操作，zipfile和xml.etree.ElementTree用于深入处理XML结构。
适用文件类型：本方法适用于.docx文件；对于旧版二进制.doc文件，由于格式复杂，可能需要使用其他工具（如pywin32在Windows环境下）。

步骤详解

1. 安装必要的库

首先，确保安装了python-docx库。如果尚未安装，可以使用以下命令：

pip install python-docx

2. 遍历文件并删除图片

以下代码演示了如何批量处理.docx文件，删除所有图片：

import os
from docx import Document
from docx.oxml import parse_xml
from docx.oxml.ns import nsmap
import zipfile
import tempfile
import shutil


def remove_images_from_docx(docx_path, output_path):
    # 加载文档
    doc = Document(docx_path)
    
    # 删除内联图片（inline_shapes）
    for paragraph in doc.paragraphs:
        for run in paragraph.runs:
            # 检查运行中的图片并删除
            for inline in run._element.xpath('.//wp:inline', namespaces=nsmap):
                inline.getparent().remove(inline)
    
    # 删除通过形状（shapes）添加的图片
    for shape in doc.inline_shapes:
        # 尝试删除形状元素
        if shape._element is not None:
            shape._element.getparent().remove(shape._element)
    
    # 保存修改后的文档
    doc.save(output_path)


def batch_remove_images(input_folder, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    for filename in os.listdir(input_folder):
        if filename.endswith('.docx'):
            input_path = os.path.join(input_folder, filename)
            output_path = os.path.join(output_folder, filename)
            remove_images_from_docx(input_path, output_path)
            print(f"处理完成: {filename}")


# 使用示例
input_folder = 'path/to/input/folder'
output_folder = 'path/to/output/folder'
batch_remove_images(input_folder, output_folder)

3. 深入处理XML结构（高级方法）

如果上述方法无法完全删除图片，可能需要直接操作ZIP包内的XML文件：

import zipfile
import os
import tempfile
from xml.etree import ElementTree as ET


def remove_images_via_zip(docx_path, output_path):
    # 创建临时目录
    with tempfile.TemporaryDirectory() as temp_dir:
        # 解压docx文件
        with zipfile.ZipFile(docx_path, 'r') as zip_ref:
            zip_ref.extractall(temp_dir)
        
        # 处理文档中的图片引用
        document_xml_path = os.path.join(temp_dir, 'word/document.xml')
        tree = ET.parse(document_xml_path)
        root = tree.getroot()
        
        # 定义命名空间
        namespaces = {
            'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main',
            'wp': 'http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing',
            'a': 'http://schemas.openxmlformats.org/drawingml/2006/main',
            'pic': 'http://schemas.openxmlformats.org/drawingml/2006/picture'
        }
        
        # 查找并删除所有图片元素
        for elem in root.findall('.//wp:inline', namespaces):
            parent = elem.getparent()
            if parent is not None:
                parent.remove(elem)
        
        # 保存修改后的XML
        tree.write(document_xml_path, encoding='UTF-8', xml_declaration=True)
        
        # 重新打包为docx
        with zipfile.ZipFile(output_path, 'w') as zip_out:
            for root_dir, dirs, files in os.walk(temp_dir):
                for file in files:
                    file_path = os.path.join(root_dir, file)
                    arcname = os.path.relpath(file_path, temp_dir)
                    zip_out.write(file_path, arcname)


# 使用示例
remove_images_via_zip('input.docx', 'output.docx')

注意事项

备份文件：在批量处理前，务必备份原始文档，以防意外损坏。
测试验证：处理后的文档应仔细检查，确保文本内容和格式未被破坏。
旧版.doc文件：对于二进制.doc文件，python-docx不支持。可以考虑使用pywin32（仅Windows）或转换为.docx格式后再处理。
性能优化：处理大量文件时，可以考虑使用多线程或异步操作提高效率。

总结

通过结合python-docx的高级API和底层的ZIP/XML操作，我们可以有效地批量删除Word文档中的图片。这种方法虽然需要一定的XML结构知识，但提供了灵活性和控制力，适用于复杂的文档处理场景。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

基于Python开发的自动批量打印图片、Word、PDF文件的小工具
2023-09-15 16:08

工具用于将选定的文件夹及其子目录中的文件和图片打印出来，采用调用进程的方式进行打印，有效解决批量打印文件的难处。目前支持的文件格式：图片格式（适应尺寸打印），pdf，docx，doc文件格式。当文件夹中存在...
python批量打印word、pdf文件，可按文件夹一份份打印
2022-05-22 21:24

首先，从标题"python批量打印word、pdf文件，可按文件夹一份份打印"可以看出，我们的目标是编写一个Python程序，能够递归遍历指定文件夹，找到所有的Word和PDF文件，然后按照文件的自然顺序逐个进行打印。...
基于python实现批量修改word文件中的段落格式
2022-07-03 12:19

在IT行业中，Python是一种强大的编程语言，以其易读性、丰富的库支持以及广泛的应用范围而闻名。本主题聚焦于利用Python来实现批量修改Word文件中的段落格式，这对于处理大量文档自动化工作流程非常有用。在许多场景...
python 批量修改doc为docx
2024-09-14 08:12

要使用Python批量修改文件格式，首先需要了解Python中可以操作文件的库。常用的库有`os`和`python-docx`。`os`库可以帮助我们遍历文件夹和重命名文件，而`python-docx`库则提供了读取和写入.docx文件的功能。在...
Python 批量修改word文件中的段落格式.zip
2023-07-31 22:54

本话题主要涉及如何使用Python批量修改Word文件中的段落格式。在提供的压缩包文件中，包含了必要的代码示例和实际应用的Word文档，让我们来详细探讨这个主题。首先，要实现批量修改Word文件的段落格式，我们需要...
基于Python实现批量往Word文档中指定位置添加图片
2022-07-03 11:43

在IT行业中，Python是一种强大的编程语言，以其易读性、丰富的库支持以及广泛的应用领域而闻名。本话题聚焦于如何利用Python实现一个实用的功能：批量向Word文档中特定位置插入图片。这一操作在报告生成、自动化文档...
自动办公- 用Python批量往Word文档中指定位置添加图片
2023-01-27 12:56

本教程将详细讲解如何使用Python批量往Word文档中指定位置添加图片，帮助你提升办公自动化水平。首先，我们需要了解Python中的几个关键库，它们在处理Word文档时扮演着重要角色： 1. **`python-docx`**: 这是...
python自动办公-09 用Python批量往Word文档中指定位置添加图片
2022-11-04 16:28

在Python编程领域，自动化办公是一项高效且实用的技能，尤其对于处理大量文档的工作而言。本教程将探讨如何利用Python来批量向Word文档中特定位置添加图片。这一功能在报告生成、文档编辑、模板填充等场景中非常有用...
py源码实例用Python批量往Word文档中指定位置添加图片
2024-04-20 15:20

### py源码实例：使用Python批量往Word文档中指定位置添加图片在现代办公环境中，自动化工具能够极大地提高工作效率并减少重复性劳动。本篇文章将详细介绍一个具体的Python脚本实例，该实例展示了如何批量地在Word...
python批量处理Word文件完整源码分享给需要的同学
2024-11-21 16:42

在Python编程环境中，处理Microsoft Word文档是一项常见的任务。Python提供了几个库来实现这一目标，如`python-docx`，它可以让我们创建、修改和操作.docx文件。本教程将重点介绍如何利用Python进行Word文档的合并、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月21日