docx添加段落提示错误ValueError

问题遇到的现象和发生背景

使用BeatyfulSoup爬取网页文本后，将获得的对象文本通过DOCUMENT.add_paragraph添加到word保存报错ValueError，将对象编码utf-8又报错Typeerror

问题相关代码，请勿粘贴截图

import requests
from bs4 import BeautifulSoup
from docx import Document

def find_txt(html):
page = BeautifulSoup(html, "html.parser")
content = page.find("div", attrs={"style":"border:1px solid #C8DBD3;padding:20px;line-height:24px;"})
print(content.text)

return content.text

def save_file(lst):
document = Document()
document.add_paragraph(lst.encode('utf-8'))
document.save('html.docx')

def main(url, headers):
response = requests.get(url, headers=headers)
html = (response.text.replace("
", "")).replace("
", "")
final_result = find_txt(html)
save_file(final_result)

if name == "main":
url = "https://wenku.baidu.com/view/1617b18dae1ffc4ffe4733687e21af45b207fe47.html%22
headers ={'User-agent':'Googlebot'}
main(url, headers)

运行结果及报错内容

ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters
TypeError: 'in ' requires string as left operand, not int

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

python使用import docx读取word内容有缺失 python
2023-04-17 21:09

回答 2 已采纳该回答引用chatgpt:针对这种情况，可以使用正则表达式过滤掉空格和特殊字符，以保证读取的内容完整。例如，可以使用如下代码过滤空格和特殊字符： import re import docx doc
如何使用python的docx模块，获取指定段落后的表格 python
2019-08-06 16:49

回答 1 已采纳应该没有这样的method，可以workaround介绍给你： https://github.com/python-openxml/python-docx/issues/40
请问pythondocx库如何将表格单元格中的文字纵向显示 python 有问必答
2021-12-16 13:32

回答 1 已采纳可以试试单元格字段用换行符分隔。:table.cell(0, 0).text='\n'.join(list('学生成绩')) from docx.enum.table import WD_TABLE_
python-docx 添加标题，word标题从入门到精通
2024-01-09 15:31

布啦啦李的博客本章主要对python-docx在word中添加标题进行讲解，包括：add_heading() 简介、add_heading() 基本用法、设置不同级别的标题、设置带有特殊字符的标题、使用循环添加多个标题、使用不同样式添加标题、结合其他元素...
python 如何按照word顺序遍历每一段落（包括段落的自动编号）和每一个表格 python 有问必答
2022-02-22 11:49

回答 3 已采纳使用docx读取段落自动编号比较麻烦，可以用另一个库docx2python，读取成列表,分级编号无论是数字还是字母都能读取出来 from docx2python import docx2python
python-docx遍历删除所有图片 python
2022-07-08 09:33

回答 3 已采纳 from docx import Document doc_save = '/home/john/Downloads/20220630.docx' doc = Document(doc_save)
python使用python-docx模块读取word表格发生重复 python
2021-03-05 23:08

回答 4 已采纳遍历的时候有意识去重就可以了 value_list = list() for row in table.rows: temp = list() for cell in row.ce
python docx table读取_python docx从段落获取表
2020-12-15 14:20

weixin_39819393的博客 from docx import Documentfrom docx.document import Document as _Documentfrom docx.oxml.text.paragraph import CT_Pfrom docx.oxml.table import CT_Tblfrom docx.table import _Cell, Tablefrom docx.text.par...
怎么通过python docx设置word单元格颜色 python
2022-08-25 14:17

回答 2 已采纳文章：利用Python docx修改word关键词颜色中也许有你想要的答案，请看下吧
python docx模块问题：如何设置word文档的段落距离大小？ python 有问必答
2021-09-06 20:56

回答 2 已采纳参考这个
python-docx模块无法导入 python
2022-08-21 15:58

回答 3 已采纳直接打开pycharm 命令行，就是这里：输入下面命令： pip install python-docx -i http://pypi.douban.com/simple --trusted-ho
python-docx顺序解析word中的表格、图片、段落
2023-10-20 14:25

m喵帕斯的博客近期在工作中需要解析word，然后上传到redmine，网上搜索了下相关解析的教程，有单独解析表格的、段落的、图片的，没有按顺序解析。仁兄的基础上增加了解析图片。
python的if判断word中有无表格 microsoft python windows
2021-12-30 00:36

回答 1 已采纳 import xlrd from docx import Document doxFile = "doc_File" d = Document(doxFile) t = d.tables if le
python读取docx文件出错_读取docx文件时出现错误的特殊字符
2020-12-17 12:04

weixin_39906521的博客我试图使用下面的代码从.docx获取文本，但问题是文本包含特殊字符(例如“ç”或“á”)，并且代码没有正确地读取文件。在try:from xml.etree.cElementTree import XMLexcept ImportError:from xml.etree.ElementTree...
使用Python-docx库轻松合并多个文档
2024-07-22 09:06

木头左的博客通过本文的介绍，可以看到，使用Python-docx库...同时，Python-docx库还支持对Word文档的各种操作，例如添加标题、页眉/页脚、表格、图片等，可以帮助更好地处理Word文档。希望本文对大家有所帮助，祝大家工作顺利！
没有解决我的问题, 去提问