CnpeCoder 2022-05-05 20:09 采纳率: 0%
浏览 50
已结题

docx添加段落提示错误ValueError

问题遇到的现象和发生背景

使用BeatyfulSoup爬取网页文本后,将获得的对象文本通过DOCUMENT.add_paragraph添加到word保存报错ValueError,将对象编码utf-8又报错Typeerror

问题相关代码,请勿粘贴截图

import requests
from bs4 import BeautifulSoup
from docx import Document

def find_txt(html):
page = BeautifulSoup(html, "html.parser")
content = page.find("div", attrs={"style":"border:1px solid #C8DBD3;padding:20px;line-height:24px;"})
print(content.text)

return content.text

def save_file(lst):
document = Document()
document.add_paragraph(lst.encode('utf-8'))
document.save('html.docx')

def main(url, headers):
response = requests.get(url, headers=headers)
html = (response.text.replace("
", "")).replace("
", "")
final_result = find_txt(html)
save_file(final_result)

if name == "main":
url = "https://wenku.baidu.com/view/1617b18dae1ffc4ffe4733687e21af45b207fe47.html%22
headers ={'User-agent':'Googlebot'}
main(url, headers)

运行结果及报错内容

ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters
TypeError: 'in ' requires string as left operand, not int

我的解答思路和尝试过的方法
我想要达到的结果
  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 5月13日
    • 创建了问题 5月5日

    悬赏问题

    • ¥15 软件工程用例图的建立(相关搜索:软件工程用例图|画图)
    • ¥15 如何在arcgis中导出拓扑关系表
    • ¥15 处理数据集文本挖掘代码
    • ¥15 matlab2017
    • ¥15 在vxWorks下TCP/IP编程,总是connect()报错,连接服务器失败: errno = 0x41
    • ¥15 AnolisOs7.9如何安装 Qt_5.14.2的运行库
    • ¥20 求:怎么实现qt与pcie通信
    • ¥50 前后端数据顺序不一致问题,如何解决?(相关搜索:数据结构)
    • ¥15 基于蒙特卡罗法的中介效应点估计代码
    • ¥15 罗技G293和UE5.3