2301_76240349 2023-07-27 13:31 采纳率: 75%
浏览 6
已结题

python爬取文库代码报错,如何解决?

python代码报错,请问**

import requests
from bs4 import BeautifulSoup
import docx
import warnings

# 爬取百度文库的内容
url = 'https://wenku.baidu.com/view/xxx.html' # 将xxx改为文档的id
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 获取标题、作者和正文内容
title = soup.select_one('.doc-title').get_text()
author = soup.select_one('.doc-info .username').get_text()
content = '\n'.join([p.get_text() for p in soup.select('.reader-txt-layer p')])

# 创建Word文档,写入标题、作者和正文内容
doc = docx.Document()
doc.add_heading(title, 0)
doc.add_paragraph(f'作者:{author}')
doc.add_paragraph(content)

# 保存Word文档到本地
doc.save(f'{title}.docx')

img

  • 写回答

2条回答 默认 最新

  • 一杯拿铁丨 2023-07-27 14:13
    关注

    确保你已经安装了 ​requests​、​beautifulsoup4​和 ​python-docx​这三个库

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月4日
  • 已采纳回答 7月27日
  • 修改了问题 7月27日
  • 修改了问题 7月27日
  • 展开全部