张博通 2019-05-24 13:57 采纳率: 0%
浏览 434

如何使python保存的html文件转成pdf后打开超链接能跳转到网页以及展开隐藏内容?

使用pyhon保存'http://scp-wiki-cn.wikidot.com/scp-009' 的内容时,
发现无法正常打开超链接,同时网页中一个点击即可展开的地址也无法展开

网页中点击前后:

点击前
点击前

点击后点击后

代码如下

import requests
from bs4 import BeautifulSoup
import pdfkit

site = 'http://scp-wiki-cn.wikidot.com/scp-'
def parse_url_to_html(url,name):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")
    body = soup.find_all(id="main-content")[0]
    html = bytes(str(body), encoding = "utf8")
    a = name + '.html'
    with open(a, 'wb') as f:
        f.write(html)

def save_pdf(htmls, name):
    """
    把所有html文件转换成pdf文件
    """
    options = {
        'page-size': 'Letter',
        'encoding': "UTF-8",
        'custom-header': [
            ('Accept-Encoding', 'gzip')
        ]
    }
    pdfkit.from_file(htmls, name + '.pdf', options=options)
for i in range(1,10):
    n = str(i)
    name = n.zfill(3)
    url = site + name
    parse_url_to_html(url, name)
    save_pdf(name+'.html', name)
  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 18:35
    关注
    不知道你这个问题是否已经解决, 如果还没有解决的话:

    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
    评论

报告相同问题?

悬赏问题

  • ¥15 关于logstash转发日志时发生的部分内容丢失问题
  • ¥17 pro*C预编译“闪回查询”报错SCN不能识别
  • ¥15 微信会员卡接入微信支付商户号收款
  • ¥15 如何获取烟草零售终端数据
  • ¥15 数学建模招标中位数问题
  • ¥15 phython路径名过长报错 不知道什么问题
  • ¥15 深度学习中模型转换该怎么实现
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?