wl2020mxxb 2021-10-28 09:23 采纳率: 55.6%
浏览 52

如何用python将pdf转成网页html的格式

各位大神,如何用python将pdf转成网页html的格式,以便后面用bs4来提取内容。
起因是我发现直接从pdf转成txt,一句话会被拆断,这样提取的内容不会一句话一行。有时查词竟会显示查询不到,因为一个词被分了占txt的两行。谢谢大神路过,帮忙想想办法

  • 写回答

2条回答 默认 最新

  • wl2020mxxb 2021-10-28 09:26
    关注

    我的pdf主要都是文字的(不是图片),也是直接网页打印保存下的pdf,应该是可以转的

    评论

报告相同问题?

问题事件

  • 创建了问题 10月28日