P__echoZ 2024-07-25 16:41 采纳率: 0%

关于pdfjs遇到的问题！(语言-javascript)

背景：使用vite+pdfjs-dist@2.0.943实现pdf在线操作
问题1：在渲染textLayer文本层的时候，如果pdf是纯英文，则渲染出来的文本是一行的内容；如果pdf是中文+英文，渲染内容是每个字符一个节点
纯英文

中文+英文

问题2：在中文+英文的时候，使用findController实现了搜索和高亮，但在纯英文时，因为节点变了，_pageMatches的东西匹配不上了
问题3：实在是不知道怎么实现批注功能
问题4：如何选取段落

希望能够得到帮助，项目地址

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

阿里嘎多学长 2024-07-25 16:44

关注

以下内容由AIGC及阿里嘎多学长共同生成、有用望采纳：

问题1：文本层渲染问题

问题描述：在渲染textLayer文本层的时候，如果PDF是纯英文，则渲染出来的文本是一行的内容；如果PDF是中文+英文，渲染内容是每个字符一个节点。

可能原因：这可能是由于PDF.js在处理中文文本时的默认行为。中文字符在PDF中通常被视为单独的文本元素。

解决方案：

自定义文本渲染：可以通过自定义文本层的渲染逻辑来解决这个问题。例如，可以使用TextLayerBuilder来处理文本渲染。
检查配置：查看是否有配置选项可以控制文本渲染方式。

示例代码：

import { pdfjsLib } from 'pdfjs-dist';

pdfjsLib.GlobalWorkerOptions.workerSrc = `//cdnjs.cloudflare.com/ajax/libs/pdf.js/${pdfjsLib.version}/pdf.worker.js`;

const loadingTask = pdfjsLib.getDocument({ url: pdfUrl });
loadingTask.promise.then(pdf => {
  const page = pdf.getPage(1);
  page.then(page => {
    const scale = 1.5;
    const viewport = page.getViewport({ scale });
    const canvas = document.createElement('canvas');
    const context = canvas.getContext('2d');
    canvas.height = viewport.height;
    canvas.width = viewport.width;

    const renderContext = {
      canvasContext: context,
      viewport: viewport,
      transform: [scale, 0, 0, scale, 0, 0],
    };

    const textLayer = new TextLayerBuilder({
      textLayerDiv: document.getElementById('text-layer'),
      pageIndex: 1,
      renderInteractiveForms: false,
    });

    const textContent = page.getTextContent();
    textLayer.setTextContent(textContent);
    textLayer.render(renderContext);

    document.body.appendChild(canvas);
  });
});

问题2：搜索和高亮问题

问题描述：在中文+英文的时候，使用findController实现了搜索和高亮，但在纯英文时，因为节点变了，_pageMatches的东西匹配不上了。

可能原因：findController可能依赖于特定的文本节点结构来执行搜索和高亮，当结构变化时，原有的匹配逻辑不再适用。

解决方案：

修改findController：可能需要修改findController的实现，使其能够适应不同的文本节点结构。
编写预处理函数：编写一个预处理函数，将文本转换为findController可以识别的格式。

示例代码：

import { pdfjsLib } from 'pdfjs-dist';

pdfjsLib.GlobalWorkerOptions.workerSrc = `//cdnjs.cloudflare.com/ajax/libs/pdf.js/${pdfjsLib.version}/pdf.worker.js`;

const loadingTask = pdfjsLib.getDocument({ url: pdfUrl });
loadingTask.promise.then(pdf => {
  const findController = new pdfjsLib.FindController({
    linkService: new pdfjsLib.DefaultLinkService(),
    eventBus: new pdfjsLib.EventBus(),
  });

  const matches = findController.execute({
    pages: [1],
    query: 'example',
    caseSensitive: false,
    findPrevious: false,
    highlightAll: true,
  });

  matches.promise.then(matches => {
    console.log(matches);
  });
});

问题3：批注功能实现

问题描述：实在是不知道怎么实现批注功能。

解决方案：

查阅PDF.js文档：了解如何添加注释。
设计用户界面：设计一个用户界面来添加批注。

示例代码：

import { pdfjsLib } from 'pdfjs-dist';

pdfjsLib.GlobalWorkerOptions.workerSrc = `//cdnjs.cloudflare.com/ajax/libs/pdf.js/${pdfjsLib.version}/pdf.worker.js`;

const loadingTask = pdfjsLib.getDocument({ url: pdfUrl });
loadingTask.promise.then(pdf => {
  const page = pdf.getPage(1);
  page.then(page => {
    const annotations = page.getAnnotations({ intent: 'display' });
    annotations.then(annotations => {
      console.log(annotations);
    });
  });
});

问题4：段落选择

问题描述：如何选取段落。

解决方案：

解析PDF文本流：分析PDF文档的文本流，并确定段落的边界。
实现选择逻辑：提供一种方式让用户选择这些段落。

示例代码：

import { pdfjsLib } from 'pdfjs-dist';

pdfjsLib.GlobalWorkerOptions.workerSrc = `//cdnjs.cloudflare.com/ajax/libs/pdf.js/${pdfjsLib.version}/pdf.worker.js`;

const loadingTask = pdfjsLib.getDocument({ url: pdfUrl });
loadingTask.promise.then(pdf => {
  const page = pdf.getPage(1);
  page.then(page => {
    const textContent = page.getTextContent();
    const paragraphs = textContent.items.reduce((acc, item) => {
      if (item.str) {
        acc.push(item.str);
      }
      return acc;
    }, []);

    console.log(paragraphs);
  });
});

项目地址

您可以访问https://gitee.com/echopp/pdfjs.git查看项目代码。

希望这些解决方案能够帮助您解决问题。如果需要更详细的代码示例或步骤，建议您提供更多的代码上下文或具体的错误信息。

编辑记录

报告相同问题？

关注问题

pdfjs-origin code
2024-02-19 01:32

在深入研究PDF.js源代码时，可以学习到关于PDF格式的理解、WebGL和2D渲染技术、以及JavaScript编程技巧等。同时，通过阅读源代码，开发者还可以了解到如何编写高效的、跨平台的Web组件。对于前端开发者来说，理解并...
lector-pdfjs:pdfjs与讲师的实验性整合
2021-03-11 02:39

JavaScript是实现这一功能的主要编程语言，因此对JavaScript的深入理解是掌握PDF.js的关键。首先，我们需要了解JavaScript的基础，包括变量、数据类型、函数、对象和类。尤其是DOM操作，因为PDF.js需要与HTML文档...
为何在 JavaScript 中使用顶层 await？
2021-03-03 14:44

傲娇的koala的博客原文地址：Why Should You Use Top-level Await in JavaScript?[1]原文作者：Mahdhi Rezvi[2]译者：Chor作为一门非常灵活和强...
【亲测免费】 react-pdf-js 项目常见问题解决方案
2024-09-13 21:48

戴欢姗的博客 `react-pdf-js` 是一个用于在 React 应用中渲染 PDF 文档的开源组件。...该项目的主要编程语言是 TypeScript，同时也包含少量的 HTML、JavaScript 和 CSS。 ## 新手使用注意事项及解决方案 ### 1. 安装...
React-File-Viewer 常见问题解决方案
2024-09-13 21:47

皮唯珂的博客 React-File-Viewer 是一个用于在 Web 应用中预览多种文件格式的 React 组件库。...该项目的主要编程语言是 JavaScript，使用 React 框架进行开发。 ## 新手使用注意事项及解决方案 ### 1. 版本兼容性问...
concat:串联pdf。也许使它们偏斜。没有其他的
2021-05-11 22:44

Python和JavaScript都是可以完成这项任务的编程语言。 Python有一个名为`PyPDF2`的库，专门用于处理PDF文档。通过这个库，我们可以读取多个PDF文件并将其内容合并到一个新的PDF文件中。例如，你可以创建一个Python...
pdf-text-denoiser:修复因复制粘贴pdf（特别是pdf.js）而产生的怪异现象
2021-03-06 16:42

5. **Python编程**：整个项目是用Python语言编写的，这意味着可以利用Python的丰富的库和简洁的语法来实现功能。Python在处理文本处理和数据解析方面有着广泛的应用，适合这类任务。 6. **版本控制**：`pdf-text-...
PDF.js使用教程[代码]
2025-11-15 07:38

在PDF.js的使用中，不可避免地会遇到版本差异带来的问题。不同版本的库可能会有一些API上的改变，这会导致旧有的代码无法正常工作。为了解决这个问题，文章提供了一些版本兼容性的建议，例如查看更新日志，了解哪些...
重构_改善既有代码的设计_第二版(JavaScript代码示例)
2020-08-01 17:28

Sky飞羽123的博客前言最近在读《重构_改善既有代码的设计(第2版)》这本书，一本非常经典，并且非常容易读懂的书，强力推荐刚入职场或未入职场的同学去读，书中的代码示例是用JavaScript来编写的，该文只是将书中的代码示例翻译成...
PDFJSDemo项目常见问题解决方案
2024-10-18 12:18

平玫令的博客 PDFJSDemo项目常见问题解决方案 PDFJSDemo是一个基于Apache-2.0许可的开源项目，它提供了一个JavaScript演示DEMO，专门用于展示...主要编程语言包括JavaScript、CSS和少量HTML。新手使用指南及问题解决对于刚接触...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月25日

关于pdfjs遇到的问题！(语言-javascript)

4条回答 默认 最新

问题1：文本层渲染问题

问题2：搜索和高亮问题

问题3：批注功能实现

问题4：段落选择

项目地址

问题事件

4条回答默认最新