小满新手上路 2021-08-10 17:04 采纳率: 0%
浏览 38

c#如何读取PDF文档里指定内容?

img

img

已知PDF内的内容如上,每个PDF大约有100多页,有多种表格,我只要的是提取如上表格的字段和内容和对应的线路点位内容,存到数据库里,有没有大lao做过类似项目的,给个方案,最好能给具体细节,Thanks!
下图是不需要的数据,不必读取

img

  • 写回答

1条回答 默认 最新

  • nuclear2011 2021-08-11 09:37
    关注

    你的PDF表格基本都在PDF页面的同一个位置吗?如果在的话,可以读取页面指定位置内的内容,spire.pdf库有可以读取指定矩形区域内的数据的方法,你可以试试
    NuGet安装spire.pdf,添加下面的代码提取PDF页面指定区域文本:

    //创建PdfDocument实例  
    PdfDocument pdf = new PdfDocument();  
    //加载PDF文档  
    pdf.LoadFromFile("Input.pdf");  
       
    //获取第一页  
    PdfPageBase page = pdf.Pages[0];  
       
    //从第一页的指定矩形区域内提取文本  
    string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );  //位置根据你自己的PDF调整
       
    //将文本写入.txt文件  
    StringBuilder sb = new StringBuilder();  
    sb.AppendLine(text);  
    File.WriteAllText("Extract.txt", sb.ToString());
    
    
    评论

报告相同问题?

问题事件

  • 创建了问题 8月10日

悬赏问题

  • ¥15 需要手写数字信号处理Dsp三个简单题 不用太复杂
  • ¥15 数字信号处理考试111
  • ¥100 关于#audobe audition#的问题,如何解决?
  • ¥15 allegro17.2生成bom表是空白的
  • ¥15 请问一下怎么打通CAN通讯
  • ¥20 如何在 rocky9.4 部署 CDH6.3.2?
  • ¥35 navicat将excel中的数据导入mysql出错
  • ¥15 rt-thread线程切换的问题
  • ¥15 高通uboot 打印ubi init err 22
  • ¥15 R语言中lasso回归报错