识别PDF中的表格现在做到了什么程度?

解析PDF中的表格除了pdfminer、tabula、pdfplumber 这三种Python库,还有其他较好的Python库吗?PDF中的表格识别现在做到了那种程度?可以识别成有用的数据吗?(可以让表格输出为有规律的文本或者形成字典吗)

2个回答

商业的话,可以用某些云计算的paas服务,在线识别。人家是针对各种样本调优过的,效果肯定比你简单用几个库好很多。

caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复Mr.小白: 你可以试试看,人家提供免费试用的
8 个月之前 回复
cjx14060307101
搞点學術的研究生 谢谢,那就是PDF中的这种表格可以实现按照相应的格式读取出来。我有上万份PDF文档,想提取里面的表格信息,最近一直在想解决方法。我再研究研究,感谢您的回答
8 个月之前 回复

adobe的识别效果还不错

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!