请问怎样用C/C++读取PDF文件中的内容

想用C/C++读取PDF文件中的内容,并保存为txt格式,但技术有限,望哪位大神指点一下

4个回答

要安装pdf支持库,再参考api编程手册,网上找找。

u011514451
hpu刘 谢谢,慢慢研究研究
大约 3 年之前 回复

看看知乎的这个帖子:c++读取pdf文件用什么库?

hijack00
hijack00 回复hpu刘: 那里面有人说xpdf可以把pdf导出为html、txt,可以执行文本搜索,我没有实际做过这方面的软件开发,所以也不好做深入评论。反正主要的思路就是找一些开源的C/C++库
大约 3 年之前 回复
u011514451
hpu刘 里面讲的好像只是把pdf文件保存为图片格式,并没有提保存为txt的事
大约 3 年之前 回复

不知道你的技术多么有限,如果非常非常有限,我建议你用命令行的方式调用pdftotxt这个程序。
http://www.appinn.com/pdf-to-txt-aisnote/
用winexec shellexecute system等都可以调用外部exe

u011514451
hpu刘 我想用C/C++做个这样的demo方便日后使用
大约 3 年之前 回复

上网找下PDFClassLibrary.tlb,PDFClassLibrary.tlh,PDFClassLibrary.tli类库吧,我用这个计取了pdf文件内容的图形数据,如
/OC /MC0 BDC
q
0 4251.97 4251.97 -4251.97 re
W n
0 0 0 RG
0 w 4 M 1 j 1 J
/GS0 gs
q 1 0 0 1 962.1284 2283.5767 cm
0 0 m
31.928 47.207 89.951 66.088 159.585 75.53 c
229.223 84.972 419.272 99.134 464.238 91.279 c
509.215 83.404 564.348 51.928 574.506 -22.037 c
579.646 -59.518 574.506 -253.357 y
571.599 -306.853 545.485 -338.33 v
519.373 -369.803 478.757 -379.246 459.886 -379.246 c
441.034 -379.246 311.912 -382.399 262.594 -377.677 c
124.761 -365.083 88.5 -355.641 v
52.228 -346.199 -8.711 -308.42 -17.407 -250.213 c
-26.112 -191.986 -26.112 -113.3 -20.314 -66.093 c
-14.5 -18.884 0 0 y
S
Q
EMC
Q
但是还没解析出y和v结尾的是什么类型数据。

dianfeng0344
巅峰 回复serify: 好像还是16年做的功能了,在VC6下用的就是PDFClassLibrary.tlb,PDFClassLibrary.tlh,PDFClassLibrary.tli类库
6 个月之前 回复
qq_44764802
serify 老哥是用什么提取的图形数据啊,可以发我一份吗,y和v和c是一样的,都是贝塞尔曲线
6 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!