现在有几十个G的caj文件,这批文件可以用CAJViewer程序打开,也可以使用CAJViewer工具中的另存为功能把它存为txt文件,但是我这几十个G的文件有好几十万个,用人手工使用CAJViewer工具来转换显然不现实。请问:
1)是否有现成的工具将大量caj文件批量转换txt格式文件
2)如果没有现成工具,请问是否可以采取自己编写代码,通过调用某种组件来读取caj文件中的文字?
寻找将CAJ格式文档转txt文本的方案
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
30条回答 默认 最新
阿里嘎多学长 2024-07-02 19:26关注获得0.30元问题酬金 以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:
您好,针对您的需求,我找到了一些可能的解决方案:
1)现成的工具:目前没有找到专门批量将CAJ文件转换为txt格式的现成工具。不过,有一些在线服务和第三方库可能可以提供帮助。例如,您可以使用“易转换”网站提供的在线免费服务将CAJ文档转换为TXT文件[^4^]。此外,还有CAJViewer的另存为功能,虽然这需要手动操作,但可以作为参考[^3^]。
2)编写代码:如果您熟悉Python编程,可以考虑使用Python来编写脚本实现批量转换。搜索结果中提到了使用PyMuPDF库将CAJ文件转换为PDF,然后可能需要进一步处理PDF以提取文本[^1^]。另外,有一个名为
caj2pdf-restructured的Python项目,它提供了将CAJ文件转换为PDF的功能,但请注意,这个项目目前只支持部分CAJ文件的转换,并且转换得到的PDF内容可能为图片格式,无法直接提取文字[^5^]。由于直接将CAJ转换为txt的现成工具不多,编写代码可能是一个可行的解决方案。如果您决定编写代码,可能需要结合多个库和工具来实现这一功能。例如,您可以使用
caj2pdf-restructured将CAJ转换为PDF,然后使用Python的PDF处理库如PyPDF2来提取文本内容。希望这些信息对您有所帮助。如果您需要进一步的帮助或有其他问题,请随时告诉我。
解决 无用评论 打赏 举报 编辑记录