解析.doc和.docx以使用golang获取所有文本?

如何使用golang解析单词文档“ .doc”,“。docx”以获取所有文本?< / p>
</ div>

展开原文

原文

How can I parse word documents ".doc", ".docx" to get all the text using golang?

dongma7725
dongma7725 为什么这被否决?这是google的第一个结果。
3 年多之前 回复

2个回答



您可以从这些项目中获得一些启发:</ p>

https://github.com/nguyenthenguyen/docx

https://github.com/opencontrol/doc-template </ p>

基本上,DOCX是一个包含XML的Zip文件。

所有文本都在 document.xml </ code> </ p>

中,两个项目都要做的是删除所有XML标签,仅保留文本。 您应该查看该方法是否也适合您。</ p>
</ div>

展开原文

原文

You can get some inspiration from those projects:

https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template

Basically, DOCX is a Zip file with XMLs in it. All the texts are inside document.xml

What both project do is remove all XML tags, leaving only text intact. You should see if that approach suits you too.

用 unioffice这个库。不过不太懂怎么用……

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问