duanpie2414 2016-10-22 19:52
浏览 2567
已采纳

解析.doc和.docx以使用golang获取所有文本?

How can I parse word documents ".doc", ".docx" to get all the text using golang?

  • 写回答

2条回答 默认 最新

  • doumian3780 2016-10-22 20:27
    关注

    You can get some inspiration from those projects:

    https://github.com/nguyenthenguyen/docx
    https://github.com/opencontrol/doc-template

    Basically, DOCX is a Zip file with XMLs in it. All the texts are inside document.xml

    What both project do is remove all XML tags, leaving only text intact. You should see if that approach suits you too.

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥20 java在应用程序里获取不到扬声器设备
  • ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
  • ¥60 许可证msc licensing软件报错显示已有相同版本软件,但是下一步显示无法读取日志目录。
  • ¥15 Attention is all you need 的代码运行
  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加