最近在尝试爬取某个小文库,遇到一些问题,特来请教;
1 一般来说文库的文本有几种形式呢?据我目前所知的只有有word型式,PPT。请问还有其他格式么?例如PDF格式?
2 在文库源码里有没有说明本文档是什么格式的的标签呢?如果没有的话,判断该怎么爬取这个页面的时候就只能用if else 的排除法了么?或者将爬取失败的页面保存起来,最后单独处理?
3 对于那种同时含有文字和表格或者图片的文档(如下图),如果想要达到一个正常的阅读标准话该如何处理这个情况呢?
望各位有识之士不吝赐教,不胜感激。