第一种分类:有很多文档,比如word,ppt,pdf类型,需要按照文件的名称对它们进行分类,当名称中包含某个关键字时,就分为一类;
第二种分类:文档打开里面的内容,如果出现了某个关键字,就归为一类;
若要实现这两种分类,具体实现方法什么,用文字描述其流程。
重点想了解根据关键字进行文件分类的方法,把技术和流程用文字描述出来
第一种分类:有很多文档,比如word,ppt,pdf类型,需要按照文件的名称对它们进行分类,当名称中包含某个关键字时,就分为一类;
第二种分类:文档打开里面的内容,如果出现了某个关键字,就归为一类;
若要实现这两种分类,具体实现方法什么,用文字描述其流程。
重点想了解根据关键字进行文件分类的方法,把技术和流程用文字描述出来
如果不涉及关键字的提取,那么这就是一个机械的过程。
比如说用Java,那么用String.indexOf就可以判断一个字符串里面有没有关键字。
读取word ppt可以用poi库,读取pdf可以用itext库,如果pdf里面的文字是图片扫描,可以用ocr先识别。