有很多张如下所示的已经填写好的表格,但表的类别不一样,类似于有《人员信息表》、《企业信息表》、《家属信息表》三种表,三种报表都有模板,表里的内容和格式都不一样,很多张表混合在一起,仅仅针对表格信息,不通过读取表头的形式,我应该如何对表格进行分类,有什么算法推荐吗?
收起
直接OCR识别每种表格关键位置信息就行了,表格是不是应该有title。
如果非要自己建模的话这个稍微麻烦点,可以参考流程
准备数据:读取所有的表格,提取出表格中的信息,形成一个数据集。
预处理数据:对数据进行预处理,包括缺失值处理、异常值处理、特征选择等。
建立模型:使用聚类算法建立模型,如 K-Means、层次聚类算法等。
评估模型:使用聚类评估指标,如轮廓系数、轮廓分数等,来评估模型的效果。
应用模型:使用聚类模型对新的数据进行分类。
报告相同问题?