zhangzxpan 2023-01-03 11:14 采纳率: 76.5%
浏览 74
已结题

如何对表格进行分类?

有很多张如下所示的已经填写好的表格,但表的类别不一样,类似于有《人员信息表》、《企业信息表》、《家属信息表》三种表,三种报表都有模板,表里的内容和格式都不一样,很多张表混合在一起,仅仅针对表格信息,不通过读取表头的形式,我应该如何对表格进行分类,有什么算法推荐吗?

img

  • 写回答

8条回答 默认 最新

  • Mr数据杨 优质创作者: python技术领域 2023-01-04 10:08
    关注

    直接OCR识别每种表格关键位置信息就行了,表格是不是应该有title。

    如果非要自己建模的话这个稍微麻烦点,可以参考流程

    准备数据:读取所有的表格,提取出表格中的信息,形成一个数据集。

    预处理数据:对数据进行预处理,包括缺失值处理、异常值处理、特征选择等。

    建立模型:使用聚类算法建立模型,如 K-Means、层次聚类算法等。

    评估模型:使用聚类评估指标,如轮廓系数、轮廓分数等,来评估模型的效果。

    应用模型:使用聚类模型对新的数据进行分类。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(7条)

报告相同问题?

问题事件

  • 系统已结题 1月17日
  • 已采纳回答 1月9日
  • 创建了问题 1月3日