扭秧歌的一只泱 2019-10-27 17:45 采纳率: 0%
浏览 590

如何最高效的对一批数据的中每条数据的某字段长度进行校验

之前的项目碰到一个对导入数据进行校验的需求,大概描述为下:

通过excel导入一批学生数据,需要对其中每个学生的学号进行校验,将学号长度不符合(即万一出现学生学号少/多输了一位,输入不规范学号的情况此处不予考虑)的数据打回。

前提:

  1. 每一条数据都要进行校验
  2. 每批数据的错误率较低
  3. 每批学生的学号拥有一个固定的标准长度(事先并不知道)

有两个方向的想法。

  • 通过求众数

    ①一开始考虑的是遍历数组寻找长度的众数再进行一一比较,于是问题就转化成了如何最快的寻找众数。
    

但是后来跟亲友交流后又觉得在错误率不高且每批数据标准学号长度唯一的情况下没必要通过遍历所有数组寻找众数

    ②就想通过随机取三四条数据再取其众数然后进行比较。
  • 随机比较

后来觉得其实没有求众数的必要

    ③随机取两条数据,再将当前数据与这两条随机数据的学号长度进行比较,一旦出现不相等的情况就打回。

大概想到了以上三种方法,但是第一种当数据量大了后增加时间复杂度,后两种则是在数据量小的时候可能造成误判。

有在考虑是否应该根据数据量来决定调用哪种方法。

想问一下这种需求在降低复杂度且不会出错的前提下应该怎么进行处理最好呢?

  • 写回答

1条回答 默认 最新

  • 关注
    评论

报告相同问题?

悬赏问题

  • ¥15 phython路径名过长报错 不知道什么问题
  • ¥15 深度学习中模型转换该怎么实现
  • ¥15 HLs设计手写数字识别程序编译通不过
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 TYPCE母转母,插入认方向
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?
  • ¥15 matlab(相关搜索:紧聚焦)
  • ¥15 基于51单片机的厨房煤气泄露检测报警系统设计
  • ¥15 Arduino无法同时连接多个hx711模块,如何解决?