如何最高效的对一批数据的中每条数据的某字段长度进行校验

之前的项目碰到一个对导入数据进行校验的需求，大概描述为下：

通过excel导入一批学生数据，需要对其中每个学生的学号进行校验，将学号长度不符合（即万一出现学生学号少/多输了一位，输入不规范学号的情况此处不予考虑）的数据打回。

前提：

每一条数据都要进行校验
每批数据的错误率较低
每批学生的学号拥有一个固定的标准长度（事先并不知道）

有两个方向的想法。

通过求众数

①一开始考虑的是遍历数组寻找长度的众数再进行一一比较，于是问题就转化成了如何最快的寻找众数。

但是后来跟亲友交流后又觉得在错误率不高且每批数据标准学号长度唯一的情况下没必要通过遍历所有数组寻找众数

    ②就想通过随机取三四条数据再取其众数然后进行比较。

随机比较

后来觉得其实没有求众数的必要

    ③随机取两条数据，再将当前数据与这两条随机数据的学号长度进行比较，一旦出现不相等的情况就打回。

大概想到了以上三种方法，但是第一种当数据量大了后增加时间复杂度，后两种则是在数据量小的时候可能造成误判。

有在考虑是否应该根据数据量来决定调用哪种方法。

想问一下这种需求在降低复杂度且不会出错的前提下应该怎么进行处理最好呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-10-27 22:57
关注
https://blog.csdn.net/qiang_hao/article/details/79057946

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

django中对数据库里的批量数据进行分类并修改字段 django python 有问必答
2021-08-19 13:59

回答 2 已采纳既然使用了django了，当然使用ORM模型操作数据库效率更高一些。 python django框架ORM模型及ORM操作数据库笔记_wuhaiwenpps的博客-CSDN博客 ORM模
Spring boot 中使用Java对象分装数据，返回前台json数据字段不全 java 有问必答
2021-05-20 10:15

回答 10 已采纳 toString和mapper的xml映射字段不全，二者之一必有其一
python语法给文件中每条json追加字段追加数据 python
2022-12-10 12:34

回答 1 已采纳先读再写，比如这样 import json new = {"new":"test"} with open("test.json") as f: a = json.load(f) a.updat
EasyExcel 并发读取文件字段并进行校验，数据写入到新文件，批量插入数据到数据库
2020-09-29 11:15

哔哔小子的博客公司要求做一个数据统计类的功能，大概就是由每个地方采集数据用excel进行导入，根据地方大小每个文件的数量可能在10万-100万之间不等，导入时要求对每个字段进行校验，可能存在的规则有非空判断，时间格式判断，...
Mysql重复数据去重保留一条数据多字段去重 mysql sql 有问必答
2022-03-29 20:10

回答 4 已采纳 mysql版本是多少？8+有个row_number生成序号，删除序号大于1的记录即可，SQL如下 delete from student where id in( select id from(sel
java stream流 Collectors.groupingBy 分组，导致对象中几个字段数据变为null java 有问必答
2022-04-24 16:57

回答 2 已采纳看下你的代码吧，可以参考简单的案例： java8中的Collectors.groupingBy用法_兴国First的博客-CSDN博客_collectors.groupi
java 遍历集合时如果集合中某条数据相同，则将相同数据中的数量、价格、重量算出总和形成单独一条数据 java vue.js
2021-07-09 13:42

回答 3 已采纳加一个Map，将图号为key，将出库单的一行封装成一个类，将类的对象作为value。这样循环里每次先从map取值，map有值就把对应的数值相加，无值就在map中添加一条条目，最后遍历map打印在图表中
Java修仙之路，十万字吐血整理全网最完整Java学习笔记（基础篇）
2024-01-05 07:45

程序员小海绵【vincewm】的博客从Java环境的搭建到实际代码的编写，从基本用法的讲解到底层原理的剖析，深度解析Java基础知识。本文是《Java学习路线》专栏的起始文章，旨在提供一套完整的Java学习路线，覆盖Java基础知识、数据库、SSM/SpringBoot...
从数据库查出多条数据的一个字段都是同一条，如何进行判断 database java 数据库
2021-11-28 15:11

回答 3 已采纳判断返回的数据条数>=1就不插入，或者直接计算count，或者用in判断要插入的数据是否in数据库中
java如何判断sqlserver中取出数据的某一字段是否为空 java sql
2015-07-10 12:16

回答 3 已采纳 String类型接受的还是int类型？ String的话用 if(score ==null || "".equals(score)){ } int 类型的话直接 s
java循环列表，每天数据中字段字符串拼接效率问题 java spring boot 后端
2022-08-19 03:13

回答 5 已采纳
mysql数据迁移数据一致性检教6_数据迁移后的一致性校验
2021-01-26 07:08

weixin_39815345的博客背景目前正在对 scala 项目(某块业务)重构，重构成 Java 微服务，业务、表设计都有些许变化，其中涉及到数据迁移，简单来说就是从老表迁到新表(表结构发生了变化)。为了保证迁移前后数据的一致性，需要进行一些必要...
oracle数据库批量修改一个字段数据 oracle 数据库
2017-09-16 02:26

回答 2 已采纳 https://www.2cto.com/database/201701/589415.html
某Java大佬在地表最强Java企业（阿里）面试总结
2020-08-23 19:48

发呆哥o_o ....的博客面试题真的是博大精深，也通过这个面试题学到了很多...Hashtable 中的方法是Synchronize的，而HashMap中的方法在缺省情况下是非Synchronize的。 HashMap把Hashtable的contains方法去掉了，改成containsValue和contains.
JAVA 之POI导入批量新增、批量检查、日志记录、失败原因、失败条数、数据库映射
2022-05-07 18:16

hikktn的博客以及导入的数据失败的原因，成功的条数日志记录。 Excel的标题名和字段名数据库映射。思路数据映射之前其实是有一个版本，是按照getCell(0) 列数来获取的，并没有做数据映射。这个有一个问题，就是模板一旦出现...
没有解决我的问题, 去提问

悬赏问题

¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题
¥15 (标签-Python|关键词-socket)
¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法