大数据筛选，6位数盲盒抽中奖概率问题

6位数盲盒抽奖游戏
例如在25选6所有排列组合中，目标中奖号码是必定在这组合里的一个。
例如现在给一批25选6的分数据，事先不会告诉你中奖号码。但知道里面的组合最多只能命中目标5个号码，最少一个都没有。现在以分数据作为依据，与总数据对比筛选。缩小范围，提高命中率。
总数据120万左右(无重复)，分数据11万左右(有重复，估计认为不重复10万)。

以正常理解，用总数据与分数据直接对比，剔除后剩余110万左右排列组合数据量。范围太大，不可取。现已知分数据里的排列组合最多只能命中5位数，最少0位。中奖号码在未知情况下，不确定必然中奖码。用什么筛选逻辑缩减到可实施的范围内(100组以内)，必然包括中奖号码。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
发愤图强的程序员 2023-04-12 23:50
关注
一种可能的策略是，先将分数据中的每个数字单独筛选出来，得到6个数字集合。然后对于每个数字集合，从总数据中筛选出包含该集合中至少1个数字的所有组合，得到6个子数据集合。接下来，对于每个子数据集合，计算其与目标中奖号码的匹配度，即该子数据集合中包含的目标号码数量。最后，将匹配度最高的前50-100个子数据集合作为最终的筛选结果。
具体实现步骤如下：
将分数据中的每个数字单独筛选出来，得到6个数字集合。
对于每个数字集合，从总数据中筛选出包含该集合中至少1个数字的所有组合，得到6个子数据集合。可以使用哈希表等数据结构来加速筛选过程。对于每个子数据集合，计算其与目标中奖号码的匹配度，即该子数据集合中包含的目标号码数量。可以使用位运算等技巧来快速计算匹配度。
将匹配度最高的前50-100个子数据集合作为最终的筛选结果。
具体实现时，可以使用Python等编程语言来实现。以下是一个简单的示例代码：

import itertools # 目标中奖号码 target = set([1, 2, 3, 4, 5, 6]) # 分数据 data = [ [1, 2, 3, 4, 5, 25], [1, 6, 7, 10, 15, 23], # ... ] # 将分数据中的每个数字单独筛选出来，得到6个数字集合 digit_sets = [set(d) for d in zip(*data)] # 对于每个数字集合，从总数据中筛选出包含该集合中至少1个数字的所有组合 subsets = [] for digits in digit_sets: subset = set() for d in digits: subset |= set(filter(lambda x: d in x, total_data)) subsets.append(subset) # 对于每个子数据集合，计算其与目标中奖号码的匹配度 scores = [] for subset in subsets: score = sum([1 for t in target if t in subset]) scores.append(score) # 将匹配度最高的前50-100个子数据集合作为最终的筛选结果 result = [] for i in sorted(range(len(scores)), key=lambda x: scores[x], reverse=True)[:100]: result.append(subsets[i])
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【企业网、园区网、数据中心、广域网】各类业务网络及其网络演算算法
2025-12-17 08:47

flyair_China的博客场景第一优先级第二优先级第三优先级园区网访问控制无线安全应用安全小区网络用户隔离设备安全内容安全企业办公终端安全数据防泄露威胁检测企业内网网络分段协议安全物理安全广域网传输加密端点安全可用性保障数据...
什么是大数据（转自知乎）
2019-05-27 09:46

jywlchuang的博客声明：纯属个人收藏用！什么是大数据 大数据只是一个空洞的商业术语，就跟所谓的商业智能一样空洞无物。...如今任何一家（移动）互联网公司都忙着把自己标榜为大数据公司，或者干脆说自己是一家数据公司。遗憾...
和平星-院校小计（道听途说版）-HNU-21级-计科
2024-04-23 16:23

_蟑螂恶霸_的博客面试：英语提问：直接提问专业课问题，建议将数据结构与离散数学涉及的常见算法的步骤，自己用英文梳理一遍并记住专业课/项目：主要是408（提问最多，也是问的最深的）科研经历；（3）南大ai 仅招收专业：...
51c大模型~合集168
2025-08-08 18:04

whaosoft-143的博客下面展示了一个示例：，时长02:21 如表 2 所示，与现有的 GUI 数据集相比，AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。表2：AgentNet 数据集与现有GUI数据集对比为实现稳定、...
NISP
2020-07-21 21:34

TzerQ的博客 NISP七月份练习01 文章目录NISP七月份练习01NISP七月份练习02NISP七月份练习03NISP七月份练习04NISP七月份练习05NISP七月份练习06...1我国的（　）主要规定了关于数据电文、电子签名与认证及相关的法律责任 A.《中华人
一个程序员的成长之路
2023-04-13 16:01

weixin_35713159的博客 equals一般比较对象内容是否相等，而==...原因：在一个范围中的浮点数个数不是有限的，存在精度问题，如果要进行比较，使用BigDecimal并使用BigDecimal提供的对象方法进行计算，构造时使用String作为入参防止丢失精度。
数据科学团队构建指南（一）
2024-08-24 00:54

绝不原创的飞龙的博客那么什么是数据科学家呢？数据科学家比其他类型的科学家更难定义。如果你是政治科学家或气候科学家，你有一个既定项目的学位。在“数据科学”成为一门定义明确的学科之前，“数据科学家”一词就已经被广泛使用。即使...
春招面试题库（数据分析相关岗位）
2025-04-15 13:35

Mikrokosmos_613的博客对比分析主要是指将两个相互联系的指标数据进行比较，从数量上展示和说明研究对象的发展情况（规模大小、水平高低、速度快慢等），通过相同维度下的指标对比，可以发现、找出业务在不同阶段的问题。【注意】绝对...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月13日
展开全部

大数据筛选，6位数盲盒抽中奖概率问题

10条回答 默认 最新

问题事件

10条回答默认最新