night098 2020-12-05 18:17 采纳率: 0%
浏览 7

如何根据原始数据生成能够保留其主要特征的非密测试数据?

一方面,对于数据所有者而言,不少数据较为敏感,不方便直接提供给数据挖掘算法研究人员;

另一方面,数据挖掘算法研究人员如果不了解实际数据的特征,也不太容易快速开发出好用的数据挖掘算法

如何解决这两者之间的矛盾呢?我想根据实际数据生成保留其主要特征的非密测试数据也许是一种方法...但具体如何实现,好像没有查到太多资料......

请问各位大神,这方面有没有什么比较成熟的方法呢?或是还有其他更好用的方法?

  • 写回答

1条回答 默认 最新

  • 憧憬blog 2023-03-15 00:00
    关注

    对于这个问题,有一个比较流行的方法是使用数据脱敏技术。数据脱敏是一种保护敏感数据隐私的技术,让人们得以在不触犯隐私法规的情况下分享数据。简单来说,就是通过去除或替换数据中的敏感信息,使得数据仍然具备一定的实用性,但是不会泄露数据所有者的隐私信息。

    具体实现方式有很多种,比如:

    1. 数据匿名化:去除掉数据中的个人身份信息,如姓名、地址、电话号码等。可以使用哈希函数或公共密钥等技术进行匿名化。

    2. 数据脱敏:将数据中的敏感信息用随机数字或字母替换,使得数据仍然可以使用,但是无法识别其中的具体内容。

    3. 差分隐私:对每个数据进行微小的扰动,以保护个体隐私并尽可能地保留数据的分布特征。

    使用数据脱敏技术,可以生成保护隐私的非密测试数据,并且保留原始数据的主要特征。但是需要注意的是,数据脱敏也会带来一定程度的数据质量损失,所以需要选择适合的脱敏方法和参数,以平衡隐私和数据质量的需求。

    评论

报告相同问题?

悬赏问题

  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
  • ¥15 ubuntu系统下挂载磁盘上执行./提示权限不够
  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码
  • ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型