数据脱敏

数据脱敏的方法

替代

指用伪装数据完全替换源数据中的敏 感数据,一般替换用的数据都有不可逆性,以保证安 全。替代是最常用的数据脱敏方法,具体操作上有常 数替代(所有敏感数据都替换为唯一的常数值)、查 表替代(从中间表中随机或按照特定算法选择数据进 行替代)、参数化替代(以敏感数据作为输入,通过 特定函数形成新的替代数据)等。具体选择的替代算 法取决于效率、业务需求等因素间的平衡。替代方法 能够彻底的脱敏单类数据,但往往也会使相关字段失 去业务含义,对于查表替代而言,中间表的设计非常 关键。

混洗

主要通过对敏感数据进行跨行随机互 换来打破其与本行其他数据的关联关系,从而实现脱 敏。混洗可以在相当大范围内保证部分业务数据信息 (如有效数据范围、数据统计特征等),使脱敏后数 据看起来跟源数据更一致,与此同时也牺牲了一定的 安全性。一般混洗方法用于大数据集合、且需要保留 待脱敏数据特定特征的场景;对于小数据集,混洗形 成的目标数据有可能通过其他信息被还原,在使用的 时候需要特别慎重。

数值变换

指对数值和日期类型的源数据, 通过随机函数进行可控的调整(例如对于数值类型数据 随机增减20%;对于日期数据,随机增减200天),以 便在保持原始数据相关统计特征的同时,完成对具体数 值的伪装。数值变化通过调整变动幅度可以有效控制目 标数据的统计特征和真实度,是常用的脱敏方法。

加密

指对待脱敏数据进行加密处理,使 外部用户只看到无意义的加密后数据,同时在特定场 “云计算与大数据”专题 19 2015年第13期 景下,可以提供解密能力,使具有密钥的相关方可以 获得原数据。加密的方法存在一定的安全风险(密钥 泄露或加密强度不够);加密本身需要一定的计算 能力,对于大数据集来源会产生很大资源开销;一般 加密后数据与原始数据格式差异较大,“真实性”较 差。一般情况下,加密的数据脱敏方式应用不多。

遮挡

指对敏感数据的部分内 容用掩饰符号(如“X、*”)进行统一替换,从而使 得敏感数据保持部分内容公开。这种方法可以在很大 程度上脱敏的同时,保持原有数据感观,也是一种广 泛使用的方法。

空值插入/删除

指直接删除敏感数据或将 其置为NULL值。

|||20070x0011:00:00|NULL|NULL|||AAAA】