【中培课堂】海量涌现的数据处理工具和强大的功能保障了大数据分析可能性。然而,这个大数据领域往往伴随着的是数据隐私方面的问题。在这庞大的信息库中,个人身份信息,如姓名、地址和社保号码可能存在,也可能从这.....
Dataguise,数据安全情报和保护解决方案的领先厂商,最近发布了在Hadoop中保护敏感数据安全的十种最佳实践。专业人员可以通过遵循这些规则,为企业数据管理和安全管理保驾护航。
海量涌现的数据处理工具和强大的功能保障了大数据分析可能性。然而,这个大数据领域往往伴随着的是数据隐私方面的问题。在这庞大的信息库中,个人身份信息,如姓名、地址和社保号码可能存在,也可能从这些数据中发现大量的财务数据,如信用卡和帐户号码,只有通过精心策划、测试及使用前的准备工作,并适当使用技术,才可缓解这些担忧。
以下是在Hadoop中保护敏感数据安全的十种最佳实践,这在早期规划阶段尤其重要。
1.在规划阶段确定数据的隐私保护策略,最好是在将数据迁移到Hadoop之前。这可以防止破坏数据的合规性,并避免了计划的不可预测性。
2.确定哪些数据元素的定义在组织内是敏感的。考虑公司的隐私保护政策,相关的行业法规和政府规章。
3.浏览敏感的数据是否被嵌入到环境中,收集了或将被收集到Hadoop。
4.在收集的基础数据中判断数据的合规风险。
5.确定商业分析是否需要访问真实数据,或者是否可以使用脱敏数据(去掉敏感数据的数据),然后,选择合适的修复技术(掩蔽或加密)。如有疑问,请记住,从长远看,掩蔽提供了最安全的数据修复方式,加密赋予了数据最大的灵活性。
6.如果需要分区存储正常数据和脱敏数据,需要考虑支持相应功能的数据保护解决方案。
7.确保掩蔽措施所做的数据保护技术实现跨越所有的数据文件,保护数据分析的准备性。
8.确定是否需要为特定的数据集量身定制保护措施,并考虑将Hadoop拆分成小的管理单元,数据安全的保护也落实到各管理单元。
9.确保选择的加密解决方案可与公司的访问控制技术对接,允许用户使用不同的id有选择性的在Hadoop集群中的数据访问。
10.确保需要加密时,适当的技术(JAVA,猪等)部署为允许无缝解密,并确保数据的快速访问。