上周的数据隐私日中,Google宣布用于保护开发人员隐私的差分隐私(differential privacy)工具,继之前三项开发语言族群后,再扩大到Python用户

回顾2019年9月,谷歌已先行开放differential privacy基础库的C++、Java及Go的源代码。 所谓的差分隐私,是一个数据共享方法,仅分享描述数据库的一些统计特征,而不公开具体个人信息,其精神是如果随机修改数据库中的一个记录造成的影响够小,所求得的统计特征,就不能被用来反推出单一记录的内容,即在保留统计学特征的前提之下,能够去除个体特征以保护用户隐私。
谷歌产品经理Miguel Guevara指出,differential-privacy这项开源项目的目的是希望提供公开透明的方式,让研究人员可检查当中代码。 去年的项目引发回响,例如开发医疗数据隐私分析工具的开发商Arkhn等,以及希望通过可证实的私有数据来加速科学发现的澳大利亚开发者。
因此谷歌进一步和开源界开发商OpenMined合作,经过一年的努力,今年1月28日举行的资料隐私日,两家公司共同宣布新的差分隐私工具PipelineDP,让Python开发商可以在差分隐私保护下处理资料。 这也让这家软件大厂的差分隐私库扩及占全球半数的Python开发族群。
目前已有单位利用这套Python库实验新的应用情境,像是以集结、匿名方式显示每个网站当中各国造访次数最高的网页。 这个库可配合大型数据处理最主流的两个引擎:Spark和Beam框架使用,为使用及实践提供更大的弹性。
谷歌也会持续发展新的差分隐私工具,供开发人员执行数据的图解呈现,以及调校产生差别隐私信息的参数。 此外他们也会发布论文,公开将差分隐私扩充到超过1 PB规模的数据集。
目前,谷歌 内部也正在训练开发差分隐私方案的团队,这当中包括人流报告(Mobility Reports)与 谷歌 Maps「最受欢迎次数」功能幕后的基础架构,他们也将协助OpenMined建立专家团队,提供差分隐私技术部署的学习资源。 谷歌也鼓励开发人员加入实验差分隐私应用情境,像是统计分析、机器学习,并提供反馈意见。
微信扫一扫
