联邦奇异值分解技术实现“颠覆”式效率提升

文章正文
发布时间:2024-11-17 05:51

 
从两年缩短为两分钟!  
联邦奇异值分解技术实现“颠覆”式效率提升  
 

日前,香港科技大学与星云Clustar团队基于掩码的联邦基础构建组件研究被国际计算机协会(ACM)2022年国际数据挖掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining )录用。据了解,该项研究成果FedSVD技术可将奇异值分解效率从全同态方法所需的2年加速到2分钟,实现颠覆式效率提升。

ACM SIGKDD“国际数据挖掘与知识发现大会”是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

奇异值分解(SVD)是一种广泛使用的矩阵分解技术。利用SVD,可以完成主成分分析(PCA)、线性回归(LR)、潜在语义分析(LSA)等众多的机器学习任务。传统解决方案中的SVD要求将数据集中化存储,而随着社会隐私保护意识的提升以及隐私保护条例的颁布,数据的集中化采集违背了隐私保护的要求,SVD的应用也受到了很大影响。为了保护数据隐私,两种类型的联邦SVD方案被提出:基于差分隐私(DP)的联邦SVD;基于同态加密(HE)的联邦SVD。

据相关负责人介绍,现有联邦SVD方案存在一定缺陷,主要包括:差分隐私(DP)的联邦SVD由于引入了不可以移除的噪声,带来了数据可用性上的损失,例如造成模型准确性下降;基于同态加密(HE)的联邦SVD由于使用了加密技术,加密后的密文比明文膨胀很多倍,造成计算效率很低,无法支持大规模数据。金融数据线性回归、自然语言处理潜在语义分析等SVD实际应用场景都对模型准确性和大规模数据的支持有较高要求。但是,目前没有工作可以同时实现支撑大规模数据和模型无损。

效率问题一直是隐私计算行业的重中之重。业界认为,要解决隐私计算的效率问题,需要结合具体企业、具体业务,进行具体分析,选择最适配的基础构建组件,而不是强行追求统一的方式。隐私计算可信联邦学习的未来是多技术、多方案融合并举的,要选择最能落地的来提升效率。选择对自己最有效率的基础构建组件只是第一步,继续优化和加速这个基础构建组件是第二步。双管齐下,效率才能真正提升。

基于此,香港科技大学联合星云Clustar研究团队提出一种基于掩码的联邦SVD思路。该方案使用了一种专门为SVD设计、可移除的掩码。该掩码可从计算结果中完全移除;同时,加掩码后不会造成数据膨胀,所以可以同时保证效率和无损。

在安全性分析方面,该项研究从理论分析和攻击实验两个角度进行安全性分析,理论分析详情请参考论文,攻击实验结果表明,在参数设置合理时,攻击者无法借助独立主成分分析攻击(ICA Attack,一种在数据库中专门设计用来攻击带随机掩码数据的方法)攻击获取到有效的数据信息。

在性能方面,实验结果表明,FedSVD方案误差比基于差分隐私(DP)的联邦SVD小10个数量级,耗时比基于同态加密(HE)的联邦SVD快超过10000倍。此外,大规模数据试验证明FedSVD方案可以很好地支持10亿以上数据规模的SVD以及主成分分析、线性回归、潜在语义分析三种应用。

相关论文信息:https://doi.org/10.1145/3534678.3539402(会议上线后有效)

 

版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。

首页
评论
分享
Top