分类筛选
分类筛选:

关于机器学习论文范文资料 与加密数据上的机器学习分类有关论文参考文献

版权:原创标记原创 主题:机器学习范文 科目:发表论文 2024-02-16

《加密数据上的机器学习分类》:本论文为您写机器学习毕业论文范文和职称论文提供相关论文参考文献,可免费下载。

摘 要:针对当前机器学习分类在许多设置中使用,而涉及到的数据和分类器保持隐秘的重要性.论文构建了三大分类协议满足这个隐私约束:超平面判定、朴素贝叶斯和决策树,也能够使这些协议与AdaBoost相结合.为了安全地构造分类器,这些架构的基础是一个新的构件库;证实这个库也可以被用于构建其它分类器,例如多路复用器和人脸检测分类器,实现和评估我们的库和分类器.当运行在真实的医疗数据集时,协议是有效的,以毫秒至几秒钟的时间去执行一个分类.

关键词:加密;隐私保护;机器学习

1 引言

如今,医疗或基因组预测、垃圾邮件检测、人脸识别和财务预测,这些任务的数据是非常敏感的,为了要处理这些数据,分类器是一个非常宝贵的工具.由于数据的加密性,数据和分类器保持隐秘性是很重要的.这个过程分为两个阶段:(1)训练阶段,该算法从一个标记实例的数据集中学习一个模型w;(2)分类阶段,在一个前所未见的特征向量x上运行分类器C,使用模型w输出预测结果C(x,w).

在上述这些应用中,经常要处理敏感数据,那么,特征向量x和模型w对一方或有关各方保密是至关重要的.在医学研究领域中,医院有一个模型建立了一些病人的秘密医疗档案,那么该模型就是比较敏感的.因为它可以泄漏病人的私密信息,而且它的使用必须符合健康保险携带和责任法案.那么,如果要用这个模型来预测她的健康状况(例如,如果她可能感染某种疾病,或者如果她在某个医院里治好了),在应用模型中,不想透露她敏感的医疗档案,因为她的档案是隐私的.那么可以这样设想,医院和客户达成一个协议,并且任何一方都不知道对方的输入,这样就能保证患者的档案是保密的.类似的情况也可以应用在金融机构(例如,保险公司),继续保持着敏感的模型,以及客户想要估计利率或基于她的服务质量,这些都是可以做到保密的.

2 隐私保护分类

在很多需要隐私保护的应用中,我们需要配置敏感的保密模型,具体而言,客户端有一个以特征向量x为代表的秘密输入,服务器有一个包含隐秘模型w的秘密输入.在这里,我们得到的模型w是独立于我们的协议的.例如,在明文数据照常运行训练阶段之后,服务器也可能计算了模型w.对用户输入的数据要进行分类,而分类就需要进行隐私保护,具体如下:客户端应该得知C(x,w),但没有其他关于模型w的,而服务器不应该获悉任何关于客户端的输入或分类结果.如图1所示.

每一個阴影框都表示只有一方可以访问秘密数据:数据集和模型在服务器端,输入和预测结果到客户端.每个实线矩形表示一种算法,单直线箭头表示输入到这些算法,45度单向箭头表示输出.

在这项工作中,我们为三个最常见的分类器构建高效的隐私保护协议:超平面判定、朴素贝叶斯和决策树,以及结合使用AdaBoost的更一般的分类器.这些分类器使用非常广泛.有许多机器学习算法都使用这些分类器,其中大部分机器学习算法最终会使用这三个分类器中的一个,如表1所示.

实际上,在原则上机器学习算法可以实现任何分类器,由于其通用性,这样的方案对于普通的分类器是没有效率的.在一个小型的实验中,类似这样的工具耗尽了具有256GB随机存储器.另外,在人工简化分类实例中,某些协议的效率是比较低的,尤其是在非简化实例中,这些协议比我们的协议运行慢500倍.

因此,协议专门应用于分类问题,并且能够保证这些协议有更好的性能.然而,在机器学习算法的工作重点是在训练阶段,做隐私保护,但是这些隐私保护不涉及数据的分类.较少的隐私保护分类工作应该考虑比较弱的安全设置客户端学习模型,或在有限的情况下,使用专注于特定的分类器.

设计高效的隐私保护分类面临两个主要挑战.首先是在对一些分类器计算过程中,需要执行过度敏感的数据,这是一个相当复杂的过程(例如,决策树),所以隐私保护很难有效地支持这个复杂的过程.二是提供一个比这三个分类器更通用的解决方案:也就是说,对于如何结合这些分类器,或者如何构建其他分类器,都为每个分类器构建一个单独的解决方案.尽管我们为三个最常见的分类器提供了隐私保护协议,对其他分类器进行了各种设置或使用,甚至使用了这三个分类器的组合.实验结果证明,我们可以应用两个关键技术来应对这些挑战.

3 隐私保护技术

主要技术之一是在加密数据上做一组核心操作,是许多分类协议的基础.发现这些操作是可比较的、Argmax和点积.我们为现有的方案做了一些改善,或者是构建新的方案,都采用一个效率比较高的协议.

第二个技术是以组合的方式,针对功能性和安全性设计这些构建.为了实现这一目标,使用了一组子技术.

通过加法同态加密方式,所有组件的输入和输出都是采用加密数据.另外,提供一种从一个加密方案切换到另一个加密方案的机制.直观地说,这使得一个组件的输出成为另一个组件的输入.

这些构件的API是灵活的,尽管每个构件计算一个固定的函数,它允许选择哪一方提供协议的输入,哪一方获得计算的输出,输出是否被加密或解密.这些协议的安全性构成了模块化的顺序组合.

本文重点强调分类器:一个用户的库可以以模块化的方式构建其他隐私保护分类器.为了证明这一点,使用组件来构造一个多路复用器和一个人脸检测分类器,以及使用AdaBoost来结合分类器.

4 加密数据上的机器学习分类

首先是为广泛的分类器提供高效的隐私保护协议.无论是在理论上,还是在实践中,都存在针对通用函数的两方安全的计算协议.然而,这些依靠深度加密机制,可以将他们直接应用到要解决的问题里,但是它将是非常低效的.

以前,专注于隐私保护机器学习的技术,大致可以分为两类:(1)隐私保护训练技术;(2)隐私保护分类技术.

值得一提的是,在机器学习领域中,有两类工作,分别是隐私保护分类工作和差分隐私工作,并且它们是互补的.我们的目的是隐藏每个用户的输入数据,直到进入分类阶段,而差分隐私的目的是从敏感的用户的训练数据中构建分类器和模型,泄露了训练数据集中每个个体有限数量的信息.

4.1 隐私保护训练

为隐私保护训练算法例如朴素贝叶斯、决策树、线性判别分类器和更普遍的方法开发了一组技术.

很多研究都使用少许同态加密方案,来研究如何同时训练几个机器学习分类器.主要是几个简单的分类器(例如,线性分类器),并且没有详细说明更复杂的算法(例如,支持向量机).其实这些算法也支持隐秘分类,但是在一个较弱的安全模型,客户端学习更多的模式,而不仅仅是最后的分类.事实上,在全同态加密(FHE)进行到最后,比较本身是比较低效的,我们采用交互式设置,从而解决了这一问题.

4.2 隐私保护分类

很多研究是为了解决隐私保护分类在实践中的一般性问题.第三方可以使用全同态加密.例如,在病人的加密数据上计算医疗预测函数.在他们的设置中,每个病人都知道预测模型,并且算法从云端只隐藏病人一端的数据输入.另一方面,我们的协议也从病人一端隐藏了该模型,但是,这样的算法不能采用,因为他们泄露了更多的信息,而不仅仅是对病人预测的那一点儿数据.此外,技术是明显不同的,分类器会直接地使用全同态加密,尽管这将导致显著的开销.

我们对构造线性分支程序做了安全评估,用它来实现一个安全的信号分类器,对这些分类器的加密电路进行了非常精细的构造.相比之下,结构是不限于分支程序(或决策树),并且评价结果显示,结构是分支程序的两倍,研究了基于神经网络的安全分类器,这是一个感知分类器的泛化.

5 结束语

文中构建了三个主要的隐私保护分类器,以及提供了一个构件库能够构造其他分类器.在真实的数据集上证明了分类器和库的高效性.

参考文献

[1] ShafiGoldwasser and Silvio Micali.Probabilistic encryption and how to play mental poker keeping secretall partial information. In STOC, pages 365–377. ACM, 1982.

机器学习论文参考资料:

结论:加密数据上的机器学习分类为大学硕士与本科机器学习毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写机器学习方面论文范文。

和你相关的