差分隐私
差分隐私
差分隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。
假设 ε 是一个正实数,A是一个随机算法,它将数据集作为输入(表示信任方拥有的数据)。imA表示A的映射。对于在非单个元素(即,一个人的数据)的所有数据集D1和D2以及imA的所有子集S,算法A是 ε -差分隐私,其中概率取决于算法的随机性。
$$
Pr[A(D_1) \in S] \le e^ε \times Pr[A(D_2) \in S]
$$
例如:假设我们有一个医疗记录数据库 D1 在那里每条记录是一对 (名字, x), 其中 X 是一个布尔值表示一个人是否痪有糖尿病。例如:
姓名 | 有糖尿病 |
---|---|
Ross | 是1 |
Monica | 是1 |
Joey | 否0 |
Phoebe | 否0 |
Chandler | 是1 |
假设:
一个恶意用户 (通常被称为攻击者) 想知道Chandler是否有糖尿病。
他知道Chandler在数据库的哪一行。
攻击者只能使用特定形式的查询Qi返回数据库中前i行中第一列 X 的部分总和。
攻击者为了获取Chandler是否有糖尿病的信息,只需要执行两个查询 Q5(D1)和Q4(D1),分别计算前五行和前四行的总和,然后计算两个查询的差别。
在本例中Q5(D1)=3,Q4(D1)=2,差是1。攻击者在知道Chandler在第5行的情况下,就会知道他的糖尿病状况是1(有糖尿病)。
这个例子显示了即使在没有明确查询特定个人信息的情况下, 个人信息如何被泄露。
继续这个例子,如果我们用(Chandler,0)代替(Chandler,1)构造D2,那么这个恶意攻击者将能够通过计算每个数据集的Q5-Q4来区分D2和D1。 如果攻击者被要求通过ε-差分隐私算法接收Qi值,对于足够小的ε,则他将不能区分这两个数据集。
我们之前提到过,保护数据隐私的方法就是将原有的单一查询结果概率化。Laplace噪声就给我们提供了一个很好的概率化的方法。举个简单的例子,假如查询为“查询数据集中年龄小于20的人数”,并且查询结果为“50”:在传统模式下,输出就是50;在差分隐私模式下,会以比较大概率输出50左右的结果,也会以比较小的概率输出和50差别比较大的结果。但是,我们需要保证输出的期望为50(保证数据有效性)。
灵敏度
用于评判添加了噪音的输出与原属于的差距是否足够大,大到基本能够满足混淆adversary对得到数据进行评估的可能性。
$$
\triangle f = \max_{x,y \in \mathbb{N}^{|\chi|}, ||x-y||_1 = 1} ||f(x) - f(y)||_1
$$
差分隐私的其他概念
对很多应用而言, 差分隐私被认为过于严格, 因此建议了许多被弱化的版本。这些包括 (ε, δ)-差分隐私, 随机差分隐私, 以及特定标度的隐私。
差分隐私机制
拉普拉斯机制
给定查询函数$ f: \mathbb{N}^{\chi} \to \mathbb{R}^{k} $ ,拉普拉斯机制可以表示为:
$$
M_L(x,f(·), ε) = f(x) + (Y_1, Y_2, …, Y_k)
$$
其中,$ Y_i $是独立同分布的变量,为$Lap(\frac{\triangle f}{ε} )$ 。
验证
假设 $p_x$ 表示$M_L(x,f,ε)$ 的pdf(probability density function), $p_y$表示 $M_L(y,f,ε)$的pdf,则对于某个输出$\mathcal{z}$,我们有:
$$
\begin{align*}
\frac{p_x(\mathcal{z})}{p_y({\mathcal{z}})} &= \prod_{i=1}^{k} \frac{exp(-\frac{ε|f(x)_i - \mathcal{z}_i|}{\triangle f})}{exp(-\frac{ε|f(y)_i - \mathcal{z}i|}{\triangle f})} \
&=\prod{i=1}^{k}exp \frac{ε(|f(y)_i - \mathcal{z}_i| - |f(x)_i - \mathcal{z}i|)}{\triangle f} \
&\le \prod{i=1}^{k}exp (\frac{ε(|f(x)_i - f(y)_i|)}{\triangle f}) \
&= exp(\frac{ε·||f(x) - f(y)||_1}{\triangle f})\
&\le exp(ε)
\end{align*}
$$