Articles

差分プライバシーの紹介

Key Takeaways

  • 差分プライバシーは、結果を大幅に変更することなく、個々のエントリを保護するために、ランダム化された”ノイズ”を集計クエリ結果に追加することによって達成することができます。
  • 差別的にプライベートなアルゴリズムは、攻撃者がその人の記録がデータセットから欠落していた場合、攻撃者が学ぶよりも個人について事実上何も
  • 最も単純なアルゴリズムの一つは、集約クエリの結果を後処理することができるLaplaceメカニズムです。
  • AppleとGoogleの両方が、それぞれiOSとChromeで差分プライバシー技術を使用しています。 差動プライベートアルゴリズムは、Privitarによって開発されたものなど、プライバシーを維持する分析製品にも実装されています。
  • 差分プライベートアルゴリズムはまだ研究の活発な分野です。

差別的なプライバシーは、WWDCの基調講演で、エンジニアリングCraig FederighiのApple VPは、iOSでユーザーのプライバシーを保護するために、概念のAppleの使用を発表したとき、

それは一般的な傾向の最新のインスタンスでした:ユーザーとエンジニアは、ソフトウェアにおけるプライバシー保護の重要性に目覚めました。 Uberの「God mode」などの知名度の高いプライバシー侵害は、会社の従業員が顧客から収集した機密データを悪用することが容易であることを明確に示しています。

デジタル記録されている機密データの量は急速に増加しています。 人々は今、これまで以上に彼らの支払い、輸送、ナビゲーション、ショッピング、健康の多くのためのデジタルサービスに依存しています。 この新しいデータ収集により、プライバシーを侵害する方法が増え続けています。

しかし、それはまた、適切なデータ科学者や研究者が利用できるようになれば、交通ネットワークを改善し、犯罪を減らし、病気を治すための刺激的な機 データセット内の個人のプライバシーを保護することと、より良い世界につながる可能性のある分析を可能にすることとの間には、自然な緊張があ

差分プライベートアルゴリズムは、各個人のプライバシーの意味のある保護を保証しながら、アナリストが良性の集計分析を実行することができ、この緊張を緩和することができる有望な技術的なソリューションです。

この発展途上の技術分野は、機密データを分析しようとするあらゆるシステムで検討する価値があります。 差動プライバシー保証は、わずか10年前に考案されましたが、それは学界や産業界で成功しています。 研究者は急速にappleのiOSとGoogleのChromeの両方で採用されているそのうちのいくつかは、差別プライベートアルゴリズムを発明し、改善しています。

この記事では、差分プライバシーの定義と差分プライベートアルゴリズムの例とともに、現在の形式で差分プライバシーにつながる歴史的要因につ 次に、Google、Appleなどによる差別的にプライベートなアルゴリズムの最近の知名度の高い実装を見ていきます。

背景

差分プライベートアルゴリズムは、プライバシーを維持するデータ分析のための技術の数十年前の分野で最新のものです。

  1. 最小クエリセットサイズ
  2. Daleniusの統計的開示定義。

差分プライバシーのための有用な背景を提供するので、これらを最初に説明します。

最小クエリセットサイズ最初の概念は、最小クエリセットサイズであり、差分プライベートアルゴリズムと同様に、集約クエリの安全性を確保する 集計クエリとは、カウント、平均、合計など、データセット内のレコードのサブセット全体で戻り値が計算されるクエリのことです。 集計クエリは、「SELECT SUM」、「SELECT COUNT」、または「SELECT AVG」で始まるSQLクエリと考えると便利です。 その他のタイプの集計クエリには、分割表とヒストグラムが含まれます。

最小クエリセットサイズは、集計クエリが個人に関する情報を漏らすことができないようにするための制約です。 いくつかの設定されたしきい値番号Tを指定すると、すべての集約クエリが少なくともTレコードのセットで実行されることが保証されます。 クエリセットの最小サイズは、T個未満の個人を対象とした集計クエリをブロックします。 たとえば、T=2の場合、次のようにブロックされます。

“SELECT AVG(salary)WHERE name=’Troy Brown’;”。

このクエリは、1つのレコードに対して平均を実行するためです(Troy Brownが1つしかないと仮定します)。

最小クエリセットサイズを使用すると、特定の攻撃を防ぐことができますが、プライバシー保証は付属しておらず、実際には熟練した攻撃者によ たとえば、攻撃者は上記の攻撃を

“SELECT SUM(salary);”で達成することができます。

“合計を選択します(給与)どこに名前!=’トロイ-ブラウン’;”。あるいは、Troy Brownの年齢(45)とposition(WR)が彼を一意に識別することがわかっている場合:

“SELECT SUM(salary)WHERE position=’WR’;”。

“ポジション=’WR’と年齢の合計(給与)を選択します!= 45;

このような攻撃はトラッカー攻撃と呼ばれ、最小クエリセットサイズ制約によって停止することはできません。 これらの攻撃のため、クエリセットの最小サイズはクエリシステムを保護するための不十分な防御とみなされました(Denningの作業を参照)。 プライバシーを確保するためには、保証付きのより良いものが必要でした。

Daleniusの統計的開示定義

1977年、統計学者Tore Daleniusは、機密データセットを使用する前に知らなかった個人について攻撃者が何も学ばないようにすべきであるという、データプライバシーの厳密な定義を提案した。 この保証は失敗しましたが(そしてその理由がわかります)、差分プライバシーがなぜそのように構築されているのかを理解する上で重要です。

Daleniusの定義は、2006年にコンピュータ科学者Cynthia Dworkがこの保証を与えることは不可能であることを証明したために失敗しました。 彼女が見つけた問題は、特定の種類の背景情報が常に個人についての新しい結論につながる可能性があるということでした。 彼女の証明は、次の逸話に示されています: 私はアリスが平均的なリトアニアの女性よりも二インチ背が高いことを知っています。 それから私はリトアニアの女性のデータセットと対話し、私が前に知らなかった平均身長を計算します。 私は今、彼女がデータセットにいなかったにもかかわらず、アリスの身長を正確に知っています。 データセットの使用から個人に関する新しい結論につながる可能性のあるすべての種類の背景情報を説明することは不可能です。

Dworkは、上記を証明した後、新しい定義を提案しました:差分プライバシー。

差分プライバシーとは何ですか?

差分プライバシーは次のことを保証します: 攻撃者は、その人の記録がデータセットから欠落していた場合、彼らが学ぶよりも、個人についての事実上何も学ぶことができないこと。 Daleniusのプライバシーの定義よりも弱いが、保証は現実世界のインセンティブと一致するので十分に強い—そのデータセットのアナリストは、個人がデータセットに自分自身を含んでいるかどうかにかかわらず、その個人について同じ結論を引き出すため、個人はデータセットに参加しないインセンティブを持たない。 彼らの機密個人情報は、システムの出力にはほとんど無関係であるように、ユーザーは自分のデータを扱う組織が自分のプライバシーを侵害していないこ

アナリストは、”個人については事実上何もない”と学んでいることは、個人についての信念のわずかな変化に制限されていることを意味します。 (以下、”変更”とは、データセットを使用してから同じデータセットを使用してから、いずれかの個人のレコードを差し引いた変更を指します。)この変化の程度は、任意の結果の確率の変化の限界を設定するσと呼ばれるパラメータによって制御されます。 0.1のようなσの値が低いと、個人に関する信念がほとんど変化しないことを意味します。 50などのϵの値が高いと、信念が大幅に変化する可能性があることを意味します。 正式な定義は以下の通りである。

アルゴリズムAがσ-差分プライベートであるための必要十分条件は次のとおりです。

Pr≤e^σ*Pr

すべてのxとすべてのデータセットの対D,D’ここで、D’は任意の1つのレコード、すなわち1人のデータが欠落しているDである。 記号eは数学定数を指します。 この定義は、無作為化アルゴリズムに対してのみ意味があることに注意してください。 決定論的な出力を与えるアルゴリズムは、差分プライバシーの候補ではありません。

差動プライバシー保証の主な魅力は、任意のアナリストが個人について学ぶことができる量にその制限です。 さらに、次の有用な特性を持っています。

  • Composability:二つのクエリがレベルσ1とσ2の差分プライバシー保証で回答された場合、クエリのペアはレベル(σ1+σ2)の保証によってカバーされます。 Εの値が高いほど、保証が弱いことを思い出してください。
  • 任意の背景情報に対する強さ:保証は、攻撃者が知っている背景情報にいかなる方法にも依存しません。 この特性は、差分プライバシーが以前のプライバシー保証、k-匿名性よりも強い主な理由の一つです。
  • 後処理の下でのセキュリティ:差別的にプライベートな結果で何ができるかに制限はありません-それが何と組み合わされていても、どのように変

この保証はソフトウェアでどのように達成されますか? 差分プライベートアルゴリズムは、アルゴリズム内のキーポイントにノイズを追加する無作為化アルゴリズムです。 最も単純なアルゴリズムの1つはラプラス機構であり、集計クエリの結果(カウント、合計、平均など)を後処理して差分非公開にすることができます。 以下は、countクエリに固有のLaplaceメカニズムのJavaコードの例です:

import org.apache.commons.math3.distribution.LaplaceDistribution;double laplaceMechanismCount(long realCountResult, double epsilon) { LaplaceDistribution ld = new LaplaceDistribution(0, 1 / epsilon); double noise = ld.sample(); return realCountResult + noise;}

この関数の重要な部分は、

  1. 0を中心とし、1/πでスケーリングされたラプラス確率分布(図1参照)をインスタンス化することです。 Apache Commonsの実装である「LaplaceDistribution」を使用しています。これは、分布の平均と分布のスケールの2つの引数で構成されています。 より低いイプシロン(より多くのプライバシー)は、より大きなスケールをもたらし、したがってより広い分布とより多くのノイズをもたらすことに注意してください。
  2. この分布から一つのランダムサンプルを描画します。 このsample()関数は、0~1の乱数をとり、ラプラス分布の逆累積分布関数(CDF)をこの数値に適用します。 このプロセスは、任意の特定の値である可能性が分布と一致するような乱数を生成します。 それについて考える別の方法として、このサンプル関数が100万回呼び出されて100万サンプルを取得した場合、これらのサンプルのヒストグラムの形状はラプラス分布の形状と密接に一致します。
  3. ステップ2のランダムな値を加算して、実際の値を摂動させます。

Eveという名前の攻撃者の視点を取って、このアルゴリズムが差別的にプライベートである理由を考えてみましょう。 データセットが精神的健康データであり、Eveは彼女のターゲット、Bobがアルコール依存症のカウンセリングを受けるかどうかを明らかにするトラッカー攻撃(上記 クエリの結果が48の場合、EveはBobがカウンセリングを受けていることを知っています。47の場合、Eveは反対を知っています。答えが47または48であるかどうかにかかわらず、ラプラス機構は47または48の周りのどこかに騒々しい結果を返します。 これは、49、46、さらには、より小さな確率で44または51を返すことがあります(ヒストグラムについては図2を参照)。 実際には、Eveが真の答えが47か48であるかどうかを非常に確信することは不可能であり、Bobがアルコール依存症のカウンセリングを受けているのか、今のところ意味のあることは変わらないのかどうかについての彼女の信念は不可能である。

図1:スケールが1の0を中心とするラプラス分布。 図は、分布の確率密度関数(PDF)です-y軸は、変数がx軸上の値を取る相対的な尤度です。

図2:実際の答えが47で、48のときの2つのシナリオのカウントクエリの可能性のある結果。 少数の出力は、それらがどの分布から来たのかを区別するのに十分ではありません。 イプシロンは0.67に設定されます。この時点で、Eveがクエリを何度も繰り返し、回答が47または48の周りにクラスタ化されているかどうかを確認することで、ノイズをカットできることが観察されている可能性があります。 この戦術を防ぐために、差別的にプライベートシステムには、各クエリで使用されるϵの合計の上限である”プライバシー予算”が必要です。 このキャップは、上記の差分プライバシーのcomposabilityプロパティのために機能します。 彼らは、いくつかの比較的低ノイズのクエリ、または高ノイズのクエリの多くの何百もの質問をすることができますが、いずれにしても、彼らは自信を持って真の答えが47または48であるかどうかを確立することはできません。

最後に、カウントのラプラス機構は、単に一つの単純な差分プライベートアルゴリズムであることに注意してください。 Laplaceメカニズムは、合計やその他の集計クエリで機能するように拡張できます。 さらに、差分プライバシー保証を満たすことが証明されている根本的に異なるアルゴリズムがあります。 探索する価値のあるいくつかは、プライベート乗法重みアルゴリズム、乗法重み指数メカニズム、およびDualQueryです。

Differential privacy in action

2016年6月、Appleはiphoneから行動統計を収集するためにdifferentially private algorithmsを使用することを発表しました。 この発表は、差分プライバシーの関心の巨大なスパイクを引き起こすことに加えて、差分プライバシーは、彼らが原因で、以前に触れていなかったデータかAppleはこれまでのところ、いくつかの詳細を公開していますが、iPhoneで使用されるアルゴリズムは、GoogleのRAPPORプロジェクトに似ているようです。

Googleは、chromeブラウザからの行動統計を差別的にプライベートなランダム化応答アルゴリズムを介して収集する機能をChromeに実装しました。

ランダム化応答では、ランダムノイズはコレクタに送信される前に統計に追加されます。 たとえば、実数の統計量が0の場合、ブラウザはある確率で0を無作為に選択された0または1に置き換えます。 それはランダムな値である可能性があるため、各ユーザーは、彼らのソフトウェアが報告する値についての否定性の大きな程度を持っています。 しかし、集合的に、信号はランダムノイズの上に際立っており、統計を収集する組織(すなわち、GoogleやApple)は正確に傾向を観察することができます。

興味深いことに、GoogleもAppleも、私たちの知る限りでは、差別的なプライバシー保証に伴うϵの価値を明らかにしていません。 保証によって提供される保護を理解するには、この値が必要です。 十分に高い値のϵを使用する場合でも、アナリストは高い信頼性でユーザーに関する機密事実を学ぶことができます。 意味のあるプライバシー保護のためには、ϵの低い値が必要です。

差別的にプライベートアルゴリズムは、私の雇用主Privitarによって開発されたものなど、プライバシーを維持する分析製品にも実装されています。 これらの製品により、貴重で機密性の高いデータを扱う企業は、データアーキテクチャに差別的なプライベートアルゴリズムを組み込むことができ、データに対

先を見て

工学と研究の両方のコミュニティは、差別的なプライバシーを持つ前方のパスを持っています。 エンジニアにとっての課題は、差分プライバシーに関する教育を受け、ユーザーのプライバシー保護のために適切な場所で使用されるようにするこ 研究者のために、それは我々がプライバシーを維持するデータ分析を可能にすることが可能なツールセットを改善し、より多くの、より良い差別的にプライ

私たちは皆、プライバシー保証の確立とデータ分析の成功から得るために立っています。 どちらの理由からも、より多くの組織が差別的なプライバシーを採用することを楽しみにしています。

著者について

Charlie Cabotは、機密データセットの安全な使用を容易にするために、摂動および一般化アルゴリズムおよび差別的にプライベートメカニ Charlieは、証明可能なプライバシー保証と、匿名化が分析とデータサイエンスに与える統計的影響に焦点を当てています。 以前はサイバーセキュリティで働いていましたが、Charlieは機械学習によるマルウェア検出のアプローチを設計し、コンピュータネットワークに対するサイバー攻撃をモデル化しました。