Articles

Bevezetés a differenciális Adatvédelembe

kulcs elvihető

  • a differenciális Adatvédelem úgy érhető el, hogy randomizált “zajt” ad hozzá egy összesített lekérdezési eredményhez, hogy megvédje az egyes bejegyzéseket anélkül, hogy jelentősen megváltoztatná az eredményt.
  • a Differenciálisan privát algoritmusok garantálják, hogy a támadó gyakorlatilag semmit sem tanulhat meg az egyénről, mint amennyit megtanulna, ha az adott személy rekordja hiányzik az adatkészletből.
  • az egyik legegyszerűbb algoritmus a Laplace mechanizmus, amely képes feldolgozni az összesített lekérdezések eredményeit.
  • mind az Apple, mind a Google eltérő adatvédelmi technikákat alkalmaz az iOS-ben, illetve a Chrome-ban. Differenciálisan privát algoritmusokat is megvalósítottak a magánélet megőrzését szolgáló analitikai termékekben, például a Privitar által kifejlesztett termékekben.
  • a Differenciálisan privát algoritmusok továbbra is aktív kutatási területek.

a differenciális Adatvédelem tavaly ugrott a kutatási cikkektől a technikai hírek címsoráig, amikor a WWDC vitaindítójában az Apple mérnöki alelnöke, Craig Federighi bejelentette, hogy az Apple használja a koncepciót a felhasználói adatvédelem védelme érdekében az iOS rendszerben.

Ez volt az általános tendencia legújabb példája: a felhasználók és a mérnökök ráébredtek a magánélet védelmének fontosságára a szoftverekben. Az olyan nagy horderejű adatvédelmi jogsértések, mint az Uber “Istenmódja”, élesen megmutatták, hogy egy vállalat alkalmazottai milyen könnyen visszaélhetnek az ügyfeleiktől gyűjtött érzékeny adatokkal.

a digitálisan rögzített érzékeny adatok mennyisége gyorsan növekszik. Az emberek most a digitális szolgáltatásokra támaszkodnak fizetésük, szállításuk, navigációjuk, vásárlásuk és egészségük nagyobb részében, mint valaha. Ez az új adatgyűjtés egyre növekvő módszereket teremt a magánélet megsértésére.de izgalmas lehetőségeket is teremt-a közlekedési hálózatok fejlesztésére, a bűnözés csökkentésére, a betegségek gyógyítására—, ha a megfelelő adatkutatók és kutatók rendelkezésére bocsátják. Természetes feszültség van az adatkészletben lévő egyének magánéletének védelme és az analitika lehetővé tétele között, amely egy jobb világhoz vezethet.

a Differenciálisan privát algoritmusok ígéretes technikai megoldás, amely enyhítheti ezt a feszültséget, lehetővé téve az elemzők számára, hogy jóindulatú összesített elemzést végezzenek, miközben garantálják az egyes egyének magánéletének értelmes védelmét.

ezt a fejlődő technológiai területet érdemes megfontolni minden olyan rendszerben, amely érzékeny adatok elemzésére törekszik. Bár a differenciált adatvédelmi garancia csak tíz évvel ezelőtt született meg, sikeres volt az egyetemeken és az iparban. A kutatók gyorsan feltalálják és fejlesztik a differenciálisan privát algoritmusokat, amelyek közül néhányat az Apple iOS és a Google Chrome is elfogadott.

Ez a cikk a differenciális adatvédelemhez vezető történelmi tényezőket tárgyalja jelenlegi formájában, valamint a differenciális Adatvédelem meghatározását és a differenciálisan privát algoritmusok példáját. Ezután megvizsgálja a Google, az Apple és mások által a differenciálisan privát algoritmusok néhány közelmúltbeli nagy horderejű megvalósítását.

háttér

a Differenciálisan privát algoritmusok a legújabb technológiák egy évtizedes területén a magánélet megőrzése Adatelemzés. Két korábbi fogalom közvetlenül befolyásolta a differenciális adatvédelmet:

  1. minimális lekérdezési készlet mérete
  2. Dalenius statisztikai közzétételi meghatározása.

először elmagyarázzuk ezeket, mivel hasznos hátteret nyújtanak a differenciális adatvédelemhez.

minimális lekérdezéshalmaz-méret az első koncepció egy minimális lekérdezéshalmaz-méret, amely—a differenciálisan privát algoritmusokhoz hasonlóan—az összesített lekérdezések biztonságát hivatott biztosítani. Az összesített lekérdezések azok, ahol a visszaadott értéket az adatkészlet rekordjainak egy részhalmazára, például számlálásokra, átlagokra vagy összegekre számítják ki. Hasznos lehet az összesített lekérdezésekre úgy gondolni, mint az SQL lekérdezésekre, amelyek a “Select SUM”, “SELECT COUNT” vagy “SELECT AVG”kezdetűek. Az összesített lekérdezések egyéb típusai közé tartoznak a készenléti táblázatok és a hisztogramok.

a minimális lekérdezéshalmaz mérete olyan korlátozás, amely arra törekszik, hogy az összesített lekérdezések ne szivároghassanak ki információkat az egyénekről. Adott néhány konfigurált küszöbértéket T, biztosítja, hogy minden összesített lekérdezést legalább t rekordok halmazán hajtsanak végre. A minimális lekérdezéshalmaz-méret blokkolná az összesített lekérdezéseket, amelyek kevesebb, mint T személyt céloztak meg. Például, ha T = 2, akkor blokkolja a következőket:

” válassza az AVG (fizetés) lehetőséget, ahol name = ‘Troy Brown’;”.

mert ez a lekérdezés átlagosan egy rekordot vezetne (feltételezzük, hogy csak egy Troy Brown van).

a minimális lekérdezéshalmaz-méretek használata megakadályozza bizonyos támadásokat, de nem jár adatvédelmi garanciával, és a gyakorlatban képzett támadók megkerülhetik őket. Például a támadó a fenti támadást a következővel hajthatja végre:

“válassza ki az összeget(fizetés);”.

” válassza ki az összeget (fizetés), ahol név != “Troy Brown”;”.

vagy akár, ha ismerjük Troy Brown életkorát (45) és pozícióját(WR), egyértelműen azonosítjuk őt:

“válassza ki az összeget (fizetést), ahol pozíció = ‘WR’;”.

“válassza ki az összeget (fizetés), ahol a pozíció =” WR ” és az életkor != 45;

Az ilyen támadásokat tracker támadásoknak nevezzük, és nem állíthatók le egy minimális lekérdezési készlet méretkorlátozásával. Ezen támadások miatt a minimális lekérdezési halmaz méretét nem tartották megfelelőnek védelem a lekérdező rendszerek védelme érdekében (lásd Denning munkáját). Valami jobb, garanciával, szükséges volt a magánélet biztosításához.

Dalenius statisztikai közzétételi definíciója

1977-ben Tore Dalenius statisztikus az adatvédelem szigorú meghatározását javasolta: hogy a támadónak semmit sem szabad megtudnia az egyénről, amit nem tudott az érzékeny adatkészlet használata előtt. Bár ez a garancia kudarcot vallott (és látni fogjuk, miért), fontos megérteni, hogy a differenciált magánélet miért épül fel úgy, ahogy van.

Dalenius definíciója kudarcot vallott, mert 2006—ban Cynthia Dwork számítógépes tudós bebizonyította, hogy ezt a garanciát lehetetlen megadni-más szóval, az érzékeny adatokhoz való bármilyen hozzáférés sértené a magánélet ezen meghatározását. A probléma az volt, hogy bizonyos típusú háttérinformációk mindig új következtetéshez vezethetnek az egyénről. Bizonyítékát a következő anekdota szemlélteti: Tudom, hogy Alice két centivel magasabb, mint az átlagos litván nő. Ezután kapcsolatba lépek a litván nők adatkészletével, és kiszámítom az átlagos magasságot, amit korábban nem tudtam. Most már pontosan tudom Alice magasságát, annak ellenére, hogy nem volt az adatkészletben. Lehetetlen figyelembe venni minden olyan háttérinformációt, amely az adatkészlet használatából új következtetést vonhat le az egyénről.

a Dwork a fentiek bizonyítása után új meghatározást javasolt: differenciális Adatvédelem.

mi a differenciális Adatvédelem?

a differenciális Adatvédelem garantálja a következőket: hogy a támadó gyakorlatilag semmit sem tanulhat meg az egyénről, mint amennyit megtudna, ha az adott személy nyilvántartása hiányzik az adatkészletből. Bár gyengébb, mint Dalenius adatvédelmi meghatározása, a garancia elég erős, mert igazodik a valós ösztönzőkhöz—az egyéneknek nincs ösztönzésük arra, hogy ne vegyenek részt egy adatkészletben, mert az adatkészlet elemzői ugyanazokat a következtetéseket vonják le az egyénről, függetlenül attól, hogy az egyén magában foglalja-e magát az adatkészletben vagy sem. Mivel érzékeny személyes adataik szinte irrelevánsak a rendszer kimeneteiben, a felhasználók biztosak lehetnek abban, hogy az adataikat kezelő szervezet nem sérti a magánéletüket.

az elemzők “gyakorlatilag semmi többet nem tanulnak az egyénről” azt jelenti, hogy az egyénre vonatkozó hit jelentéktelen kis változására korlátozódnak. (Itt és az alábbiakban a “változás” az adatkészlet használata és ugyanazon adatkészlet használata közötti változásra utal, levonva egy személy rekordját.) Ennek a változásnak a mértékét egy néven ismert paraméter vezérli++, amely meghatározza a megkötést bármely eredmény valószínűségének változására. A 0,1-hez hasonló alacsony érték azt jelenti, hogy nagyon kevés változtatható meg az egyénről alkotott hiedelmekben. A magas érték, mint például 50, azt jelenti, hogy a hiedelmek jelentősen megváltozhatnak. A formális meghatározás a következő.

Egy algoritmus A ϵ-differentially magán, ha pedig csak akkor, ha:

Pr ≤ e^ϵ * Pr

minden x, illetve az összes pár adatsorok D, D, ahol D’ D minden egy rekord—azaz egy személy adatait—eltűnt. Az e szimbólum a matematikai állandóra utal. Vegye figyelembe, hogy ennek a meghatározásnak csak a randomizált algoritmusok esetében van értelme. A determinisztikus kimenetet adó algoritmus nem jelölt a differenciális adatvédelemre.

a differenciális adatvédelmi garancia elsődleges vonzereje az, hogy korlátozza azt az összeget, amelyet bármely elemző megismerhet az egyénről. Ezenkívül a következő hasznos tulajdonságokkal rendelkezik:

  • Komposability: ha két lekérdezésre differenciált titoktartási garanciával válaszolunk, a 6.és a 2. szinttel, akkor a két lekérdezésre a szint garanciája vonatkozik (61 + 2). Emlékezzünk arra, hogy a magasabb érték a magasabb értéknél gyengébb garanciát jelent.
  • erő az önkényes háttérinformációkkal szemben: a garancia semmilyen módon nem támaszkodik arra, hogy a támadó milyen háttérinformációkat ismer. Ez a tulajdonság az egyik fő oka annak, hogy a differenciális magánélet erősebb, mint egy korábbi adatvédelmi garancia, k-anonimitás.
  • biztonság az utófeldolgozás alatt: nincsenek korlátozások arra vonatkozóan, hogy mit lehet tenni egy differenciálisan privát eredménnyel – függetlenül attól, hogy mivel kombinálják, vagy hogyan alakítják át, továbbra is differenciálisan privát.

hogyan érhető el ez a garancia a szoftverben? A differenciálisan privát algoritmusok randomizált algoritmusok, amelyek zajt adnak az algoritmus kulcsfontosságú pontjain. Az egyik legegyszerűbb algoritmus a Laplace-mechanizmus, amely képes az összesített lekérdezések (pl. számlálás, összegek és eszközök) eredményeinek utólagos feldolgozására, hogy azok differenciálisan privátak legyenek. Az alábbiakban példa Java kódot a Laplace mechanizmus specifikus gróf lekérdezések:

import org.apache.commons.math3.distribution.LaplaceDistribution;double laplaceMechanismCount(long realCountResult, double epsilon) { LaplaceDistribution ld = new LaplaceDistribution(0, 1 / epsilon); double noise = ld.sample(); return realCountResult + noise;}

ennek a függvénynek a legfontosabb részei a

  1. a Laplace valószínűség-Eloszlás példányosítása (lásd az 1.ábrát) 0-ra középre állítva, és 1/xhamsterrel méretezve. Az Apache Commons implementációt, a “LaplaceDistribution” – t használjuk, amely két argumentummal épül fel: az eloszlás átlagával és az eloszlás skálájával. Vegye figyelembe, hogy az alacsonyabb epszilon (nagyobb adatvédelem) nagyobb skálát, így szélesebb eloszlást és nagyobb zajt eredményez.
  2. rajzoljon egy véletlenszerű mintát ebből az eloszlásból. Ez a minta() függvény 0 és 1 közötti véletlen számot vesz fel, és a Laplace-Eloszlás inverz kumulatív eloszlásfüggvényét (CDF) alkalmazza erre a számra. Ez a folyamat olyan véletlen számot eredményez, hogy annak valószínűsége, hogy bármilyen konkrét érték megegyezik az eloszlással. Alternatív gondolkodási módként, ha ezt a mintafunkciót milliószor hívnák meg, hogy millió mintát kapjunk, ezeknek a mintáknak a hisztogramja alakja szorosan megegyezne a Laplace-Eloszlás alakjával.
  3. zavarja a valós értéket a véletlenszerű érték hozzáadásával a 2.lépésből.

nézzük meg, miért különbözik ez az algoritmus egy Eve nevű támadó szemszögéből. Tegyük fel, hogy az adathalmaz mentális egészségügyi adatok, és Eve kitalált egy nyomkövető támadást (lásd fent), amely feltárja, hogy célpontja, Bob, alkoholizmus miatt tanácsadást kap-e vagy sem. Ha a lekérdezés eredménye 48, Eve tudja, hogy Bob valóban tanácsadást kap; ha 47, Eve tudja az ellenkezőjét.

függetlenül attól, hogy a válasz 47 vagy 48, a Laplace mechanizmus zajos eredményt ad vissza valahol 47 vagy 48 körül. Visszatérhet 49, 46, vagy akár kisebb valószínűséggel, 44 vagy 51 (lásd a hisztogram 2.ábráját). A gyakorlatban lehetetlen, hogy Eve nagyon biztos legyen abban, hogy az igazi válasz 47 vagy 48 Volt-e, és így a meggyőződése arról, hogy Bob alkoholizmus-tanácsadással foglalkozik-e, vagy most nem fog érdemben megváltozni.

1.ábra: a Laplace-Eloszlás középpontja 0, 1-es skálán. A képen az eloszlás valószínűségi sűrűségfüggvénye (PDF) látható—az y tengely az a relatív valószínűség, hogy a változó az x tengely értékét veszi fel.

2.ábra: a két forgatókönyv számlálási lekérdezésének valószínű kimenetele, ahol a valódi válasz 47, és amikor 48. A kimenetek kis száma nem lenne elegendő ahhoz, hogy megkülönböztessék, melyik eloszlásból származnak. Az epszilon értéke 0,67.

lehet, hogy már megfigyeltétek, hogy Eve képes volt átvágni a zajt azáltal, hogy többször megismételte a lekérdezést, és látta, hogy a válaszok 47 vagy 48 körül csoportosulnak-e. Ennek a taktikának a megakadályozása érdekében a differenciálisan privát rendszereknek rendelkezniük kell egy” adatvédelmi költségkerettel”, amely az egyes lekérdezésekben használt betűk összegének felső határa. Ez a sapka a differenciális Adatvédelem fent leírt komponálhatósági tulajdonsága miatt működik. Kérhetnek néhány viszonylag alacsony zajszintű lekérdezést, vagy sok száz nagy zajszintű lekérdezést, de akárhogy is, nem tudják magabiztosan megállapítani, hogy az igazi válasz 47 vagy 48.

Végül vegye figyelembe, hogy a számlálási Laplace-mechanizmus csupán egy egyszerű, differenciálisan privát algoritmus. A Laplace mechanizmus kiterjeszthető összegek és más összesített lekérdezések kezelésére. Ezenkívül alapvetően különböző algoritmusok vannak, amelyek bizonyítottan megfelelnek a differenciális adatvédelmi garanciának. Néhány érdemes megvizsgálni a privát multiplikatív súlyok algoritmusát, a multiplikatív súlyok exponenciális mechanizmusát és a DualQuery-t.

differenciális Adatvédelem működés közben

2016 júniusában az Apple bejelentette, hogy differenciálisan privát algoritmusokat fog használni az iPhone-ok viselkedési statisztikáinak gyűjtésére. Ez a bejelentés amellett, hogy hatalmas tüskét okozott a differenciális adatvédelmi érdeklődésben, megmutatta, hogy a differenciális Adatvédelem segíthet a nagyobb szervezeteknek új értéket szerezni olyan adatokból, amelyeket korábban nem érintettek az adatvédelmi aggályok miatt.

bár az Apple eddig kevés részletet tett közzé, az iPhone-ban használt algoritmus hasonlónak tűnik a Google RAPPOR projektjéhez. A Google megvalósított egy olyan funkciót a Chrome-ban, amely viselkedési statisztikákat gyűjt a Chrome böngészőkből egy differenciálisan privát randomizált válaszalgoritmus segítségével.

randomizált válasz esetén a véletlenszerű zaj hozzáadódik a statisztikákhoz, mielőtt azokat elküldenék a gyűjtőnek. Például, ha a valós statisztika 0, akkor a böngésző bizonyos valószínűséggel a 0-t véletlenszerűen kiválasztott 0-ra vagy 1-re cseréli. Minden felhasználónak nagyfokú tagadása van a szoftver által jelentett értékről, mert véletlenszerű érték lehet. De együttesen a jel kiemelkedik a véletlenszerű zaj felett, és a statisztikákat gyűjtő szervezet (azaz a Google vagy az Apple) pontosan megfigyelheti a trendeket.

érdekes, hogy tudomásunk szerint sem a Google, sem az Apple nem fedte fel a különböző Adatvédelmi garanciájukkal járó 6db értékét. Szükségünk van erre az értékre, hogy megértsük a garancia által nyújtott védelmet. Ha az általuk használt elég magas érték a 6db, az elemzők is tanulni érzékeny tényeket a felhasználók nagy bizalommal. Az értelmes adatvédelemhez alacsony számú adatra van szükség.

Differenciálisan privát algoritmusokat is megvalósítottak az adatvédelmet megőrző analitikai termékekben, például a munkaadóm által kifejlesztett Privitar termékekben. Ezek a termékek lehetővé teszik az értékes, érzékeny adatokkal dolgozó vállalatok számára, hogy differenciálisan privát algoritmusokat építsenek be adatarchitektúrájukba, adatvédelmi garanciákat nyújtva felhasználóiknak, miközben továbbra is értelmes elemzést végeznek az adatokon.

előretekintve

mind a mérnöki, mind a kutatási közösségeknek eltérő magánéletük van. A mérnökök számára a feladat a differenciált Adatvédelem oktatása, és annak biztosítása, hogy adott esetben a felhasználói adatvédelem érdekében használják. A kutatók számára több és jobb differenciálisan privát algoritmust kell találni, javítva azt az eszközkészletet, amellyel lehetővé tehetjük a magánélet megőrzését szolgáló adatelemzést.

mindannyian nyerhetünk az adatvédelmi garanciák létrehozásából és az adatelemzés sikereiből. Mindkét okból, Bízunk benne, hogy több szervezet átfogó differenciált adatvédelmi.

A szerzőről

Charlie Cabot a Privitar vezető adatkutatója, egy adatvédelmi startup, amely nagy teljesítményű szoftvereket épít az adatok anonimizálásához, beleértve a perturbációs és általánosítási algoritmusokat és a differenciálisan privát mechanizmusokat, hogy megkönnyítse az érzékeny adatkészletek biztonságos használatát. A Charlie a bizonyítható adatvédelmi garanciákra és az anonimizálás statisztikai hatására összpontosít az elemzésekre és az adattudományra. Korábban a kiberbiztonság területén dolgozott, Charlie gépi tanulás-vezérelt megközelítéseket fejlesztett ki a rosszindulatú programok észlelésére, és számítógépes hálózatok elleni számítógépes támadásokat modellezett.