Arrel     Temes     Book     Xerrades     Publicacions     Enllaços     Congressos     Història           

Privadesa de dades


Privacitat de dades: Una disciplina que té com a objectiu la disseminació de les dades d'aquells que les han subministrades de manera que es preservi la seva privacitat. Per tal d'aconseguir aquests objectius s'han definit eines que permeten transformar un conjunt de dades original en un de protegit de manera que:
1) les anàlisis de les bases de dades originals i de les protegides donin resultats semblants (utilitat de les dades);
2) la informació en la base de dades protegida no es pugui relacionar amb aquells que les han subministrades (protecció de dades).
Els métodes de protecció es classifiquen normalment en dues grans famílies: els mètodes criptogràfics i els perturbatius. Jo preferesc de classificar-los en orientats a les dades (o de proòsit general, orientats a la computació (o de propòsit específic) i els orientats als resultats.
  • Orientats a les dades o de propòsit general: en aquest cas no se sap quin ús se'n farà de les dades. Els mètodes perturbatius estan orientats a aquest tipus de situacions.
  • Orientats a la computació o de propòsit específic: en aquest cas se sap a priori quin és l',anàlisi que es vol aplicar (per exemple, regles d'associació). Aleshores es poden dissenyar mètodes de protecció que permeten obtenir els mateixos resultats de les dades protegides que de les dades originals. Tanmateix, la millor aproximació és que aquell que té les dades es posi d'acord amb el que vol fer l'anàlisi amb un protocol criptogràfic de manera que els càlculs es puguin fer sense pèrdua d'informació. També cau aquí el cas de dades distribuïdes.
  • Orientats als resultats: en aquest cas interessa que els resultat de l'aplicació d'un mètode d'anàlisis de dades no permeti la revelació de dades confidencials. Per exemple, que les regles d'associació extretes a partir d'un conjunt de dades no ens donin informació confidencial d'un individu particular.
Nosaltres treballem principalment en mètode de protecció orientats a les dades. Aquests mètodes es classifiquen en tres categories segons com es fa la manipulació de les dades:
  • Perturbatius: les dades es distorsionen de manera que el conjunt protegit conté errors. La manera més senzilla és afegir soroll (soroll additiu). Existeixen altres mètodes com ara la microagregació intercanvi de rangs (rank swapping), soroll additiu i soroll multiplicatiu, PRAM
  • No perturbatius: les dades es distorsionen peró en aquest cas no s'introdueixen errors. S'aconsegueix la protecció substituint valors per altres de menys específics (per exemple, subsituint un valor per un interval). De fet, el que fem és canviar el nivell de detall del conjunt de dades.
  • Generadors de dades sintètiques: No distorsionem les dades, en creem de noves per substituir les velles. Es diu que amb aquest procés s'evita el risc de revelació, per&o aixó no és així si les dades sintètiques tenen prou qualitat. Ho expliquem en el nostre paper al PSD 2006: (PSD 2006) (referència completa aquí)
Per més detall consulteu:
V. Torra (2022) Guide to data privacy: Models, Technologies, Solutions. Springer. Link to Springer
V. Torra (2017) Data privacy: Foundations, New Developments and the Big Data Challenge, Springer. (access)
V. Torra, G. Navarro-Arribas (2016) Big Data Privacy and Anonymization. in Privacy and Identity Management 15-26. (open access)
Usuaris de la privadesa: Les companyies de comerç electrònic (per tal d'intercanviar informació dels seus clients) i els instituts d'estadística oficial (per tal de proveir informació estadística acurada a la societat) han d'aprofitar la informació que recullen i a la vegada preservar la privacitat dels individus