Privacidad y anonimización de datos

Estimad@s amig@s

Sinopsis

En este libro se trata el papel que tiene la preservación de la privacidad en el proceso de publicación de datos. En concreto, se ven los principales métodos de enmascaramiento de datos y el modelo de k-anonimidad, que representa uno de los modelos más conocidos y empleados en los procesos de anonimización.

El objetivo de estos procesos es asegurar la privacidad de los datos de la ciudadanía cuando se publica información que contiene datos personales. Por un lado, la publicación de estos datos es muy útil para la investigación que realizan instituciones, universidades y empresas; pero por otro lado, se debe evitar la violación de privacidad que pudieran sufrir los individuos que aparecen en estos conjuntos de datos.

Los diferentes capítulos de este libro comprenden la definición de la problemática relacionada con la privacidad, los modelos teóricos más importantes —esto es, aleatorización o perturbación aleatoria, el modelo de la k-anonimidad y la privacidad diferencial— y las problemáticas y soluciones específicas en distintos entornos de datos, incluyendo los datos tabulares, localizaciones y datos temporales, redes sociales y registros de búsquedas.

«Aprender muchas cosas no nutre la inteligencia»

Heráclito

Prólogo

Ya sea por interés mutuo o por la existencia de todo tipo de regulaciones que así lo exigen, individuos y organizaciones de todo el mundo se ven obligados a publicar los datos que recogen en diferentes estudios demográficos o de investigación. La publicación (…) de estos datos puede producir unos efectos muy beneficiosos incluso para los participantes de estos estudios (…)

(…) la publicación o la compartición de bases de datos que, a menudo, contienen información privada —incluso sensible– de un conjunto de ciudadanos necesita realizarse de manera que se respeten las garantías de privacidad de los individuos (…) garantías de privacidad no se pueden conseguir con planteamientos simplistas, como eliminar o modificar los nombres u otros identificadores habituales (…) diferentes tipos de datos combinados entre sí se convierten en «cuasidentificadores» que pueden servir para determinar la identidad de algunos de los individuos presentes en los datos.

En un estudio muy conocido publicado en el año 2000 [38], Latanya Sweeney, directora y fundadora del Data Privacy Lab, mostraba cómo el 87% de la población de los Estados Unidos de América podría ser identificada únicamente a partir de su código postal, sexo y fecha de nacimiento. Del mismo modo, casi la mitad se podrían identificar sustituyendo el código postal por la ciudad, pueblo o municipio de residencia. Incluso un 18% todavía se podrían identificar si, en lugar del código postal, se dispusiera del condado de residencia (…) necesidad de desarrollar diferentes herramientas para garantizar la privacidad de los ciudadanos en el contexto de la publicación de este tipo de datos.

David Megías Jiménez

«Hace falta saber mucho para poder ocultar que nada se sabe»

Marie von Ebner-Eschenbach

Estamos inmersos en la vorágine del dato. Todos hablamos de Big Data como si fueran peladillas, pero pocos se atreven a levantar la voz y hablar de la necesaria privacidad y anonimización del dato.

Compartimos nuestros datos con demasiada alegría o irresponsabilidad ¿Somos conscientes realmente de la información que estamos compartiendo? ¿Sabemos que uso―tratamiento que le darán las empresas a las que les estamos cediendo información? ¿Qué puede pasar por el uso―abuso de la información que estamos compartiendo?

Privacidad y anonimización de datos se puede leer bajo dos primas, la del profano que le va a ayudar cuidar más la manera en que comparte sus datos; Y una segunda para los profesionales que se dedican a su gestión que sin duda encontrarán un catálogo de metodologías para anonimizar los datos y de esa manera poder seguir trabajando con ellos sin poner en riesgo la integridad de los ciudadanos.

«La mayor sabiduría que existe es conocerse a sí mismo»

Galileo Galilei

La minería de datos (data mining) es el proceso de extraer información útil, interesante, y desconocida hasta el momento de conjuntos de datos. El éxito de la minería de datos se basa en la disponibilidad de datos de calidad (…)

Desde el punto de vista de la privacidad o anonimización, los atributos de un conjunto de datos se dividen en cuatro clases, según el tipo de información que contienen:

● Los Identificadores

● Los casidentificadores

● Los atributos sensibles

● Los atributos no sensibles

(…) el objetivo es que un único individuo sea indistinguible respecto a un conjunto de individuos suficientemente grande para proteger su identidad, de tal forma que el atacante solo puede deducir cierta información con una cierta probabilidad (…)

(…) existen dos enfoques principales para limitar el riesgo de divulgación en procesos de publicación de datos:

● Protección no interactiva

● Protección interactiva

(…) si los datos de un individuo tienen un impacto significativo en los resultados de un análisis, probablemente la privacidad de este individuo está en riesgo (…)

Los métodos de enmascaramiento permiten modificar los datos originales con el objetivo de impedir o dificultar la identificación de un usuario en los datos protegidos. Estos métodos se pueden clasificar en tres categorías básicas en función de cómo se manipulan los datos originales para definir el conjunto de datos protegidos.

● Métodos perturbativos

● Métodos no perturbativos

● Generadores de datos sintéticos

En los últimos años, se ha generalizado de manera significativa el uso de tecnologías como el sistema de posicionamiento global (GPS), la identificación por radiofrecuencia (RFID) o los servicios basados en la localización (LBS). Estos sistemas permiten determinar en un momento concreto la posición de un objeto (…) con una precisión de metros o centímetros (…)

(…) los datos de localización y los temporales, sobre todo asociados a trayectorias, a menudo pueden revelar información personal sobre los individuos. Conociendo datos de localización, y combinándolos en algunos casos con atributos casidentificadores (...) revelar información que vulnera la privacidad de los usuarios (…) analizando las localizaciones más frecuentadas y las horas a las que fueron visitadas, es posible inferir información sobre la dirección del domicilio, estilo de vida, preferencias, creencias religiosas, ideología política (…)

(…) el principal reto que se plantea en estos sistemas es preservar la privacidad de los usuarios sin perder la utilidad de datos.

En los últimos años la representación de datos en formato de red ha experimentado un importante auge en todos los niveles. Este formato permite representar estructuras y realidades más complejas que los tradicionales datos relacionales, que utilizan el formato de tuplas (…) permite representar de un modo más rico las relaciones que puedan existir entre las distintas entidades que forman el conjunto de datos.

(…) se están recopilando grandes cantidades de datos sobre redes sociales, que a menudo contienen información personal y privada de usuarios e individuos. Aunque se realizan procesos básicos de anonimización de datos, como la eliminación de nombres u otros identificadores de claves, la información restante puede ser sensible y útil para que un atacante vuelva a identificar usuarios e individuos dentro del conjunto de datos anónimos.

Respecto a la información que se debe preservar en las redes sociales, se han identificado tres categorías principales de amenazas a la privacidad:

● La divulgación de la identidad (identity disclosure)

● La divulgación de los atributos (attribute disclosure)

● La divulgación de las relaciones (link disclosure)

Los motores de búsqueda son herramientas que permiten a los usuarios localizar información específica en internet. El objetivo para conseguir tener éxito es mostrar los resultados que coinciden con los intereses de cada usuario (…) recopilan y analizan el historial de búsqueda de los usuarios para crear perfiles (…)

Aunque ofrecen un servicio muy útil, también representan una amenaza para la privacidad de los usuarios. Los perfiles se crean a partir de consultas pasadas y otros datos relacionados que pueden contener información sensible y personal. Para evitar esta amenaza de privacidad, es necesario proporcionar mecanismos de preservación de la privacidad que protejan a los usuarios (…)

(…) los datos son una fuente innegable de información, que puede ser utilizada por las administraciones públicas para mejorar el rendimiento de las ciudades y la vida de sus ciudadanos, así como por parte de cualquier tipo de empresa, que puede optimizar su proceso de marketing y venta. Pero en ningún caso se debe permitir que estas «mejoras» sean el precio de sacrificar la privacidad de los usuarios (…)

«El medio más seguro de ocultar a los otros los límites del propio saber es no traspasarlos»

Giacomo Leopardi

Privacidad y anonimización de datos

Jordi Casas-Roma

Cristina Romero Tris

Editorial UOC

Link de interés

● Una ética para Big data; Introducción a la gestión ética de datos masivos

«El camino del deber se encuentra enfrente al sendero del egoísmo»

Niceto Alcalá-Zamora

Recibid un cordial saludo