2023-01-13: celda número 43
De tendencias demográficas, tenencia de vivienda, autónomos, películas y suicidios
Soy Jesús Escudero, y si estás recibiendo este email es que alguien —espero que tú— se ha suscrito con tu correo electrónico a FILAS Y COLUMNAS, la newsletter sobre producción estadística y análisis de datos en España —aquí puedes leer el último artículo y la anterior celda—. Si lo que vas a leer te parece interesante, reenvía el email o compártelo en tus redes sociales. Y si todavía no te has suscrito, puedes hacerlo en el siguiente botón.
¿Cómo encontrar el equilibrio entre la publicación de datos y la protección de los datos personales? Una guía elaborada por José Barranquero, experto en Ciencia de Datos y Computación Cuántica, y editada por datos.gob.es muestra varias técnicas de anonimización y casos prácticos escritos en Python.
El documento de 43 páginas está “orientad[o] a publicadores de datos que necesiten garantizar la privacidad de estos”. Los difusores de datos tienen el reto de
conseguir que el análisis de los datos anonimizados no difiera significativamente con respecto al mismo análisis realizado sobre el conjunto de datos original, consiguiendo minimizar el riesgo de reidentificación mediante la combinación de varias técnicas de anonimización y la monitorización de todo el proceso; desde la anonimización a la explotación con una finalidad concreta.
Barranquero señala tres enfoques generales para la anonimización de datos, cada uno de ellos con una serie de garantías:
Aleatorización: tratamiento de datos, eliminando la correlación con el individuo, mediante la adición de ruido, la permutación o la Privacidad Diferencial.
Generalización: alteración de escalas u órdenes de magnitud a través de técnicas basadas en agregación como Anonimato-K, Diversidad-L o Proximidad-T.
Seudonimización: reemplazo de valores por versiones cifradas o tokens, habitualmente a través de algoritmos de HASH, que impiden la identificación directa del individuo, a menos que se combine con otros datos adicionales, que deben estar custodiados de forma adecuada.
El contenido teórico de la guía se complementa con la aplicación de estas técnicas sobre un casos práctico. La información de este ejercicio, escrito en lenguaje Python, está disponible en este repositorio de GitHub.
Empieza, ahora sí, la cuadragésima tercera celda de FILAS Y COLUMNAS.
People either think about the extremely raw data, like just counting cases, or they think about the ultimately very advanced research side of things where you've got whole epidemiological models, looking at the trends of an epidemic done by research groups and universities. But I think there's this intermediate step: you take raw case counts, or raw death counts, and you polish them, and you harmonise the dates, and you harmonise the name of the countries, and you add a seven day average, and you see the bumps, and you fix them so that the curve makes sense, and you add a map onto that, and you allow people to look at weekly and bi-weekly, and cumulative and things like this. And this is the bulk of the stuff we did actually is to just make it look prettier, make it look usable, and also provide people with things that we think makes sense
Edouard Mathieu, Hear This Idea, 2022-10-15
Tendencias demográficas en Europa. La Comisión Europea acaba de presentar una data story sobre las tendencias demográficas en las regiones europeas para los próximos años. Las proyecciones a 2030 apuntan tanto a una importante reducción del número de jóvenes y población adulta como a una mayor proporción de personas por encima de los 65 años. Como se puede observar en el siguiente mapa, muy pocas regiones europeas, concentradas especialmente en Irlanda, Suecia y las principales metrópolis del continente, verán incrementar su población adulta de 20 a 64 años a lo largo de esta década.
Tenencia de vivienda y desigualdad. Los investigadores Javier Ballesteros Muñoz (Toulouse School of Economics y Fedea) y Jorge Onrubia (Universidad Complutense de Madrid – ICEI y FEDEA) han publicado un paper sobre el Régimen de tenencia de la vivienda habitual y desigualdad de la renta de los hogares españoles. A partir de los microdatos de la Encuesta de Condiciones de Vida (ECV), los autores concluyen que “la mayor capacidad adquisitiva que supone para los hogares propietarios la renta imputada por el autoconsumo de los servicios de vivienda habitual reduce de forma notable la desigualdad con la que se distribuye la renta entre el conjunto de los hogares”. A lo largo de las 38 páginas del documento, los investigadores presentan tablas y gráficos que ilustran varias realidades del régimen de tenencia de vivienda en España, como el aumento de la proporción de renta destinada al alquiler tras la segunda crisis económica española de 2012.
Datos personales de autónomos. Una investigación desarrollada en el marco del Posgrado Tecnopolítica y Derechos en la Era Digital organizado por Xnet y la Universitat de Barcelona ha puesto el foco en la venta de los datos de las personas en régimen de autónomos. Según el estudio, “existen unos 2.047.779 autónomos/as en España (autónomos/as no socios en sociedades mercantiles o cooperativas) según el directorio (DIRCE) del Instituto Nacional de Estadística (y Seguridad Social para el sector primario) y 1.336.408 cuyos datos aparecen y se comercializan en la web eInforma.com”, detectando a su vez “un sesgo relacionado con el poder adquisitivo y con el poder de negociación de las y los trabajadores, donde en general los más vulnerables son más expuestos”. Un hilo en Twitter y sendos artículos en El País [bajo suscripción] y CTXT ofrecen más detalles del proyecto.
Duración de las películas. Los largometrajes cada vez son más largos. Esta es la principal conclusión a la que Álvaro Merino, periodista de datos en El Orden Mundial, ha llegado tras analizar las 25 películas más populares de cada año en IMDb. A partir de esta muestra de 2.325 filmes, los cálculos de Merino evidencian que la duración media de las películas ha pasado de situarse por debajo de la hora y media en la década de 1930 a superar las dos horas y pico en los últimos años. Como se muestra en el siguiente gráfico, más de la mitad de las 25 películas más populares estrenadas en 1930 duraban menos de 100 minutos, mientras que en 2022 sólo fue una. [visto a Álvaro Merino]
Bonus track internacional. The Economist se ha hecho eco de un working paper que analiza los suicidios entre los jóvenes de 12 a 18 años. El estudio original analiza los suicidios mensuales de menores en Estados Unidos desde 1990, detectando un patrón estacional relacionado con la duración del curso académico. O lo que es lo mismo: los suicidios de menores caen bruscamente en los meses de verano y diciembre cuando no hay clases. Este patrón se acentuó en 2020 con las restricciones de movilidad derivadas de la pandemia del COVID-19, cayendo especialmente cuando hubo cierre de colegios. Como señala la noticia de The Economist, “the data suggest that some suicides may have been delayed rather than averted: when school returned in the autum, numbers climbed higher than in previous years”.