Logo

Instituto de Ingeniería Matemática y Computacional

Facultad de Matemáticas - Escuela de Ingeniería

Noticias

El paper, que tiene como coautores al profesor Cristóbal Guzmán y a integrantes de Google Research, será presentado en el Quinto Simposio sobre Fundamentos de la Informática Responsable que se celebrará a mediados de año en Estados Unidos. El trabajo aborda la privacidad diferencial y su impacto en diversas aplicaciones, tales como el sistema que Google usa para modelar la publicidad que despliega a los usuarios de su motor de búsqueda. 

Cada segundo, Google procesa alrededor de 99.000 búsquedas. Los resultados de cada una de esas indagaciones despliegan avisos que se enmarcan en el servicio Google Ads, el cual les permite a las empresas visibilizar sus productos frente a los usuarios que buscan todo tipo de informaciones. Se trata de una plataforma crucial para Alphabet, el conglomerado que abarca a Google y cuya principal fuente de ganancias es precisamente su sistema de avisaje: en 2023, ese monto por publicidad llegó a 237,86 mil millones de dólares, monto que en su mayoría provino de su motor de búsqueda.

En un nuevo estudio que acaba de ser aceptado en el Quinto Simposio sobre Fundamentos de la Informática Responsable (FORC 2024) -que se realizará en junio en la Universidad de Harvard (EE.UU.)- un equipo de investigadores aborda varios problemas asociados el resguardo de la privacidad de los datos de los usuarios que acceden a diversas plataformas, tales como el sistema de búsqueda de Google. La investigación se titula “Differentially Private Optimization with Sparse Gradients” y tiene como autores a Cristóbal Guzmán -académico del Instituto de Ingeniería Matemática y Computacional (IMC)- y Badih Ghazi, Pritish Kamath, Ravi Kumar y Pasin Manurangsi, de Google Research.

Dicha división desarrolla investigación fundamental y aplicada en una amplia gama de áreas de la ciencia computacional, tales como machine learning, minería de datos y procesamiento de lenguaje natural. En 2023, Guzmán -quien además integra el Centro Nacional de Inteligencia Artificial (CENIA)- viajó a Estados Unidos y durante seis meses fue investigador visitante en un grupo enfocado en algoritmos usados para resguardar la privacidad de los datos. “Este tipo de posiciones surgen a partir de invitaciones. Me contactaron del grupo con el que querían que trabajara. Yo no tenía colaboraciones previas con ellos, pero sí había una afinidad en cuanto a temas de investigación. Es gente con la que vamos a las mismas conferencias y publicamos en las mismas revistas”, cuenta el académico y doctor en algoritmos, combinatoria y optimización.

guzmanforc2

 

Cristóbal Guzmán, durante su estadía en Google Research.

Sobre el trabajo realizado, Guzmán explica que el negocio principal de Google es servir como intermediario entre usuarios y oferentes de publicidad, labor que se gestiona a través del modelamiento del tipo de publicidad que podría interesarles a distintos tipos de usuarios. “Los usuarios se pueden categorizar según distintos atributos, como edad o localización. Estos atributos son categóricos, también conocidos como discretos. Dichos atributos se describen según características; por ejemplo, hay una cantidad finita de locaciones que puedo describir y la edad es un número que es entero. Esos atributos categóricos se pueden codificar a través de vectores que se activan cuando esa categoría se cumple”.

El académico agrega que las redes neuronales, como las que hoy ocupa Google para lograr que sus sistemas de búsqueda entiendan cómo distintas combinaciones de términos expresan intenciones y significados diferentes, se usan para entrenar modelos que aprenden a distinguir las maneras en que dichos atributos inciden en las preferencias de los usuarios. “Lo que se hace es ocupar lo que llamamos dinámicas locales. Si tengo un modelo y quiero mejorarlo, miro cómo se comporta localmente y en función de eso trato de hacer una mejora. La forma más común de hacerlo y la más práctica consiste en utilizar los gradientes de la función, que en el fondo me dicen cuáles son las direcciones que son más promisorias desde el punto de vista donde estoy actualmente”. Tal como señala el académico IMC, los atributos categóricos hacen que esos gradientes sean “sparse” o “escasos”: “Esto en el sentido de que tienen muy pocas coordenadas no nulas, lo cual tiene beneficios computacionales en cuanto al uso de memoria. Incluso Google, ha desarrollado arquitecturas que específicamente explotan el ‘sparsity’ de los modelos para entrenarlos más rápido, a través de una tecnología que llaman TPU o tensor processing unit”.

Resguardar la privacidad

Frente a los beneficios de utilizar este método, también surge una dificultad. “Todo esto es muy bueno en términos de desarrollo, pero también están las restricciones que impone la privacidad, ya que estás utilizando información de los usuarios que es muy sensible. Estamos hablando de qué dispositivo ocupan o dónde viven, por ejemplo. Al poner todo eso sobre la mesa, lo que se quiere es que el modelo que produzca no memorice información y no sea capaz de revelarla indirectamente”. Guzmán agrega que existen distintas metodologías para lograr ese objetivo y en el caso de Google la elegida es la privacidad diferencial.

“Para obtenerla, lo que haces básicamente es ofuscar la información sumando ruido. Por ejemplo, si vas a moverte en la dirección de un gradiente, lo perturbas y eso de alguna manera garantiza de que la información individual de cada usuario no se pueda reconstruir fácilmente. El problema es que estas redes tienen una cantidad gigantesca de parámetros, por lo que cualquier perturbación que uno hace en el modelo puede destruir completamente la señal”, explica el investigador del IMC. Guzmán añade que el fenómeno de ‘sparsity’ beneficia bastante el uso de privacidad diferencial, por el hecho de que existen “formas de obtenerla que no requieren una perturbación de gradiente tan agresiva. Uno puede explotar el hecho de que los vectores que aparecen son ‘sparse’ para hacer una privatización más cuidadosa”.

Previo al estudio aceptado en FORC 2024, los investigadores de Google publicaron otro paper donde exploraron esta idea. “En primer lugar, mostraron que tiene un impacto gigantesco en el uso de recursos computacionales y de memoria, porque entrega una forma mucho más eficiente de hacer estos cálculos. Además, explota la arquitectura que ellos ya poseen para poder entrenar redes neuronales, por lo que combina bien con la ingeniería ya existente”, señala Guzmán. Sin embargo, aún quedaba una pregunta relacionada con el fenómeno de ‘sparsity’ y con cuantificar qué es lo realmente alcanzable en términos de eficiencia o de errores. El proyecto que abordó el académico IMC con sus colegas de Google consistió, precisamente, en desarrollar un modelo para encontrar esas tasas óptimas.

“La idea fue tomar lo que ellos habían hecho y analizarlo desde una perspectiva teórica. Siempre hay muchas simplificaciones que uno hace en el proceso, pero lo que hicimos se hace cargo de manera adecuada de esas consideraciones. Cuando hablamos de atributos categóricos, hay una forma particular en que el ‘sparsity’ juega un rol. Lo que hicimos, de manera abstracta, fue decir ‘vamos a pensar que estamos entrenando una función de pérdida que tiene gradientes ‘sparse’ y ver cómo eso afecta las tasas de convergencia’”, indica Guzmán. Dicha abstracción, agrega, podría servir para exportar estos resultados a otros escenarios que no están necesariamente relacionados con el modelamiento de publicidad online, tales como la implementación de políticas públicas o el uso de datos personales en redes de salud.

“Para poner todo esto en contexto, el aporte del trabajo es dar una respuesta concreta sobre cuáles son los límites de lo que es alcanzable en este contexto de ‘sparsity’ y obtener algoritmos que alcanzan esos límites”, comenta el académico del IMC. En cuanto a la posibilidad de implementar esta investigación en la práctica, Guzmán precisa que aún existen muchas “consideraciones adicionales cuando uno quiere transferir estos modelos a producción y que obviamente el modelo teórico no es capaz de considerar”.

Sobre la experiencia de haber realizado esta investigación en las instalaciones de Google en Estados Unidos, el académico la califica como muy enriquecedora: “Algo que me llamó la atención es que la industria tecnológica tiene la ventaja incomparable de que ellos están día a día tratando con datos y con problemas específicos, por lo que tienen una fuente de inspiración para problemas que en la Academia no necesariamente está. En particular, por ejemplo, este problema en el que trabajé difícilmente me hubiera surgido estudiarlo de manera natural. Fue el contexto de modelos de recomendación el que los motivó”.