Dos papers de académico Cristóbal Guzmán son aceptados en COLT 2025

17 de Junio, 2025

La Conferencia sobre Teoría del Aprendizaje (COLT) es la más importante del mundo en el área de teoría de machine learning y este año se celebrará en Lyon, Francia. Los trabajos del investigador del IMC UC abarcan las consultas estadísticas bajo privacidad diferencial y la resolución de problemas de optimización.

Desde 1988, la Asociación para el Aprendizaje Computacional (ACL, por su sigla en inglés) realiza un evento que se ha convertido en uno de los más relevantes del mundo en el campo de teoría aprendizaje automático, o machine learning. La Conferencia sobre Teoría del Aprendizaje (COLT) celebrará desde el 30 de junio hasta el 4 de julio su edición 38 en Lyon, Francia, y al igual que ediciones anteriores considera la presentación de las mejores investigaciones en esa área. Dos de esos trabajos cuentan con la participación de Cristóbal Guzmán, académico del Instituto de Ingeniería Matemática y Computacional (IMC) e investigador del Centro Nacional de Inteligencia Artificial (CENIA).

Tal como señala la ACL, la teoría del aprendizaje es una disciplina dedicada al “estudio del diseño y análisis de algoritmos de aprendizaje automático. En particular, tales algoritmos apuntan a hacer predicciones o representaciones precisas basadas en observaciones”. Por ese motivo, COLT pone énfasis en el análisis matemático riguroso utilizando técnicas de varios campos relacionados, como probabilidad, estadística, optimización, teoría de la información y geometría.

“COLT es una conferencia que se centra en el análisis de aspectos teóricos de problemas de aprendizaje automático. En ese ámbito, es el evento más importante que se realiza actualmente. En general, los papers que se aceptan para ser presentados son de muy buena calidad. Y en lo personal, me interesa mucho lo que se está haciendo en esa comunidad”, indica Guzmán, doctor en algoritmos, combinatoria y optimización del Instituto Tecnológico de Georgia (EEUU).

Cristóbal Guzmán.

Uno de los papers que el académico presentará en Francia se titula “PREM: Privately Answering Statistical Queries with Relative Error” y fue elaborado junto a Badih Ghazi, Pritish Kamath, Alexander Knop, Ravi Kumar y Pasin Manurangsi, de Google, además de Sushant Sachdeva (Universidad de Toronto, Canadá). En el trabajo, los investigadores presentan PREM, un nuevo método para generar datos sintéticos que logra una garantía de error relativa para consultas estadísticas bajo privacidad diferencial.

“La motivación para este estudio está relacionada con la recolección de datos que pueden ser sensibles. Un ejemplo históricamente estudiado es el del censo, que se construye en base a muchas tablas de contingencia o histogramas, que corresponden a preguntas que tienen una cantidad finita de posibles respuestas. Usualmente, el censo tiene dos obligaciones: una es reportar información precisa de estadísticas poblacionales. La otra es proteger la privacidad de los encuestados. Tanto en países como Estados Unidos como en Chile esto es un imperativo para mantener la confianza en el proceso”, explica Guzmán. Esto, agrega el académico, se debe a que los censados pueden “incluir ciertos grupos que podrían ser atacados por distintos grupos de interés. Entonces, para preservar la veracidad de las respuestas, surge la necesidad de garantizar la privacidad de los entrevistados”.

Si se analizan los datos que se liberan en los censos, la información puede tener distintos niveles de refinamiento. “En el caso de Estados Unidos, la unidad básica es un bloque, que corresponde a una cuadra o a un número de casas que suele rondar la decena. No es una cantidad muy grande, por lo que ese nivel de desagregación de datos podría permitir que un adversario trate de re-identificar a esas personas”, agrega el investigador. Ante ese posible escenario, surge la pregunta: ¿Cómo construir tablas de contingencia o histogramas que sigan respondiendo a las mismas consultas que los analistas quisieran hacer, pero garantizando la privacidad de los encuestados?

Es en ese punto, explica el académico, donde entran los llamados datos sintéticos. “Cuando uno produce datos sintéticos, no se trata de los mismos datos originales. Son una especie de mímica, ya que tratan de responder las mismas respuestas de la misma forma o lo más parecido posible, pero no tienen por qué tener ningún correlato con algún individuo de la muestra original”. Este es uno de los métodos que hoy se aplican para proteger la privacidad de las personas sondeadas. De hecho, fue el que se usó a la hora de liberar los microdatos del censo realizado hace cinco años en Estados Unidos.

“El censo todavía faculta a los investigadores utilizar microdatos no privatizados. Lamentablemente este acceso a microdatos es altamente restringido; en este ámbito, la liberación de datos sintéticos permite a analistas plantear hipótesis y análisis que pueden ser posteriormente validados accediendo a los microdatos. Y al estar liberados, cualquier otra persona después puede tomar esos datos y contrastar los análisis de una investigación”, indica Guzmán. El tema, precisa el profesor, es que la literatura sobre datos sintéticos y de respuestas a consultas estadísticas siempre se planteó en términos de errores aditivos.

“Por ejemplo, un investigador puede consultar cuántas mujeres entre 30 y 40 años están trabajando y tienen al menos un hijo. Ese es un tipo de consulta que uno puede tratar de hacer para un posterior análisis. Pero cuando la gente investigaba datos sintéticos las garantías eran del tipo ‘Ese conteo que te que voy a entregar como un reporte privado, va a ser el conteo exacto salvo un margen de error’. Y ese margen es la medida de eficiencia del mecanismo”, indica Guzmán. El problema de esas tasas aditivas, añade el investigador, es que se produce un escalamiento significativo respecto del número de elementos de la muestra, como el número de personas, la cantidad de categorías que pueden aparecer o el total de consultas que uno quiere responder. Según precisa el académico, esto ha impedido la aplicación de estas técnicas en múltiples contextos, ya que las garantías de error producto de privatizar datos suelen resultar demasiado grandes.

“Lo que hicimos en el trabajo fue investigar una noción alternativa de error que está basada en errores relativos. En ingeniería, los errores relativos siempre se entienden como que uno se pasa por un 20% o se queda corto por un 20%, pero no más que eso. Lamentablemente, en el contexto de datos privados uno no puede dar una garantía de ese estilo, es imposible. Entonces lo que se hace es mezclar la garantía multiplicativa con una aditiva. Lo que uno quisiera decir es que ‘si me doy esa holgura de error relativo multiplicativo, el término aditivo ahora es mejor que el que aparecía con un error puramente aditivo. Eso es lo que nosotros mostramos”, señala Guzmán.

En particular, agrega el investigador del IMC, él y sus colegas encontraron un “mecanismo para producir estos datos sintéticos cuya tasa de error en estos términos relativos se puede hacer arbitrariamente pequeño y fijo. La mejora cuantitativa en términos aditivos resulta exponencial, lo cual resulta sorprendente y abre ciertas perspectivas para estudiar algunos problemas que en el pasado quizás habían sido descartados”. Si bien un método de este tipo podría ser aplicado en otros contextos además de los censos, como estudios con datos de geolocalización o de publicidad online, Guzmán señala que el paper que se presentará en COLT tiene limitaciones: “Por ejemplo, la complejidad computacional del método hace que sea bastante costoso”.

Geometría no euclidiana

El segundo paper donde participa el académico IMC se titula “Non-Euclidean High-Order Smooth Convex Optimization” y tiene como coautores a Juan Pablo Contreras (ex-postdoctorado UC y actual profesor de la Universidad Diego Portales) y David Martínez-Rubio (Universidad Carlos III, España). Según señala el investigador, este es un trabajo más teórico y alejado de alguna aplicación más directa, aunque estrechamente ligado a la resolución de problemas de optimización.

“Lo que hicimos fue estudiar un tema que a mí me ha interesado desde que estuve en el doctorado y que alude a qué sucede si el dominio que la gente usa no es el de la geometría habitual o euclidiana. La noción de cercanía que se ocupa comúnmente es el de una bola esférica, pero ¿qué pasa si uno considera otras formas geométricas para definir la noción de distancia?”, plantea Guzmán. En algunos casos, agrega el académico del IMC, esa adaptación geométrica “permite obtener mejores tasas de convergencia, porque la geometría se adapta mejor a la función objetivo que quiero optimizar”.

El profesor y sus colegas investigaron dos generalizaciones de la teoría clásica: una corresponde a considerar aproximaciones de orden superior de la función y la otra es la utilización de geometrías no euclidianas. “Lo que pudimos lograr es establecer algoritmos que obtienen las tasas óptimas de convergencia. Estos algoritmos se apoyan mucho en lo que los investigadores han hecho para el caso euclidiano, pero hay ciertas innovaciones interesantes tanto en los algoritmos que desarrollamos como en las garantías, lo que uno llama cotas inferiores”, señala.

Además de las cotas inferiores, añade Guzmán, el paper permitió a los autores unificar varios métodos que estaban en la literatura, además de simplificar algunos argumentos y obtener resultados que incluso ellos mismos no se esperaban. “Entonces, creo que el trabajo incluye contribuciones técnicas importantes”.

Comparte esta publicación

Información

Tema

Noticias