Este evento se realizará en diciembre en Vancouver, Canadá, y congregará a más de 10.000 expertos y representantes de la industria. Los trabajos de los investigadores del Instituto, aceptados tanto en el evento central como en uno de los workshops, abordan temáticas como el resguardo de la privacidad de los datos y un modelo multilingüe a gran escala que busca mejorar el desarrollo de sistemas de inteligencia artificial multimodal, además de la detección de alteraciones en bosques inducidas por actividades humanas.
Cada año, la conferencia internacional Neural Information Processing Systems (NeurIPS) congrega a más de 10.000 académicos y representantes de la industria. Su alta convocatoria la ha convertido en uno de los eventos más masivos y relevantes en las áreas de aprendizaje de máquinas (machine learning), inteligencia artificial y el procesamiento de lenguaje natural. De hecho, en sus distintas convocatorias los organizadores reciben casi 10.000 papers, de los cuales apenas el 25% es elegido para ser presentado en el evento. En la edición número 38, que este año se realizará entre el 10 y 15 de diciembre en Vancouver, Canadá, esta selección incluye diversos trabajos en los que participan académicos del Instituto de Ingeniería Matemática y Computacional (IMC UC).
Es el caso de Cristóbal Guzmán, quien además es investigador del Centro Nacional de Inteligencia Artificial (CENIA) y es coautor en tres estudios aceptados en NeurIPS: “Private Algorithms for Stochastic Saddle Points and Variational Inequalities: Beyond Euclidean Geometry”; “Differentially Private Optimization with Sparse Gradients” y “Public-data Assisted Private Stochastic Optimization: Power and Limitation”. “Si consideramos las áreas de investigación que abarca el IMC, se puede decir que esta es una de las conferencias más masivas. Su volumen hace que sea un espacio de divulgación muy grande para los trabajos aceptados. Además, la cantidad de gente que va y las posibilidades de interactuar con investigadores afines hacen que sea una buena instancia para participar”, señala el docente.
El académico, quien además es doctor en algoritmos, combinatoria y optimización, explica que los tres trabajos están cruzados por una temática común: la privacidad diferencial. Esta área ha dominado la labor de Guzmán en el proyecto Fondecyt que actualmente lleva adelante ("Algorithmic Stability and Differential Privacy in Optimization, Machine Learning and Market Equilibria") y sus orígenes son relativamente recientes. “La definición de privacidad diferencial apareció por primera vez en artículos publicados a comienzos de la década del 2000. Esos papers empujaron esta noción que viene del mundo de la criptografía y mucha de la gente que trabajó en esos estudios terminó incorporándose a laboratorios de investigación de empresas tecnológicas como Google o Facebook”, indica.
Cristóbal Guzmán.
“Lo que se busca estudiar es cómo entrenar modelos de aprendizaje automático con esta restricción de privacidad diferencial. En el fondo, lo que se pretende es garantizar que estos modelos que aprenden a partir de información tengan garantías de protección de los datos originales que se utilizaron para construirlos”, señala el profesor del IMC. Este resguardo de la privacidad es importante, agrega Guzmán, porque en modelos con muchos parámetros -como los que se generan para las redes neuronales- se ha descubierto que tienden a memorizar información confidencial de los usuarios.
“Por ejemplo, existen métodos como el ataque de pertenencia que intentan determinar si es que algún individuo en particular fue utilizado en ese conjunto de entrenamiento, o que incluso apuntan a extraer información. En modelos de lenguaje, buscan recoger frases u oraciones que puedan contener información confidencial como un RUT o un número de teléfono, por lo que de alguna manera se podría identificar a personas a partir de estos ataques”, comenta el investigador. Si bien estas vulnerabilidades han sido confirmadas de manera experimental, la pregunta que hoy domina este campo es qué se puede hacer para prevenirlos y anticiparse a otros que podrían surgir más adelante: “Nadie sabe a futuro que otras técnicas van a surgir, por lo que uno intenta proveer una definición que garantice que ningún tipo de ataque que dependa de información individual de una persona sea ejecutable a partir de un modelo”.
Esta preocupación ha llevado a que la investigación sobre la privacidad diferencial pase del estudio de sus implicancias teóricas al desarrollo de aplicaciones concretas. “Producto de las inquietudes actuales que existen, ya hay muchas empresas que han incorporado el tema y están creando equipos de trabajo que se abocan específicamente a esta área”, explica Guzmán, quien en 2023 viajó a Estados Unidos y durante seis meses fue investigador visitante en un grupo de Google enfocado en algoritmos usados para resguardar la privacidad de los datos. El académico, quien actualmente sigue colaborando con esos expertos, añade que también hay instituciones públicas que están adoptando estos métodos.
“El ejemplo más conocido es la Oficina del Censo en Estados Unidos, que en 2020 decidió incorporar técnicas de privacidad diferencial para poder liberar información estadística de grupos poblacionales. Los datos del censo están protegidos por ley, pero algunos se liberan con el propósito de facilitar la investigación en ciencias sociales. Eso antiguamente se hacía con mucha heurística; dicho de manera más simple, se trataba de determinar un poco al ojo la manera correcta de introducir métodos de ofuscación de los datos de ciertos grupos o sectores. Siempre teniendo en cuenta que el censo tiene la obligación de proteger la información individual de las personas y, al mismo tiempo, también apunta a entregar datos útiles para hacer análisis”, comenta Guzmán.
Precisamente, agrega el académico IMC, la propiedad principal de la privacidad diferencial es el hecho de que la ofuscación de datos se hace a través de una aleatorización: “Uno nunca libera la información real, sino que esos datos están, por decirlo de alguna manera, perturbados. Eso fue lo que hicieron en el censo de Estados Unidos. Liberaron conteos que se veían como verosímiles, pero que no eran reales. Lo hicieron de manera tal de minimizar el error estadístico que introducían esas perturbaciones”.
Redes neuronales generativas y búsqueda de respuestas visuales
Otro de los autores cuyo paper fue aceptado en NeurIPS es Mircea Petrache, académico IMC en cargo compartido con la Facultad de Matemáticas UC e investigador de CENIA. El trabajo en el que aparece como coautor se llama “Fisher Flow Matching for Generative Modeling over Discrete Data”. Al respecto, el profesor y experto en áreas como análisis geométrico y cálculo de variaciones, señala que en los últimos dos a tres años las llamadas redes neuronales de difusión han experimentado un gran auge, con aplicaciones en ámbitos que van desde la generación de imágenes realistas hasta el diseño de moléculas para desarrollos en farmacología y bioquímica.
“En 2023, finalmente se han logrado formular los primeros modelos difusivos que generan datos discretos con eficacia. En este paper que escribí con un team de la Universidad de Oxford, usando la estructura riemanniana de los espacios de medidas de probabilidad rediseñamos el modelo difusivo para datos discretos más rápido que se conoce. Se llama Flow Matching y nuestra contribución fue mejorarlo incorporando nuevas ideas de geometría de la información”, indica Petrache.
Mircea Petrache.
Jocelyn Dunstan, académica IMC en cargo compartido con el Departamento de Ciencia de la Computación UC (DCC UC) e investigadora del Instituto Milenio Fundamentos de los Datos (IMFD), participa junto a autores de 28 países en el paper “CVQA:Culturally-diverse Multilingual Visual Question Answering Benchmark”. El trabajo tendrá una presentación oral en NeurIPS y aborda la búsqueda de respuestas visuales (VQA, por su sigla en inglés), un componente clave de la llamada inteligencia artificial multimodal, la cual se caracteriza por ser capaz de procesar e integrar datos a partir de texto, imágenes, audio y video.
De hecho, este tipo de inteligencia artificial se inspira en la forma en que los humanos usan sus sentidos para percibir e interactuar con el mundo, y ofrece una forma más natural e intuitiva de comunicarse con la tecnología. Hoy algunos ejemplos de aplicación se pueden ver en el asistente virtual Siri de Apple y la plataforma de generación de texto GPT-4 de OpenAI, los cuales han demostrado la capacidad de la IA para crear y comprender contenidos complejos.
Los modelos de VQA se usan, precisamente, para poner a prueba la capacidad de los sistemas de inteligencia artificial multimodal para entender y razonar en base al conocimiento existente en los datos visuales y de texto. Sin embargo, uno de los problemas es que la mayoría de ellos utiliza conjuntos de datos que se centran en el inglés y sólo algunas de las demás principales lenguas del mundo, además de incorporar imágenes que suelen estar centradas en Occidente. Si bien existen intentos recientes por subsanar este déficit, los sets de datos aún carecen de diversidad. Por eso, Jocelyn Dunstan y los demás coautores proponen CVQA, un modelo multilingüe a gran escala diseñado para cubrir un abanico más rico de lenguas y culturas.
Jocelyn Dunstan.
Para elaborarlo, los autores incluyeron a hablantes nativos y expertos culturales en el proceso de recopilación de datos. Como resultado, CVQA representa las culturas de 30 países y 31 idiomas distintos, abarcando 10 mil preguntas. “Lo que se busca es evaluar cuánto saben los modelos de aspectos culturales de las fotos que se muestran. Todas las imágenes tienen asociadas preguntas en el idioma del país y en inglés”, explica Dunstan. Según la académica, cada pregunta debe evitar ser trivial y tampoco puede ser muy compleja, además de referirse a algún aspecto propio de cada nación.
Por ejemplo, en el caso de Argentina una de las imágenes corresponde a dos personas preparando un asado y la interrogante es: “¿Para qué sirve la pala de hierro usada en este asado? / What is the iron shovel used for in this asado?” (La respuesta es “Poner las brasas debajo la parrilla / To put the embers under the grill"). Según los autores del paper, este punto de referencia puede servir como un conjunto de evaluaciones de sondeo para evaluar la capacidad cultural y el sesgo de los sistemas multimodales y, además, alentar más esfuerzos de investigación para aumentar la conciencia cultural y la diversidad lingüística en este campo.
Detectando el impacto humano en los bosques
En uno de los workshops que se realizarán en NeurIPS 2024 se aceptó el paper “Enhanced Detection of Human-Driven Forest Alterations using Echo State Networks”, entre cuyos autores están los académicos Paula Aguirre (IMC e investigadora de CENIA) y Rodrigo Carrasco (IMC / Departamento de Ingeniería Industrial y de Sistemas UC). Además, participan el estudiante Tomás Couso del DCC UC y Javier Lopatin, docente de la Facultad de Ingeniería y Ciencias de la Universidad Adolfo Ibáñez.
Rodrigo Carrasco.
“En esta colaboración, Tomás realizó un estudio enfocado en detectar alteraciones en bosques inducidas por actividades humanas, como parte de su investigación de pregrado bajo la dirección de Paula Aguirre y mía, en el contexto de un proyecto FONDEF en que yo participaba”, relata Rodrigo Carrasco. Tal como señala el académico, en el paper -que será parte del "Workshop on Tackling Climate Change with Machine Learning"- se utilizaron Echo State Networks (ESN) como una herramienta para identificar patrones y luego alertar de cambios, ocupando imágenes satelitales para identificar de manera automática alteraciones en la vegetación de los bosques de la zona central de Chile atribuibles a actividades humanas como la deforestación.
Paula Aguirre.
“Combinando la eficiencia de las ESN para analizar series de tiempo y un sistema nuevo para comparación y detección, logramos predecir valores del Índice de Vegetación de Diferencia Normalizada (NDVI) y detectar desviaciones vinculadas con cambios humanos en el entorno forestal, incluso bajo condiciones de estrés climático, como sequías, que hace más difícil la detección”, explica Carrasco. Según el investigador, la metodología propuesta “alcanzó una buena precisión en la identificación de eventos de cambio, con especial capacidad para diferenciar entre disturbios naturales y aquellos causados por intervención humana, lo cual representa un avance en la monitorización de ecosistemas y en la toma de decisiones para la conservación de la biodiversidad y el manejo sostenible del suelo”.