Una innovadora arquitectura para redes neuronales de grafos y una herramienta que permite a los usuarios especificar explicaciones para los sistemas de inteligencia artificial son dos de los trabajos en los que participan investigadores del IMC y que serán presentados en NeurIPS (Neural Information Processing Systems), una de las conferencias más relevantes en el área de inteligencia artificial que se realizan a nivel internacional y que este año se efectuará de manera virtual en diciembre.
Con foco en inteligencia artificial y aprendizaje automático, son miles de centros de estudios, instituciones, empresas y universidades de todo el mundo que trabajan en la vanguardia de estos temas y que presentan sus mejores trabajos en este evento anual. Uno de los reportes que destacan en la versión número 35 del encuentro -que en sus orígenes fue gestado por figuras como Ed Posner, uno de los científicos más reconocidos de la NASA- es “Graph Neural Networks with Local Graph Parameters”.
En el estudio, los investigadores proponen y prueban una arquitectura que permite realizar un compromiso entre redes neuronales de grafos simples y complejas. Las redes neuronales son la arquitectura más popular hoy en día en machine learning. Sin embargo, los estudios han detectado que estas redes tienen una debilidad: explotan muy poco las estructuras subyacentes de los datos, explica Pablo Barceló, director del Instituto de Ingeniería Matemática y Computacional de la Pontificia Universidad Católica de Chile y Subdirector del Instituto Milenio Fundamentos de los Datos (IMFD): “Lo que aprenden este tipo de redes son correlaciones, y muy poco de la estructura, lo que las hace menos inteligentes y menos efectivas a la hora de detectar patrones complejos en los datos”. Esto quiere decir, explica, que la red puede necesitar demasiados datos para aprender, o que no entienda bien lo que está aprendiendo, por lo que permitir el aprendizaje de esta estructura subyacente, permitiría ser mucho más efectivos y eficientes en el entrenamiento de estos sistemas.
En muchos casos, esta estructura subyacente de los datos está especificada como un grafo, por ejemplo, podemos pensar en una red social con conexiones entre los participantes, otro ejemplo podría ser las rutas del transporte público: son redes que tienen nodos y conexiones entre esos nodos. “Ahí hay un montón de estructuras que las redes neuronales tradicionales no explotan mucho; las redes neuronales de grafos fueron diseñadas para explotar esa estructura y poder aprender de forma más efectiva esos patrones”. Sin embargo, las redes neuronales de grafos, al ser más potentes, también son más costosas de implementar computacionalmente ya que requieren más recursos, pues su arquitectura es más poderosa. “Lo que intentamos hacer en este trabajo es encontrar un compromiso: voy a tratar de tener el máximo poder computacional pero tratando de minimizar el costo que eso implica, porque hay tareas que se vuelven imposibles de realizar si el modelo es muy complejo”.
Pablo Barceló.
Dentro de las redes neuronales de grafos, existen modelos más simples y otros más complejos. “Los complejos, al menos teóricamente, parecen ser bien útiles. Nosotros tratamos de encontrar un buen compromiso entre ambos, porque estos aunque son bien útiles, no son implementables. No se pueden llevar a la práctica porque son demasiado complejos. Y los simples, son demasiado simples. Entonces, tratamos de encontrar algo que permita combinar lo mejor de los dos mundos. Y además, tratamos de entender cuál era su real poder computacional, que estuviera al medio de estos dos mundos y que fuera más simple de implementar”.
Esta arquitectura provee un punto intermedio que permite detectar ciertas cosas: por ejemplo, ciclos de cierto tamaño, lo que se llaman cliques que son subgrafos cuyos nodos están todos conectados entre sí, sin incurrir en el costo computacional de las redes más complejas. “Busca un compromiso: necesito detectar esto, el sistema dice, bueno detectelo, pague al principio con un tipo de preprocesamiento, pero no siga pagando por él después. Permite tener el mínimo costo posible para detectar lo que uno quiere detectar sin caer en el costo computacional de las redes más complejas”.
En este paper junto a Pablo Barceló trabajaron Floris Geerts y Maksimilian Ryschkov, de la Universidad de Antwerp y Juan Reutter, académico del Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile y del Instituto de Ingeniería Matemática y Computacional UC (en vacante compartida), e investigador del IMFD.
“Foundations of Symbolic Languages for Model Interpretability” es el título del segundo paper aceptado en la conferencia NeurIPS y sus autores son Marcelo Arenas, Daniel Baez, Pablo Barceló, Jorge Pérez y Bernardo Subercaseaux. Arenas es director del Instituto Milenio Fundamentos de los Datos y también es académico del Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile y del Instituto de Ingeniería Matemática y Computacional UC (en vacante compartida). El investigador señala que el documento aborda desafíos fundamentales que hoy existen en ámbitos como el machine learning y la inteligencia artificial.
En ambas áreas, señala, han ido apareciendo aplicaciones y plataformas que operan de manera bastante eficiente en labores como el reconocimiento de imágenes o la traducción de lenguajes. Sin embargo, uno de los problemas que persisten es cómo se explican las respuestas que generan. “Miremos los sistemas de clasificación de imágenes. Es muy impresionante la manera en que funcionan y cómo son capaces de reconocer si, por ejemplo, en una foto aparece un gato. Pero si se intenta entender por qué se generó ese resultado uno no lo sabe”.
Arenas -cuyas especialidades incluyen teoría de bases de datos, lógica en ciencia computacional y web semántica- agrega que el problema es que en “la medida que las aplicaciones empiezan a tomar decisiones más sensibles uno tiene que tener explicaciones”. En ese sentido, si un sistema dice que “había un perro en lugar de un gato, no importa, no va a pasar nada. Pero en el caso de un sistema de contratación automática, van a llegar currículums y esa plataforma va a decidir a quién contratar o a quién hacerle una oferta. También podemos hablar de un sistema bancario que va a determinar si me van a dar un crédito, por ejemplo”.
Eventualmente, una persona podría incluso llegar a exigir explicaciones claras para saber por qué no consiguió un empleo o por qué no le dieron un crédito. “Ahí, obviamente uno no puede decir ‘bueno la máquina me dijo que no’ o ‘dada la experiencia que tiene la máquina, me dijo cero’. Además, en estos sistemas de contratación automática se ha visto que puede haber discriminación. Se han hecho experimentos con exactamente los mismos currículos, pero cuando se cambia, por ejemplo, un parámetro como hombre por mujer se ven diferencia en términos de clasificación”, indica el académico. En la medida que los sistemas van tomando decisiones cada vez más sensibles, la situación se vuelve más crítica: “Si tengo un auto que se está desplazando de manera autónoma quiero entender por qué reconoce las cosas de cierta forma. Si no reconoce algo tengo que comprender por qué. Si no reconoció que había una persona en esta intersección debo saber la razón, porque eso puede terminar en una catástrofe”.
Este campo se conoce como “Explainable AI” o “Inteligencia artificial explicable” y para abordarlo existen muchas estrategias. Arenas señala que tanto él como los coautores del reporte optaron por un camino distinto al que suelen eligen quienes trabajan en esta área. “En lugar de decir ‘para explicar, vamos a tomar esta medida’ o ‘esta otra’, lo que dijimos fue ‘démosle al usuario la posibilidad de que él pueda explorar el sistema’. Lo que queríamos hacer para ese tipo de exploraciones era proveer una herramienta donde el usuario pudiera ir preguntándole cosas al sistema, como ‘quiero entender por qué me dio este resultado’ o ‘si yo hubiera cambiado esta característica qué hubiera pasado’. Esas son algunas posibilidades, pero pueden haber otras como decir ‘¿cuántas características de la persona tengo que cambiar para obtener una clasificación positiva?’ y que el sistema me diga ‘tienes que cambiar cuatro’”.
Precisamente ese es el tema central del paper elaborado por Arenas y los demás investigadores. El documento plantea el diseño de “un lenguaje general, donde uno pueda representar este tipo de propiedades que están hablando sobre un modelo de aprendizaje de máquina”. Dicho de otra manera, lo que proponen “es un lenguaje que permite hacer estas consultas con las cuales uno va a ir armando la cadena” de explicaciones de, por ejemplo, por qué a una persona le rechazaron su crédito.
Dicho lenguaje se basa en un tipo de lógica llamada FOIL, que según explica Arenas “tiene un buen balance entre expresividad y complejidad de evaluación. Estudiamos en detalle cuáles son sus características o funcionalidades, hasta diseñar una lógica en la que sabíamos que todo se iba a poder evaluar de manera eficiente, desde el punto de vista computacional”.
Marcelo Arenas.
El académico aclara que el paper no implica que los autores tengan hoy un sistema donde alguien se pueda sentar para empezar a evaluar su modelo: “Lo que queríamos ver era que los algoritmos que teníamos efectivamente funcionan bien. Logramos construir un sistema con una interfaz razonable y donde las cosas se pudieran abordar en un tiempo razonable, pero de ahí a que sea un sistema que yo pudiera en este minuto descargar, ponerlo en mi computadora y empezar a usarlo existe una distancia todavía muy grande”.
Aún así, el potencial del estudio es tan alto que los organizadores de NeurIPS decidieron incluirlo en la sección reservada a los papers más destacados y que se conoce como “spotlight”. De las cerca de 10 mil investigaciones que el evento recibe cada año, sólo el 20,1 por ciento es aceptado y apenas el 3 por ciento de ese total es considerado en el apartado de los papers con mayor relevancia. “Esta es la conferencia más importante en el área de aprendizaje de máquinas (machine learning). Es bien importante para nosotros el que hayan aceptado el artículo en este evento extremadamente competitivo, donde participan todos los grupos de inteligencia artificial del mundo”, asegura Arenas.
“Uno se encuentra con todas las universidades importantes, empresas como Google, todos los grandes laboratorios. La conferencia es tan grande que hay muy poco espacio para presentar y estos papers que colocan en ‘spotlight’ son los que van a tener más tiempo para ser presentados, porque se considera que son lo más interesantes”, indica Arenas. Un aspecto importante del proceso de aceptación del estudio en NeurIPS fue la discusión que activó en el comité de programa de la conferencia: “Fue bastante encendida. Había gente que lo apoyó, que decía ‘esto tiene que estar’ y había otras personas que dijeron ‘a mí no me convence, esta no es la forma hacerlo’. Eso es exactamente lo que uno quiere que pase en lugar de que haya indiferencia hacia tu trabajo”.
Además de estos reportes, también fueron aceptados en NeurIPS otros dos trabajos en los que participó Cristóbal Guzmán, profesor asistente del Instituto de Ingeniería Matemática y Computacional UC. El investigador explica que en el informe titulado “Best-case lower bounds in online learning”, él y sus coautores Nishant A. Mehta y Ali Mortazavi (U. de Victoria, Canadá) estudiaron una medida de adaptividad “asociada a algoritmos de aprendizaje en línea”, es decir, aquellos que observan los datos de manera secuencial.
“Derivamos una cota inferior general para la clase de algoritmos conocidos como ‘Follow the Regularized Leader’, concluyendo que su adaptividad es limitada. La inspiración de este trabajo viene de una aplicación a no-discriminación en problemas de clasificación; en particular, nuestras cotas inferiores permiten extender de manera sustancial resultados anteriores de Blum et al. [2018], para combinar predictores no-discriminatorios a problemas con horizonte y tamaños de poblaciones indeterminados”, indica Guzmán, quien además fue invitado como “plenary speaker” en el workshop "Optimization and Machine Learning" que se efectuará en NeurIPS 2021.
El otro reporte se titula "Differentially Private Stochastic Optimization: New Results in Convex and Non-Convex Settings” y tiene como coautores a Raef Bassily y Michael Menart (U. Ohio State, EE.UU.). En este informe, se diseñaron nuevos algoritmos para optimización estocástica bajo la restricción de privacidad diferencial, “una noción rigurosa de protección de datos confidenciales” según señala Guzmán. En particular, agrega, el trabajo “mejora significativamente la complejidad computacional y/o el error incurrido en distintos modelos de optimización estocástica. Un aspecto novedoso de este trabajo es que varias de nuestras cotas de error son casi-independientes de la dimensión, lo cual es una mejora importante a los trabajos anteriores en esta área”, explica el investigador.