Noticias

Los proyectos elegidos pertenecen a los investigadores Domagoj Vrgoč y Jocelyn Dunstan. Sus temáticas abarcan las bases de datos de grafos y la privacidad en el procesamiento del lenguaje natural en español en el ámbito clínico.

Hace algunos días, la Agencia Nacional de Investigación y Desarrollo (ANID) dio a conocer los resultados del concurso Fondecyt Regular 2024, el cual apunta a promover la investigación de base científico-tecnológica en diversas áreas, mediante el financiamiento de proyectos de investigación de excelencia y orientados a la producción de conocimiento. El programa ofrece un monto máximo de 57 millones de pesos para cada año de ejecución.

Estos son los proyectos adjudicados tanto a académicos de dedicación exclusiva del IMC, como aquellos de cargo compartido con la Escuela de Ingeniería de la UC.

- New Challenges in Graph Query Answering. Investigador responsable: Domagoj Vrgoč, académico IMC e investigador del Instituto Milenio Fundamentos de los Datos. Duración: cuatro años.

Abstract

While graph database systems are starting to implement (parts of) the upcoming GQL and SQL/PGQ ISO standards, little is known about the properties of the query language shared by the two. Indeed, most academic work has focused on the SPARQL standard, and the upcoming GQL and SQL/PGQ standards define a much richer language that we do not fully understand yet. As such, the main objective of this project is to understand which fragments of the GQL and SQL/PGQ standard can be evaluated efficiently and develop efficient algorithms for evaluation in such cases.

Domagoj Vrgoc 03

Domagoj Vrgoč.

- Privacy-preserving methods for clinical natural language processing in Spanish. Investigadora responsable: Jocelyn Dunstan, académica IMC en cargo compartido con el Departamento de Ciencia de la Computación de la Escuela de Ingeniería e investigadora del Instituto Milenio Fundamentos de los Datos. Duración: 4 años.

Abstract

Hoy en día, los grandes modelos lingüísticos (LLM) están revolucionando nuestra forma de interactuar con las máquinas. Por ejemplo, una comunidad de investigadores cada vez más numerosa se interesa por las nuevas formas en que los LLM, como ChatGPT, podrían resolver tareas relacionadas con texto no estructurado. Estos modelos requieren enormes cantidades de texto para entrenarse y utilizan cientos o miles de millones de parámetros. Aunque los modelos lingüísticos preentrenados funcionan bien con menos datos, el gran número de parámetros podría conducir a una memorización no deseada de números de identificación personal, nombres o direcciones, lo que los haría susceptibles de sufrir ataques a la privacidad, como inferir si alguien pertenece a un conjunto de datos. Las aplicaciones médicas son un campo prometedor en el que aplicar LLM preentrenados, ya que se ocupa de grandes cantidades de texto libre procedente de historiales médicos electrónicos, como diagnósticos, recetas o notas de pacientes hospitalizados. Sin embargo, la preservación de la privacidad en medicina es una piedra angular, ya que exponer información sensible de los pacientes viola los derechos humanos.

El objetivo de este proyecto es estudiar, crear y evaluar métodos que preserven la privacidad para fomentar el uso ético de datos de texto clínicos en aplicaciones LLM, garantizando formalmente la protección de los datos sensibles de los pacientes. Este objetivo es crucial, ya que el texto no estructurado puede mejorar las tareas de predicción y favorecer el aprovechamiento de la información epidemiológica. Además, este proyecto será uno de los primeros en centrarse en el idioma español.

Jocelyn PLOS

Jocelyn Dunstan.

Instituto de Ingeniería Matemática y Computacional

Facultad de Matemáticas - Escuela de Ingeniería

Noticias

Académicos IMC se adjudican dos proyectos en concurso Fondecyt Regular 2024