Motivación de las conferencias MUC (Message Understanding Conferences)
Desde el comienzo de la década de los 90, las conferencias o evaluaciones MUC (Message Understanding Conferences), organizadas por el NIST , se han consolidado en el desarrollo de métricas y algoritmos estadísticos para la realización de evaluaciones de sistemas basados en las tecnologías emergentes de la extracción de la información (EI). Estas conferencias han permitido la evaluación y comparación de diversos sistemas, realizando para la EI la misma función que las conferencias TREC en el ámbito de la recuperación de información (RI).
¿Qué es Extracción de Información (EI)?
La extracción de la información o EI es una tecnología revolucionaria en el ámbito de la recuperación de la información. Alejándose de la aproximación convencional de recuperación de documentos en la que el usuario, posteriormente, debe analizar el documento para extraer la información que busca, tarea en muchas ocasiones tediosa e inabordable, esta tecnología extrae la información concreta solicitada por el usuario.Estos sistemas realizan la tarea de buscar información muy concreta en colecciones de documentos, detectar, extraer y presentar dicha información en un formato que sea susceptible de ser tratado posteriormente de forma automática. La investigación en este campo ha sido muy intensa. En particular, la serie de conferencias MUC han constituido uno de los principales foros para su promoción.
El tipo de información que estos sistemas son capaces de extraer varía en detalle y en fiabilidad. Por ejemplo, entidades con nombre propio como pueden ser personas u organizaciones se recuperan actualmente con una fiabilidad del 90 %, sin embargo esta fiabilidad se reduce al extraer atributos de dichas entidades, hechos o eventos en los que estén relacionadas.
Enlaces de interés
Desarrollo de las conferencias MUC (Message Understanding Conferences)
A mediados de la década de los 90, las evaluaciones MUC empezaron a suministrar datos y definiciones de tareas, además de proporcionar un software de evaluación totalmente automatizado de puntuación para medir el rendimiento de los sistemas EI . Las tareas aumentaron desde la simple producción de una base de datos de acontecimientos encontrados en artículos periodísticos, a la producción de un conjunto de bases de datos de información cada vez más compleja, extraída de múltiples fuentes de noticias en diversos idiomas.
Los resultados de estas evaluaciones fueron presentados en estas conferencias durante los años 90 en las que tanto desarrolladores como evaluadores pusieron en común sus logros y establecieron los futuros objetivos a afrontar en el desarrollo de sistemas de extracción de información.
Enlaces de interés
MUC: datos y resultados
Tras cada evaluación, se establecieron una pautas para determinar la fiabilidad de los sistemas participantes. Los conjuntos de datos utilizados para las evaluaciones eran preparadas por los evaluadores para que después fueran aplicados a cada uno de los sistemas de extracción de información evaluados.
Los conjuntos de datos utilizados en MUC-7, la última de las conferencias mantenidas, así como aquellos utilizados en MUC-6 son material privado propiedad del Linguistic Data Consortium (LDC) pero están disponibles para su venta.
Los conjuntos de datos aplicados en las evaluaciones MUC-4, MUC-3 y MUC-2 están disponibles en esta web de forma gratuita. (Requiere WinZip)
Conjuntos de datos aplicados en las evaluaciones MUC:
Tras la realización de cada evaluación, se lleva a cabo una conferencia MUC para que los participantes pusieran en común e intercambiaran opiniones y resultados acerca de la eficacia de cada uno de los sistema de extracción de información evaluados con los conjuntos de datos. Los resultados de las conferencias han sido todos hechos públicos.Resultados conferencias MUC:
Información recopilada por Israel González Fernández
![Validate my RSS feed [Valid RSS]](imagenes/valid-rss.png)
