Extracción y Recuperación de Información - Recuperación y Organización de la Información

Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso

Discursión


En general, el objetivo de un sistema de extracción de información está bien definido; además, gracias a la intervención de promotores que impulsaron el desarrollo de estos sistemas, actualmente se tienen avances importantes. Uno de esos avances fue la definición de una arquitectura general; sin embargo, en la descripción de los módulos que componen esta arquitectura, presentada en la sección Arquitectura General, se pudo distinguir la fuerte dependencia de recursos lingüísticos que ésta tiene. Además, si tomamos en cuenta que actualmente tales módulos logran diferentes rangos de exactitud (i.e., no son completos), motivo por el cual se genera un problema de propagación de error, esto quiere decir que pequeños errores pueden producir grandes fallas a través del proceso de extracción de información.


Por otro lado, se pretende que los sistemas de extracción de información actuales tengan una mayor portabilidad a nuevos dominios e idiomas, lo que implica generar el conocimiento específico para la nueva tarea. Con el propósito de manejar tal dificultad, las aproximaciones actuales hacen uso de métodos de aprendizaje automático (presentado en la sección Aprendizaje Automático en la Extracción de Información), donde los sistemas basados en aprendizaje de reglas son los más difundidos y además tienen una mejor respuesta. Pero, el error de propagación en estos sistemas no se ha superado debido a que continúan dependiendo de módulos que tienen una baja exactitud (e.g., análisis sintáctico).


También existen las aproximaciones que emplean separadores lineales y aprendizaje estadístico, estos métodos son útiles en el sentido de que pueden trabajar con un mínimo o a veces nulo conjunto de módulos para las etapas de proporcionar estructura a los documentos. Pero, en el aprendizaje estadístico generalmente se requieren textos semiestructurados, mientras que en los separadores lineales también se trabaja con documentos sin ninguna estructura.


Además, cabe destacar que a pesar de los esfuerzos en definir una métrica de evaluación, existen trabajos donde critican la valoración actual para un estudio). Una de las críticas más relevante es la presentada en la sección The need for accurate alignment in natural language System Evaluation de Computational Linguistics (27(2):231-248, 2001) escrito por A. Kehler, J. Bear y D. Appelt, donde castiga principalmente la falta de alineación en la evaluación con respecto a las respuestas obtenidas por el experto contra las del sistema. Es decir, la valoración no debe ser la misma si el sistema tomó la respuesta de una parte del texto diferente a la que el experto consideró, a pesar de que sea la misma respuesta (e.g., en la noticia de la sección Objetivo de la Extracción de Información no es lo mismo extraer de la primera línea que Federico Estrada Vélez es el objetivo humano que tomarlo de la penúltima línea). También, actualmente se trabaja en cómo analizar formalmente la complejidad de un dominio con respecto a una tarea de extracción de información, donde además se intenta analizar la tarea de comprensión de lectura.


En resumen, se puede concluir que la extracción de información es un campo de investigación ampliamente abierto, y que los esfuerzos en mejorar el desarrollo así como la evaluación de la tarea continúan actualmente (e.g., el programa PASCAL7 fundado el 1 de junio de 2004 donde, entre otras cosas, se pretende examinar y evaluar metodologías de aprendizaje automático para la extracción de información).



Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso