Extracción y Recuperación de Información - Recuperación y Organización de la Información

Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso

Objetivo de la Extracción de Información


La extracción de información se ocupa de estructurar información contenida en textos que son relevantes para el estudio de un dominio (o escenario) particular, llamado dominio de extracción. En otras palabras, el objetivo de un sistema de extracción de información es encontrar y enlazar la información relevante mientras ignora la extraña e irrelevante.


Un sistema de extracción de información debe ser capaz de ubicar como información relevante los fragmentos del texto. Entonces, la salida de un sistema de extracción son los registros que sirven para llenar lo que se conoce como plantilla de extracción. Además, los registros extraídos pueden ser complementados con información del dominio. Por lo tanto, los elementos que componen la plantilla de extracción deben ser definidos desde las primeras etapas de desarrollo del sistema y tienen dependencia directa con el dominio de extracción.


Para finalizar la sección, cabe destacar que algunos autores consideran a la extracción de información como una etapa posterior de la recuperación de información, donde la principal diferencia entre ambas radica en que la primera proporciona la información que exclusivamente interesa, mientras que la segunda proporciona los textos en los que aparece dicha información. Algunas de las nuevas tecnologías tratan de superar las diferencias y tomar ventaja de ambas técnicas, e.g. la generación de “wrappers” para Internet (i.e. extracción de información desde documentos HTML), y la búsqueda de respuestas (i.e. contestar automáticamente a preguntas puntuales por medio del contenido de una colección de documentos).



Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso