Última modificación de este documento: 20010910 lunes por Rodrigo "Alley'Gator" Hunrichse, alleygator@pagina.de
[estás en
/iritra1.htm]
[la dirección oficial es
ramos/iritra1.htm]
[pagina.de/alleygator]
[esta página sin frames]
[submit to altavista (infórmale a altavista la versión oficial de esta página)]
[traducir este documento]
[atajo: no hay/
pagina.de/alleygator]
Secciones de este documento:
Esta es mi página del primero de los trabajos Introducción a la Recuperación de Información que se me asignó. Lo hago en grupo de 1 alumno.
El documento que debo disertar está basado en el documento "Integración de Expansión de Consulta con Feedback de Relevancia"
El problema viene de esto: el texto se basa en temas que no han sido tratados en clases, ya que los otros trabajos se basan mayoritariamente en el documento "Expansión de Consulta: Aspectos Teóricos", Capítulo 4, Capítulo 5 y posteriores.
Por esas razones, el presente trabajo será breve e incompleto, hasta que se presenten los trabajos previos.
"Para solucionar esos problemas, los investigadores se han enfocado en expansión automática de consulta para ayudar al usuario a formular qué información es realmente necesitada. Otro tópico de investigación está en la retroalimentación de relevancia por parte del usuario el cual da la relevancia de los documentos para clarificar la ambigüedad. De hecho, esas dos técnicas se complementan entre sí. Sin embargo, los mecanismos de retroalimentación de relevancia basados en palabras o documentos en la investigación pasada tienen ambos sus propias deficiencias. La retroalimentación de palabra tiene su límite superior de eficiencia en expansión semántica-léxica [3] y la retroalimentación de documento es a veces muy cansador para los usuarios.
"En este paper, proponemos a la retroalimentación conceptual junta con un (sic) mecanismos unidos para expansión de consulta. Esta es investigación en continuación desde nuestro trabajo previo basado en acumulación [2].
"La idea es organizar los documentos inicialmente recuperados por la consulta original en grupos conceptuales tales que el usuario pueda obtener una visión amplia y rápida de lo que la consulta realmente recupera. Bajo esta filosofía de diseño, escogimos la acumulación de documentos como nuestro primer paso hacia la retroalimentación conceptual. La hipótesis es que documentos similares están más relacionados al mismo tópico que los documentos que son menos similares entre sí.
"De hecho, el proveer resultados deinformación basada en concepto, al igual que una retroalimentación interactiva, ha atraído a muchos investigadores en estos dos años. El paradigma de hojeo dinámico de "Scatter/Gather" que acumula documentos en grupos coherentes en tópico es aplicado en búsqueda de similaridad convencional para navegar los documentos recuperados por Hearst y Pedersen [4]. Por otro lado, la acumulación estática de los contenidos de la base de datos también ha sido explotada por Anick y Vaithyanathan [1]. Ellos discuten la carga cognoscitiva requerida para recopilar el contenido de los cúmulos desde los términos clave e introducir técnicas de procesamiento de lenguaje natural para extraer frases de sustantivo para describir contenidos de cúmulos.
"En este paper, el objetivo es cómo la retroalimentación basada en concepto puede ser lograda en un asistente de búsqueda de información web personalizada al integrar motores de búsqueda existentes y técnicas de expansión de consulta y retroalimentación de relevancia. Nos enfocamos en los mecanismos de extracción de palabra clave para ambas la compilación de cúmulos y la expansión de consulta. Más adelante, el asistente de búsqueda de web puede ser mejorado por agentes automáticos de descubrimiento para buscar més información basada en la historia de consulta registrada."
¿qué quiso decir? sin el contexto es difícil decirlo, es recomendado que se haya leído el Capítulo 5:Retroalimentación de Relevancia, y se conozca el concepto de Retroalimentación Conceptual.
Lamentablemente, no fue posible obtener las referencias sugeridas, así que muchas no son al momento de escribir este documento (septiembre de 2001) del dominio de Rodrigo Hunrichse.
El autor propone una implementación basado en una mezcla de ambos conceptos, utilizando un concepto de "cúmulos" de información "relacionada". Desde ellos, se discriminarían "aciertos" sintácticos sin serlo semánticamente.
La posible implementación sería a través de agentes de búsqueda.
"Como mencionamos anteriormente, la retroalimentación de relevancia hace tiempo que ha sido sugerida como una solución para la solución de la consulta. Roccio describe un acercamiento elegante y muestra cómo la consulta del espacio vector óptimo puede ser derivado usando suma y resta de vector dados los documentos relevantes y no relevantes [6]. El modelo probabilístico propuesto por Robertson y Sparck Jones muestra cómo ajustar el peso del término individual basado en la distribución de los términos en conjuntos de documentos relevantes y no relevantes [5].
"Ahora, dado el cúmulo o concepto como unidad de retroalimentación, esperaríamos un acercamiento para unir aquellos dos modelos. Una vez que cada cúmulo ha sido compilado como un vector documento, la consulta puede ser modificada por el algoritmo de Roccio [6]. De ahí, el problema se vuelve a cómo las palabras clave pueden ser extraídas como resúmenes de cúmulos y la asignación de pesos de términos en [el] modelo probabilístico puede ser ajustado para este propósito.
"La idea básica de la selección característica para un concepto es resaltar aquellas palabras que tienen alta frecuencia con respecto a algún concepto de contraste. La investigación pasada ha aplicado la asignación de términos de Sparck Jones a la expansión de consulta [3], dados los 10-30 documentos top como relevantes y todos los otros documentos en el cuerpo como no relevantes. Para la extracción de documentos desde un cúmulo, una aplicación simple es dividir los documentos iniciales entre "perteneciente" y "no perteneciente" con respecto al cúmulo.
"Sin embargo, encontramos [que] la aplicación directa de la asignación probabilística de peso tiene algunos problemas. Partiendo por que el número de documentos en un cúmulo no es grande (cerca de 10), la asignación de peso es inútil para palabras que aparecen solamente en el cúmulo. De aquí que la modificación de la asignación de peso es necesaria en este escenario. Al tiempo de la escritura, la mejor funcionalidad es una forma de reescritura "validez de indicación" unida con el principio de mayoría para selección de palabra clave.
"La aplicación del asistente de búsqueda de Web no es solamente para ayuda de búsqueda en línea sino también para la construcción de agentes de descubrimiento automático. Dadas todas las consultas que el usuario ha enviado, pueden ser vistas como un perfil de interés del usuario. Luego, un manager de dominio de trasfondo es responsable de organizar las consultas en grupos de interés. Basada en la categorización, el asistente de Web sugiere las consultas relacionadas que el usuario ha enviado y da pistas para la formulación de consulta cuando quiera que una nueva consulta es comenzada. Por otro lado, podríamos aplicar la técnica de algoritmo genético para cubrir nuevas consultas. Tomando cada consulta como un cromosoma con cada palabra vista como un gen, las palabras de las consultas en el mismo dominio de interés son remezcladas para derivar nuevas consultas y resultados de búsqueda en adelante.
Luego de una búsqueda, se plantea la "acumulación" de términos por relevancia, utilizando asignación de pesos, modificación de la consulta inicial, uso de términos discriminatorios resaltando la alta frecuencia con respecto al mismo. También considera los primeros "aciertos" como más relevantes, para concepto de contraste, y los demás como no relevantes.
Lamentablemente vuelve a argumentar modelos desconocidos para Rodrigo Hunrichse a la fecha, pero sí propone su modelo para uso no en línea, agentes de descubrimiento automático, para perfiles de usuario de búsqueda, y deja entrever que investigar en algoritmos genéticos pueden dar resultados.
Última modificación de este documento: 20010910 lunes por Rodrigo "Alley'Gator" Hunrichse.
Comentarios y sugerencias por e-mail a alleygator@pagina.de
[volver a Introducción a la Recuperación de Información]
[volver a asignaturas tomadas por Rodrigo Hunrichse]
[volver al pagina.de/alleygator]
Copyright © 1997,1998,1999,2000,2001 (o anterior)
by
Rodrigo "Alley'Gator" Hunrichse.