En otros post hemos visto como crear un índice con Lucene, como añadir campos a los documentos etc. e incluso como usar ese índice para realizar búsquedas exitosas.

Ahora viene lo difícil, ¿Cómo es ese índice? ¿Cual es la palabra que más aparece? ¿Esta el indice bien hecho? ¿Hemos obtenido correctamente la raíz de las palabras?

Antes de comenzar vamos a describir algunos conceptos:

  • stopwords: son una lista de palabras de uso frecuente que, tanto en la indexación como en la búsqueda, no se tienen en consideración, se omiten.
  • stemming: es un método para obtener la raíz semántica de una palabra. Las palabras se reducen a su raíz o stem (tema), de modo que, si buscamos por “abandonados” encontrará “abandonados” pero también “abandonadas”, “abandonamos”, … porque, en realidad, estamos buscando por “abandon”.
  • modelo de espacio vectorial: es un modelo algebraico utilizado para filtrar, indexar, recuperar y calcular la relevancia de la información. Representa los documentos con un lenguaje natural mediante el uso de vectores en un espacio lineal multidimensional. La relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos de cada uno de los documentos respecto del vector de busca, utilizando el producto escalar entre el vector de búsqueda

Para poder ver y realizar búsquedas sobre el propio indice existen un par de herramientas, estas son: Luke y Limo. Con ellas podemos monitorizar si todo ha ido bien al crear el indice.

Luke

Es una herramienta práctica y útil de diagnostico, ya que puede acceder a un indice existente y permite modificar y ver el contenido de varias maneras:

  • buscar por número de documento o por término
  • ver documentos
  • Recuperar un lista de términos
  • ejecutar una búsqueda
  • Eliminar documentos del índice selectivamente
  • optimizar el índice

Podéis encontrar Luke aquí: https://code.google.com/p/luke/

Es importante señalar que Luke es una herramienta Open Source.

Para utilizarla solo necesitamos descargarla y ejecutar, al abrir debemos indicarle cual es la ruta del índice que hemos creado con Lucene. Una vez hecho esto nos indicará todos los documentos que se han indexado, el numero de términos el ranking etc.

Limo

Esta herramienta debe su nombre a Lucene Index Monitor. Se trata de una aplicación web que proporciona información básica acerca de los índices utilizados por el motor de búsqueda Lucene (http://lucene.apache.org).

Limo es un proyecto Open Source disponible aquí: http://limo.sourceforge.net/

Las características fundamentales de Limo son:

  • Estadísticas de los índices
  • Permite buscar términos en el índice
  • Reconstrucción de campos
  • Visualización de documentos

Para instalar y utilizar Limo solo es necesario tener un contenedor de Servlet (Tomcat). Entonces solo necesitamos copiar limo.WAR al directorio /web-app.

Ahora con solo entrar el http://localhost:8080/LIMO podremos utilizar Limo para por ejemplo realizar una búsqueda en nuestro índice:

Comenta la entrada

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.

Jesús López

Soy un Ingeniero en Informática y apasionado de la programación. Me gusta disfrutar de mi familia, viajar y perdernos paseando.  Me mola programar, hacer tests y refactorizar código . Practico Test Driven Development (TDD) y me lo paso bien con el legacy codeLeer más

Sígueme en: