Como ver el Indice de Lucene
En otros post hemos visto como crear un índice con Lucene, como añadir campos a los documentos etc. e incluso como usar ese índice para realizar búsquedas exitosas.
Ahora viene lo difícil, ¿Cómo es ese índice? ¿Cual es la palabra que más aparece? ¿Esta el indice bien hecho? ¿Hemos obtenido correctamente la raíz de las palabras?
Antes de comenzar vamos a describir algunos conceptos:
- stopwords: son una lista de palabras de uso frecuente que, tanto en la indexación como en la búsqueda, no se tienen en consideración, se omiten.
- stemming: es un método para obtener la raíz semántica de una palabra. Las palabras se reducen a su raíz o stem (tema), de modo que, si buscamos por “abandonados” encontrará “abandonados” pero también “abandonadas”, “abandonamos”, … porque, en realidad, estamos buscando por “abandon”.
- modelo de espacio vectorial: es un modelo algebraico utilizado para filtrar, indexar, recuperar y calcular la relevancia de la información. Representa los documentos con un lenguaje natural mediante el uso de vectores en un espacio lineal multidimensional. La relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos de cada uno de los documentos respecto del vector de busca, utilizando el producto escalar entre el vector de búsqueda