Empezando con Solr

Hace ya bastante tiempo que hablamos de Lucene, pero el proyecto Apache Lucene ha cambiado mucho desde esos post así que me gustaría que conozcamos un poco más acerca de cómo ha cambiado el proyecto hasta convertirse en Solr.

Según la Wikipedia, Lucene es una API de código abierto para recuperación de información, originalmente implementada en Java por Doug Cutting.

Es útil para cualquier aplicación que requiera indexado y búsqueda a texto completo. Lucene ha sido ampliamente usado por su utilidad en la implementación de motores de búsquedas. Por ello, a veces se confunde Lucene con un motor de búsquedas con funciones de «crawling» y análisis de documentos en HTML incorporadas.

El centro de la arquitectura lógica de Lucene se encuentra el concepto de Documento (Document) que contiene Campos (Fields) de texto. Esta flexibilidad permite a Lucene ser independiente del formato del fichero. Textos que se encuentran en PDFs, páginas HTML, documentos de Microsoft Word, así como muchos otros pueden ser indexados mientras que se pueda extraer información de ellos.

Hasta ahora, incluía varios subproyectos como Lucene Java, Droids, Lucene.net, Lucy, Mahout, Solr, Nutch, Open Relevance Proyect, PyLucene y Tika. Sin embargo, actualmente Solr se ha fusionado con el propio proyecto Lucene y Mahout, Nutch y Tika se han convertido en proyectos independientes.

Por tanto después de leer esto, creo que un paso natural es aprender un poco más acerca de Solr.

SOLR es una plataforma de búsqueda de código abierto, evolución del proyecto Apache Lucene. Sus principales características incluyen la búsqueda de texto completo, búsqueda facetada, indexación en casi- tiempo real, la agrupación dinámica, la integración de bases de datos, documentos ricos (por ejemplo, Word, PDF) y la búsqueda geoespacial. SOLR es fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación y consultas en configuraciones con equilibrio de carga, failover automatizado y recuperación, configuración centralizada etc..

Para instalar Solr tenemos varias opciones quizás la más fácil sea ir a bitnami.org y descargarnos el instalador para Windows.

Nosotros vamos a seguir la fórmula clásica, vamos a la web de Solr (http://lucene.apache.org/solr/downloads.html), nos descargamos el archivo zip que contiene todo el proyecto.

Solr viene con un servidor Jetty para poder utilizarlo, así que solo tenemos que abrir un terminal (cmd.exe) ir a la carpeta donde hallamos descomprimido Solr entrar en el directorio example y ejecutar

java -jar start.jar

Ahora solo tenemos que abrir un navegador y ya tenemos una instancia de Solr funcionando.

El “inconveniente” que tenemos ahora es que el índice de documentos está vacío, así que podemos ir a la carpeta exampledocs e indexar los ejemplos que queramos. Para ello abrimos otro terminal, vamos a la carpeta exampledocs y ejecutamos:

Java –jar post.jar *.xml

Para conocer como indexar documentos, podemos ver el archivo post.sh que es un script en bash, al abrirlo vemos que lo que hace es utilizar la API REST de solr para indexar los documentos.

Como ya sabemos cada documento debe tener una estructura de fields, en el caso de Solr que están configurados en el archivo example/example-schemaless/solr/collection1/conf/schema.xml.

Con esto tenemos una pequeña introducción para empezar con Solr.