Procesamiento del lenguaje natural con python (NLTK)

Para no entrar a saco con ejemplos vamos a dar una pequeña definición de qué es el procesamiento del lenguaje natural, qué es y para que sirve NLTK y después vamos a comentar algunos ejemplos.

Como anécdota esto fue una pequeña parte del trabajo de la asignatura PL2 en la etsii, que realicé junto con mi compañero Carlos Marquez-

Según la wikipedia el procesamiento del lenguaje natural (PLN) es: Es una subdisciplina de la Inteligencia Artificial. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales.

El análisis automático de sentimiento es un paso más en el intento de traducir las emociones humanas a datos. Pero la espontaneidad y la inmediatez de la opinión en medios sociales hacen que estos sentimientos sean más auténticos y preserven su contenido emocional.

Para conseguir procesar el lenguaje natural existen muchas herramientas, una de ellas es NLTK que  posee una colección de paquetes y objetos Python muy adaptados para tareas de PLN.

Seguir leyendo “Procesamiento del lenguaje natural con python (NLTK)”

Introducción a Lucene

En este tutorial, vamos a realizar una breve presentación del API de búsqueda Lucene y realizaremos un sencillo y completo ejemplo.

Lucene es una librería de código abierto con licencia de Apache. Que permite a los desarrolladores integrar funciones de indexación y búsquedas de información textual dentro de sus proyectos.

Antes de empezar, creo que es necesario una pequeña aclaración de conceptos.

Para poder utilizar Lucene, es necesario seguir una serie de pasos o fases para conseguir realizar búsquedas efectivas: indexación y búsqueda.

Indexación:

El proceso de indexación consiste en analizar y extraer de entre toda la información disponible, la verdaderamente relevante. Posteriormente, con esa información se crea el índice a partir del cual se realizarán las búsquedas.

El índice es una estructura de datos que permite acceso rápido a la información, algo similar a lo que podría ser el índice de un libro.

Búsqueda:

El proceso de búsqueda consiste en consultar el índice para obtener los documentos donde aparecen unas determinadas palabras o bien concuerdan con una determinada expresión de consulta.