Lucene: Indexar diferentes tipos de ficheros

Indexar diferentes tipos de ficheros

Publicado por Blancanieves en 13:23

Como Lucene sólo trabaja con texto plano, para indexar otro tipo diferente de fichero, habrá que hacer una preparación previa para obtener el texto a partir de ellos. Esto se lleva a cabo utilizando distintos tipos de herramientas.

A continuación, repartido en diferentes post, iremos explicando la extracción de texto plano para una serie de documentos específicos, comenzando por los documentos .txt que son los más sencillos de indexar, para posteriormente estudiar cómo trabajar con otro tipo de documentos (.PDF, .XML, ...).

Todo esto será siempre utilizando Java y la herramienta requerida para la extracción del texto plano en cada caso.

0 comentarios:

Publicar un comentario

Entrada más reciente Entrada antigua Inicio

Lucene

Para que empezar de cero sea más fácil..

Labels

Blog Archive

Indexar diferentes tipos de ficheros

0 comentarios:

Lucene

Para que empezar de cero sea más fácil..

Suscripción

Labels

Blog Archive

Indexar diferentes tipos de ficheros

0 comentarios: