Indexar diferentes tipos de ficheros

Como Lucene sólo trabaja con texto plano, para indexar otro tipo diferente de fichero, habrá que hacer una preparación previa para obtener el texto a partir de ellos. Esto se lleva a cabo utilizando distintos tipos de herramientas.

A continuación, repartido en diferentes post, iremos explicando la extracción de texto plano para una serie de documentos específicos, comenzando por los documentos .txt que son los más sencillos de indexar, para posteriormente estudiar cómo trabajar con otro tipo de documentos (.PDF, .XML, ...).

Todo esto será siempre utilizando Java y la herramienta requerida para la extracción del texto plano en cada caso.

0 comentarios:

Entrada más reciente Entrada antigua Inicio