Indexar documentos PDF

Para indexar documentos PDF tenemos varias alternativas:

Se puede usar PDFBox, una API hecha en Java que permite el acceso al contenido textual de un PDF. PDFBox incluye la integración con Lucene para traducir un PDF a un documento Lucene.

Para usar PDFBox, lo descargamos de la web (http://pdfbox.org/), lo descomprimimos y añadimos el fichero/s .JAR al classpath.

Esta es la opción que se eligió para la clase de prueba de ejemplo (ver código) a continuación.

Otras soluciones para indexar PDF pueden ser:

·XPDF (http://www.foolabs.com/xpdf/): herramienta de código abierto con licencia GPL. No es una herramienta de Java, pero hay una utilidad llamada pdftotext que puede traducir documentos PDF a documentos de texto en la mayoría de las plataformas desde la línea de comandos.

Basado en xpdf, existe una utilidad llamada pdftohtml (http://pdftohtml.sourceforge.net/) que puede traducir documentos PDF a documentos HTML. Igualmente no es una aplicación Java.

Jpedal (http://www.jpedal.org/) es una API de Java para extraer texto e imágenes de los documentos PDF. 

1 comentarios:

Supongo que ya haz trabajado en la indexacion de PDF con la libreria que mencionas, seria bueno postear un ejemplo, o dar una liga a algun tutorial, porque lo que es en la pagina de apache, pues nada mas no encuentras nada de eso...

27 de enero de 2010, 20:33  

Entrada más reciente Entrada antigua Inicio