Lucene: Indexar documentos PDF

Indexar documentos PDF

Publicado por Blancanieves en 11:54

Para indexar documentos PDF tenemos varias alternativas:

Se puede usar PDFBox, una API hecha en Java que permite el acceso al contenido textual de un PDF. PDFBox incluye la integración con Lucene para traducir un PDF a un documento Lucene.

Para usar PDFBox, lo descargamos de la web (http://pdfbox.org/), lo descomprimimos y añadimos el fichero/s .JAR al classpath.

Esta es la opción que se eligió para la clase de prueba de ejemplo (ver código) a continuación.

Otras soluciones para indexar PDF pueden ser:

·XPDF (http://www.foolabs.com/xpdf/): herramienta de código abierto con licencia GPL. No es una herramienta de Java, pero hay una utilidad llamada pdftotext que puede traducir documentos PDF a documentos de texto en la mayoría de las plataformas desde la línea de comandos.

Basado en xpdf, existe una utilidad llamada pdftohtml (http://pdftohtml.sourceforge.net/) que puede traducir documentos PDF a documentos HTML. Igualmente no es una aplicación Java.

Jpedal (http://www.jpedal.org/) es una API de Java para extraer texto e imágenes de los documentos PDF.

1 comentarios:

Supongo que ya haz trabajado en la indexacion de PDF con la libreria que mencionas, seria bueno postear un ejemplo, o dar una liga a algun tutorial, porque lo que es en la pagina de apache, pues nada mas no encuentras nada de eso...

The Neko dijo...

27 de enero de 2010 a las 20:33

Publicar un comentario

Entrada más reciente Entrada antigua Inicio

Lucene

Para que empezar de cero sea más fácil..

Labels

Blog Archive

Indexar documentos PDF

1 comentarios:

Lucene

Para que empezar de cero sea más fácil..

Suscripción

Labels

Blog Archive

Indexar documentos PDF

1 comentarios: