Indexar documentos RTF

Para realizar la indexación de los documentos RTF utilizaremos una biblioteca incluida en Java, llamada RTFEditorKit, la cual nos servirá para extraer el texto plano de los documentos. Al igual que en la indexación de documentos TXT, no hay que hacer uso de otra herramienta adicional.

A pesar de esto, es posible que este editor/extractor de tokens no sea 100% efectivo, ya que hay se han detectado algunos errores por omisión de palabras en la indexación.

Código de ejemplo de uso:

FileInputStream is = new FileInputStream(f); //Tomamos de Stream
RTFEditorKit kit = new RTFEditorKit();
javax.swing.text.Document d = kit.createDefaultDocument();
kit.read(is, d, 0);
String texto = d.getText(0, d.getLength());
        
Document doc = new Document();
doc.add(new Field("filename", f.getCanonicalPath(), Field.Store.YES, Field.Index.ANALYZED));
doc.add(new Field("contents", texto, Field.Store.YES, Field.Index.ANALYZED));
is.close();
writer.addDocument(doc);


0 comentarios:

Entrada más reciente Entrada antigua Inicio