<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-644969411289125524</id><updated>2011-11-16T18:08:37.168+01:00</updated><category term='Lucene'/><title type='text'>Lucene</title><subtitle type='html'>Para que empezar de cero sea más fácil..</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>11</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-2109000358629453451</id><published>2009-02-11T12:03:00.005+01:00</published><updated>2009-02-11T12:12:54.592+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Ejemplo de funcionamiento: algunos diagramas</title><content type='html'>&lt;span lang="ES-TRAD"  style="line-height: 115%;font-family:&amp;quot;Calibri&amp;quot;,&amp;quot;sans-serif&amp;quot;;mso-ascii-theme-font:minor-latin; mso-fareast-MS Mincho&amp;quot;;mso-fareast-theme-font:minor-fareast; mso-hansi-theme-font:minor-latin;mso-bidi-Times New Roman&amp;quot;; mso-bidi-theme-font:minor-bidi;mso-ansi-language:ES-TRAD;mso-fareast-language: JA;mso-bidi-language:AR-SAfont-family:&amp;quot;;"&gt;&lt;span class="Apple-style-span"  style="font-size:medium;"&gt;A continuación, un ejemplo de indexación y búsqueda con Lucene. Vemos primero los diagramas de clase y de flujo.&lt;/span&gt;&lt;/span&gt;&lt;div&gt;&lt;span lang="ES-TRAD" style=""&gt;&lt;/span&gt;&lt;span class="Apple-style-span"  style="  line-height: 55px;font-family:Calibri;"&gt;&lt;span class="Apple-style-span" style="color: rgb(102, 102, 102);"&gt;&lt;span class="Apple-style-span"  style="font-size:medium;"&gt;Diagrama de clases:&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;div&gt;&lt;div style="text-align: center;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;span class="Apple-style-span"   style="  line-height: 17px;font-family:Calibri;font-size:15px;"&gt;&lt;img src="http://2.bp.blogspot.com/_PBQprNaCCI0/SZKw-3Hy40I/AAAAAAAADhk/AitC2mgOtYE/s400/diagrama+de+clase2.png" style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 400px; height: 103px;" border="0" alt="" id="BLOGGER_PHOTO_ID_5301494305363518274" /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: center;"&gt;&lt;span class="Apple-style-span"   style="  line-height: 17px;font-family:Calibri;font-size:48px;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;span class="Apple-style-span"  style="  line-height: 17px;font-family:Calibri;"&gt;&lt;span class="Apple-style-span"  style="font-size:medium;"&gt;&lt;span class="Apple-style-span" style="color: rgb(102, 102, 102);"&gt;Diagrama de flujo: indexación de ficheros.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;div style="text-align: center;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;img src="http://1.bp.blogspot.com/_PBQprNaCCI0/SZKx4fKXg6I/AAAAAAAADhs/b2mj1oRQigM/s400/diagrama+de+flujo+indexer.png" style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 276px; height: 400px;" border="0" alt="" id="BLOGGER_PHOTO_ID_5301495295364268962" /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;span class="Apple-style-span" style="color: rgb(102, 102, 102);"&gt;Diagrama de flujo: búsqueda de ficheros.&lt;/span&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;img src="http://1.bp.blogspot.com/_PBQprNaCCI0/SZKyYRpzGyI/AAAAAAAADh0/52seV0iO7mk/s400/diagrama+de+flujo+searcher.png" border="0" alt="" id="BLOGGER_PHOTO_ID_5301495841493818146" style="display: block; margin-top: 0px; margin-right: auto; margin-bottom: 10px; margin-left: auto; text-align: center; cursor: pointer; width: 345px; height: 400px; " /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;&lt;br /&gt;&lt;/div&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-2109000358629453451?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/2109000358629453451/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=2109000358629453451' title='2 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/2109000358629453451'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/2109000358629453451'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/ejemplo-de-funcionamiento-algunos.html' title='Ejemplo de funcionamiento: algunos diagramas'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://2.bp.blogspot.com/_PBQprNaCCI0/SZKw-3Hy40I/AAAAAAAADhk/AitC2mgOtYE/s72-c/diagrama+de+clase2.png' height='72' width='72'/><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-7392297175558454562</id><published>2009-02-11T12:00:00.001+01:00</published><updated>2009-02-11T12:01:47.629+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar documentos XML</title><content type='html'>&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Para indexar documentos XML no necesitamos ninguna herramienta ni API especial. La API de Java trae incluido un analizador sintáctico (parser) de XML. Simplemente tenemos que importar lo siguiente:&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;span style="font-size:9.0pt;line-height:115%; font-family:&amp;quot;Courier New&amp;quot;;mso-fareast-font-family:Verdana;mso-bidi-font-family: Verdana;color:#45818E;mso-ansi-language:ES;mso-fareast-language:JA;mso-bidi-language: AR-SA"&gt;import org.w3c.dom.NamedNodeMap;&lt;/span&gt;&lt;span style="font-size:9.0pt; line-height:115%;font-family:&amp;quot;Courier New&amp;quot;;mso-fareast-font-family:Verdana; mso-bidi-font-family:Verdana;mso-ansi-language:ES;mso-fareast-language:JA; mso-bidi-language:AR-SA"&gt;&lt;br /&gt;&lt;span style="color:#45818E"&gt;import org.w3c.dom.Node;&lt;/span&gt;&lt;br /&gt;&lt;span style="color:#45818E"&gt;import org.w3c.dom.NodeList;&lt;/span&gt;&lt;br /&gt;&lt;span style="color:#45818E"&gt;import org.xml.sax.SAXException;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;/p&gt;&lt;p class="MsoNormal"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;El uso de estas bibliotecas se puede ver en sucesivos post, en el código de ejemplo.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Hay muchas otras opciones para extraer XML, en este ejemplo se ha optado por la simplicidad. Lo que se lleva a cabo es extraer el contenido del fichero XML completo como texto plano e indexarlo.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;No es la mejor opción, puesto que el contenido de muchas etiquetas está repetido y no es necesario. Para realizar un buen análisis de un documento XML genérico habría que utilizar por ejemplo, las funciones de XPath.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Otra opción válida si el documento XML no es genérico, sino que está bien definido es realizar una extracción del contenido sabiendo los nombres de las etiquetas principales (ver ejemplo de extracción de XML).&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-7392297175558454562?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/7392297175558454562/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=7392297175558454562' title='1 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/7392297175558454562'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/7392297175558454562'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-documentos-xml.html' title='Indexar documentos XML'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-4140925215713169870</id><published>2009-02-11T11:57:00.002+01:00</published><updated>2009-02-11T11:59:03.918+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar documentos de Microsoft Word</title><content type='html'>&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Utilizaremos el analizador desarrollado por Apache-POI, que nos permitirá analizar sintácticamente&lt;span style="mso-spacerun:yes"&gt;  &lt;/span&gt;documentos Word de Office 97, 2000 y XP. Los documentos de Office 2007 no son por el momento compatibles.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;El procedimiento para hacerlo es el siguiente:&lt;span lang="ES-TRAD" style="font-family:Symbol;mso-fareast-font-family:Symbol; mso-bidi-font-family:Symbol;mso-ansi-language:ES-TRAD"&gt;&lt;span style="mso-list: Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;Descargamos los ficheros de la web de Apache-POI, buscaremos una versión estable (FINAL).&lt;/li&gt;&lt;li&gt;Descomprimimos el fichero. Buscamos en el archivo descomprimido y encontraremos unos ficheros .JAR.&lt;/li&gt;&lt;li&gt;Añadimos estos ficheros al classpath de el IDE que utilicemos y el uso es inmediato al igual que en el caso de los PDF.&lt;/li&gt;&lt;/ul&gt;&lt;div&gt;Ejemplos de código más adelante.&lt;/div&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-4140925215713169870?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/4140925215713169870/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=4140925215713169870' title='0 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4140925215713169870'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4140925215713169870'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-documentos-de-microsoft-word.html' title='Indexar documentos de Microsoft Word'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-5149676631188815333</id><published>2009-02-11T11:54:00.003+01:00</published><updated>2009-02-11T11:56:28.981+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar documentos PDF</title><content type='html'>&lt;span class="Apple-style-span" style="font-family: 'Times New Roman'; "&gt;&lt;div style="border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; padding-top: 3px; padding-right: 3px; padding-bottom: 3px; padding-left: 3px; width: auto; font: normal normal normal 100%/normal Georgia, serif; text-align: left; "&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;&lt;span lang="ES-TRAD"&gt;Para indexar documentos PDF tenemos varias alternativas:&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;&lt;span lang="ES-TRAD"&gt;Se puede usar &lt;b&gt;PDFBox&lt;/b&gt;, una API hecha en Java que permite el acceso al contenido textual de un PDF. PDFBox incluye la integración con Lucene para traducir un PDF a un documento Lucene.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;&lt;span lang="ES-TRAD"&gt;Para usar PDFBox, lo descargamos de la web (&lt;a href="http://pdfbox.org/"&gt;http://pdfbox.org/&lt;/a&gt;), lo descomprimimos y añadimos el fichero/s .JAR al classpath.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;&lt;span lang="ES-TRAD"&gt;Esta es la opción que se eligió para la clase de prueba de ejemplo (ver código) a continuación.&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;Otras soluciones para indexar PDF pueden ser:&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;·&lt;b&gt;XPDF&lt;/b&gt; (&lt;a href="http://www.foolabs.com/xpdf/"&gt;http://www.foolabs.com/xpdf/&lt;/a&gt;): herramienta de código abierto con licencia GPL. No es una herramienta de Java, pero hay una utilidad llamada pdftotext que puede traducir documentos PDF a documentos de texto en la mayoría de las plataformas desde la línea de comandos.&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;Basado en xpdf, existe una utilidad llamada &lt;b&gt;pdftohtml&lt;/b&gt; (&lt;a href="http://pdftohtml.sourceforge.net/"&gt;http://pdftohtml.sourceforge.net/&lt;/a&gt;) que puede traducir documentos PDF a documentos HTML. Igualmente no es una aplicación Java.&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify; "&gt;&lt;b&gt;Jpedal&lt;/b&gt; (&lt;a href="http://www.jpedal.org/"&gt;http://www.jpedal.org/&lt;/a&gt;) es una API de Java para extraer texto e imágenes de los documentos PDF. &lt;/p&gt;&lt;/div&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-5149676631188815333?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/5149676631188815333/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=5149676631188815333' title='1 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/5149676631188815333'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/5149676631188815333'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-documentos-pdf.html' title='Indexar documentos PDF'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-9050801205305193729</id><published>2009-02-11T11:45:00.003+01:00</published><updated>2009-02-11T11:52:30.362+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar documentos RTF</title><content type='html'>&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;Para realizar la indexación de los documentos RTF utilizaremos una biblioteca incluida en Java, llamada &lt;b style="mso-bidi-font-weight: normal"&gt;RTFEditorKit&lt;/b&gt;, la cual nos servirá para extraer el texto plano de los documentos. Al igual que en la indexación de documentos TXT, no hay que hacer uso de otra herramienta adicional. &lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;A pesar de esto, es posible que este editor/extractor de tokens no sea 100% efectivo, ya que hay se han detectado algunos errores por omisión de palabras en la indexación.&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;Código de ejemplo de uso:&lt;/p&gt;&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;/p&gt;&lt;div style="text-align: left;"&gt;&lt;b style="mso-bidi-font-weight: normal"&gt;&lt;span style="line-height:115%;Courier New&amp;quot;font-family:&amp;quot;;font-size:8.0pt;"&gt;FileInputStream&lt;/span&gt;&lt;/b&gt;&lt;span style="line-height:115%;Courier New&amp;quot;font-family:&amp;quot;;font-size:8.0pt;"&gt; is = new FileInputStream(f); &lt;span style="color:#00AE00;"&gt;//Tomamos de Stream&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;span style="line-height:115%;Courier New&amp;quot;font-family:&amp;quot;;font-size:8.0pt;"&gt;&lt;div style="text-align: left;"&gt;&lt;b style="mso-bidi-font-weight:normal"&gt;RTFEditorKit&lt;/b&gt; kit = new &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;RTFEditorKit&lt;/span&gt;();&lt;br /&gt;&lt;/div&gt;  &lt;b style="mso-bidi-font-weight:normal"&gt;&lt;div style="text-align: left;"&gt;&lt;span class="Apple-style-span" style="font-weight: normal; "&gt;&lt;b style="mso-bidi-font-weight:normal"&gt;javax.swing.text.Document &lt;/b&gt;d = kit.createDefaultDocument();&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;/b&gt;&lt;div style="text-align: left;"&gt;kit&lt;b style="mso-bidi-font-weight:normal"&gt;.read(is, d, 0);&lt;/b&gt;&lt;br /&gt;&lt;/div&gt; &lt;b style="mso-bidi-font-weight:normal"&gt;&lt;div style="text-align: left;"&gt;&lt;span class="Apple-style-span" style="font-weight: normal; "&gt;&lt;b style="mso-bidi-font-weight:normal"&gt;String&lt;/b&gt; texto = d.&lt;b style="mso-bidi-font-weight:normal"&gt;getText(0, d.getLength());&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;/b&gt;&lt;div style="text-align: left;"&gt;        &lt;br /&gt;&lt;/div&gt; &lt;b style="mso-bidi-font-weight:normal"&gt;&lt;div style="text-align: left;"&gt;&lt;span class="Apple-style-span" style="font-weight: normal; "&gt;&lt;b style="mso-bidi-font-weight:normal"&gt;Document&lt;/b&gt; &lt;/span&gt;doc&lt;span class="Apple-style-span" style="font-weight: normal; "&gt; = new Document();&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;/b&gt;&lt;div style="text-align: left;"&gt;doc.&lt;b style="mso-bidi-font-weight:normal"&gt;add&lt;/b&gt;(new &lt;b style="mso-bidi-font-weight: normal"&gt;Field&lt;/b&gt;("&lt;span style="color:blue;"&gt;filename&lt;/span&gt;", f.getCanonicalPath(), Field.Store.YES, Field.Index.ANALYZED));&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;doc.&lt;b style="mso-bidi-font-weight:normal"&gt;add&lt;/b&gt;(new &lt;b style="mso-bidi-font-weight: normal"&gt;Field&lt;/b&gt;("&lt;span style="color:blue;"&gt;contents&lt;/span&gt;", texto, Field.Store.YES, Field.Index.ANALYZED));&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;is.&lt;b style="mso-bidi-font-weight:normal"&gt;close();&lt;/b&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;writer.&lt;b style="mso-bidi-font-weight:normal"&gt;addDocument(doc);&lt;/b&gt;&lt;br /&gt;&lt;/div&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;p&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;span class="Apple-style-span"   style="  font-weight: bold; line-height: 12px;font-family:'Courier New';font-size:11px;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-9050801205305193729?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/9050801205305193729/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=9050801205305193729' title='0 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/9050801205305193729'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/9050801205305193729'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-documentos-rtf.html' title='Indexar documentos RTF'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-6054412783040183635</id><published>2009-02-10T13:34:00.007+01:00</published><updated>2009-02-11T11:44:53.873+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar documentos TXT</title><content type='html'>&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Realizar la indexación de documentos de texto plano (txt) con Lucene es muy sencillo en la versión de Lucene original (Java) ya que usa las funciones predefinidas de entrada/salida de Java, simplemente hay que incluir la biblioteca &lt;b style="mso-bidi-font-weight:normal"&gt;java.io&lt;/b&gt;. &lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Un ejemplo de cómo sería el código:&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;span class="Apple-style-span"  style=" font-weight: bold; line-height: 55px;font-size:48px;"&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;span class="Apple-style-span"  style=" font-weight: bold; line-height: 55px;font-size:48px;"&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;b style="mso-bidi-font-weight: normal"&gt;&lt;span lang="EN-US"   style="line-height:115%;Courier New&amp;quot;;mso-ansi-language:EN-USfont-family:&amp;quot;;font-size:8.0pt;"&gt;Document&lt;/span&gt;&lt;/b&gt;&lt;span lang="EN-US"   style="line-height:115%;Courier New&amp;quot;;mso-ansi-language: EN-USfont-family:&amp;quot;;font-size:8.0pt;"&gt; doc = new &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;Document&lt;/span&gt;();&lt;br /&gt;&lt;b style="mso-bidi-font-weight:normal"&gt;Reader&lt;/b&gt; r = new &lt;b style="mso-bidi-font-weight: normal"&gt;FileReader(f);&lt;/b&gt;&lt;br /&gt;       &lt;br /&gt;doc.&lt;b style="mso-bidi-font-weight:normal"&gt;add&lt;/b&gt;(new &lt;b style="mso-bidi-font-weight: normal"&gt;Field&lt;/b&gt;("&lt;span style="color:blue;"&gt;contents&lt;/span&gt;", r));&lt;br /&gt;doc.&lt;b style="mso-bidi-font-weight:normal"&gt;add&lt;/b&gt;(new &lt;b style="mso-bidi-font-weight: normal"&gt;Field&lt;/b&gt;("&lt;span style="color:blue;"&gt;filename&lt;/span&gt;", f.getAbsolutePath(), Field.Store.YES, Field.Index.ANALYZED));&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;span lang="EN-US"   style="line-height:115%;Courier New&amp;quot;;mso-ansi-language: EN-USfont-family:&amp;quot;;font-size:8.0pt;"&gt;        &lt;br /&gt;writer.&lt;b style="mso-bidi-font-weight:normal"&gt;addDocument(doc);&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="tab-stops:0cm 36.0pt"&gt;&lt;br /&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-6054412783040183635?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/6054412783040183635/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=6054412783040183635' title='3 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/6054412783040183635'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/6054412783040183635'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-documentos-txt.html' title='Indexar documentos TXT'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-1823489317233045995</id><published>2009-02-10T13:23:00.003+01:00</published><updated>2009-02-10T13:32:39.614+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Indexar diferentes tipos de ficheros</title><content type='html'>&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Como Lucene sólo trabaja con texto plano, para indexar otro tipo diferente de fichero, habrá que hacer una preparación previa para obtener el texto a partir de ellos. Esto se lleva a cabo utilizando distintos tipos de herramientas. &lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;A continuación, repartido en diferentes post, iremos explicando la extracción de texto plano para una serie de documentos específicos, comenzando por los documentos .txt que son los más sencillos de indexar, para posteriormente estudiar cómo trabajar con otro tipo de documentos (.PDF, .XML, ...).&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align:justify;text-justify:inter-ideograph; tab-stops:0cm 36.0pt"&gt;Todo esto será siempre utilizando Java y la herramienta requerida para la extracción del texto plano en cada caso.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-1823489317233045995?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/1823489317233045995/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=1823489317233045995' title='0 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/1823489317233045995'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/1823489317233045995'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/indexar-diferentes-tipos-de-ficheros.html' title='Indexar diferentes tipos de ficheros'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-3315599129273852549</id><published>2009-02-10T13:13:00.004+01:00</published><updated>2009-02-10T13:33:18.188+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Instalar Lucene</title><content type='html'>&lt;p class="MsoNormal" style="text-align: justify;"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;Instalar Lucene es extremadamente simple:&lt;span lang="ES-TRAD"   style="line-height:115%;font-family:Symbol;mso-fareast-font-family: Symbol;mso-bidi-mso-ansi-language:ES-TRADfont-family:Symbol;font-size:9.0pt;"&gt;&lt;span style="mso-list:Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal"&gt;&lt;/p&gt;&lt;ul&gt;&lt;li style="text-align: left;"&gt;Descargamos Lucene en formato comprimido de la web: &lt;a name="wmzn"&gt;&lt;/a&gt;&lt;a href="http://apache.rediris.es/lucene/java/"&gt;http://apache.rediris.es/lucene/java/&lt;/a&gt;&lt;span class="Apple-style-span"   style="  ;font-family:'Times New Roman';font-size:9px;"&gt;   &lt;/span&gt;&lt;/li&gt;&lt;li style="text-align: left;"&gt;&lt;span lang="ES-TRAD"  style="mso-ascii-font-family: Calibri;mso-hansi-font-family:Calibri;mso-bidi-mso-ansi-language: ES-TRADfont-family:Calibri;"&gt;Lo extraemos usando ant o cualquier ot&lt;/span&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;ro descompresor.&lt;span lang="ES-TRAD"   style="line-height:115%;font-family:Symbol;mso-fareast-font-family: Symbol;mso-bidi-mso-ansi-language:ES-TRADfont-family:Symbol;font-size:9.0pt;"&gt;&lt;span style="mso-list:Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;&lt;li style="text-align: justify;"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;&lt;span lang="ES-TRAD"   style="line-height:115%;font-family:Symbol;mso-fareast-font-family: Symbol;mso-bidi-mso-ansi-language:ES-TRADfont-family:Symbol;font-size:9.0pt;"&gt;&lt;span style="mso-list:Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt; &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span lang="ES-TRAD"  style="mso-ascii-font-family: Calibri;mso-hansi-font-family:Calibri;mso-bidi-mso-ansi-language: ES-TRADfont-family:Calibri;"&gt;Una vez extraído, en el archivo deberían aparecer (entre otras cosas) un par de ficheros .JAR. Uno de ellos es el core de Lucene y el otro contiene ejemplos.&lt;span lang="ES-TRAD"   style="line-height:115%;font-family:Symbol;mso-fareast-font-family: Symbol;mso-bidi-mso-ansi-language:ES-TRADfont-family:Symbol;font-size:9.0pt;"&gt;&lt;span style="mso-list:Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;&lt;li style="text-align: justify;"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;&lt;span lang="ES-TRAD"  style="mso-ascii-font-family: Calibri;mso-hansi-font-family:Calibri;mso-bidi-mso-ansi-language: ES-TRADfont-family:Calibri;"&gt;&lt;span lang="ES-TRAD"   style="line-height:115%;font-family:Symbol;mso-fareast-font-family: Symbol;mso-bidi-mso-ansi-language:ES-TRADfont-family:Symbol;font-size:9.0pt;"&gt;&lt;span style="mso-list:Ignore"&gt;&lt;span style="font:7.0pt &amp;quot;Times New Roman&amp;quot;"&gt;  &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span lang="ES-TRAD"  style="mso-ascii-font-family: Calibri;mso-hansi-font-family:Calibri;mso-bidi-mso-ansi-language: ES-TRADfont-family:Calibri;"&gt;Para hacer uso de Lucene, simplemente incluimos estos ficheros en el classpath del IDE que vayamos a utilizar para generar el código.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;/p&gt;  &lt;p class="MsoNormal" style="text-align: justify;"&gt;&lt;span lang="ES-TRAD" style="mso-ansi-language:ES-TRAD"&gt;El código de ejemplo ha sido generado haciendo uso de Eclipse, con la versión de Java 1.5 y haciendo uso de Lucene 2.4.0. &lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-3315599129273852549?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/3315599129273852549/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=3315599129273852549' title='0 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/3315599129273852549'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/3315599129273852549'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2009/02/instalar-lucene.html' title='Instalar Lucene'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-4671159676339682001</id><published>2008-12-04T13:26:00.004+01:00</published><updated>2008-12-04T13:32:42.086+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Visión Global de funcionamiento</title><content type='html'>A Lucene se le pasa un fichero que se quiere indexar. Si dicho fichero es de texto plano, la indexación será automática (la lleva a cabo la biblioteca de Java java.io). En otro caso, se debe extraer el texto plano del fichero realizando un análisis sintáctico con ayuda de otra herramienta.&lt;br /&gt;&lt;br /&gt;A partir de esta entrada, Lucene analiza el texto, lo tokeniza y crea un índice que almacena en memoria RAM o en disco según se especifique. Los autores indican que Lucene trabaja muy bien con la indexación en memoria RAM, pues permite realizar búsquedas más rápidas. Normalmente, se usará el almacenamiento en disco.&lt;br /&gt;&lt;br /&gt;A continuación vemos un gráfico que ilustra el proceso:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://4.bp.blogspot.com/_PBQprNaCCI0/STfNLZUpPgI/AAAAAAAADgc/HNWicZPF5MU/s1600-h/diagrama+de+flujo+lucene+escritura.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 264px; height: 400px;" src="http://4.bp.blogspot.com/_PBQprNaCCI0/STfNLZUpPgI/AAAAAAAADgc/HNWicZPF5MU/s400/diagrama+de+flujo+lucene+escritura.png" alt="" id="BLOGGER_PHOTO_ID_5275911084147555842" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;p class="MsoNormal" style="text-align: justify;"&gt;&lt;span style="" lang="ES-TRAD"&gt;Una vez creados los índices, se puede hacer búsquedas sobre ellos. Para realizar las consultas se puede optar por codificar una aplicación que lo haga (ver códigos de ejemplo), o bien utilizar alguna herramienta gráfica de tipo LuKE, que generalmente permiten consultar y editar los documentos de forma gráfica.&lt;/span&gt;&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify;"&gt;El inconveniente de esta elección es la versión que usamos de Lucene y de Java, si son muy nuevas, pueden no ser compatibles con las herramientas gráficas.&lt;/p&gt;&lt;p class="MsoNormal" style="text-align: justify;"&gt;A continuación un gráfico que ilustra el funcionamiento:&lt;/p&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://1.bp.blogspot.com/_PBQprNaCCI0/STfNzzZEFZI/AAAAAAAADgk/GIRR1TarQqg/s1600-h/diagrama+de+flujo+lucene+lectura.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 316px; height: 400px;" src="http://1.bp.blogspot.com/_PBQprNaCCI0/STfNzzZEFZI/AAAAAAAADgk/GIRR1TarQqg/s400/diagrama+de+flujo+lucene+lectura.png" alt="" id="BLOGGER_PHOTO_ID_5275911778340181394" border="0" /&gt;&lt;/a&gt;&lt;p class="MsoNormal" style="text-align: justify;"&gt;&lt;br /&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-4671159676339682001?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/4671159676339682001/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=4671159676339682001' title='3 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4671159676339682001'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4671159676339682001'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2008/12/visin-global-de-funcionamiento.html' title='Visión Global de funcionamiento'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://4.bp.blogspot.com/_PBQprNaCCI0/STfNLZUpPgI/AAAAAAAADgc/HNWicZPF5MU/s72-c/diagrama+de+flujo+lucene+escritura.png' height='72' width='72'/><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-4936090657479590389</id><published>2008-11-25T19:23:00.008+01:00</published><updated>2008-11-25T19:31:14.254+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>¿Qué es Lucene?</title><content type='html'>&lt;style type="text/css"&gt;!--   @page { size: 21cm 29.7cm; margin: 2cm }   P { margin-bottom: 0.21cm }  --&gt;  &lt;/style&gt;  &lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;Lucene&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt; es una API para recuperación de información de código abierto, originalmente implementada en Java por Doug Cutting. Está apoyado por el Apache Software Foundation y se distribuye bajo la Apache Software License. Lucene tiene versiones para otros lenguajes: Delphi,  Perl, C#, C++, Python, Ruby, PHP, .NET.&lt;/span&gt;&lt;/p&gt; &lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;Es útil para cualquier aplicación que requiera indexado y búsqueda a texto completo. Lucene ha sido ampliamente usado por su utilidad en la implementación de motores de búsquedas, lo cual ha llevado a la falsa idea de que Lucene es un motor de búsquedas con funciones de "crawling" y análisis de documentos en HTML incorporadas. &lt;/span&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;Lucene es una librería software&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt;, una &lt;/span&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;herramienta de desarrollo&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt;, no es una aplicación de búsqueda.&lt;/span&gt;&lt;/p&gt; &lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;Para Lucene no importa el origen de los datos, el formato o el idioma, siempre y cuando &lt;/span&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;se puedan convertir en texto&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt;. Esto significa que se puede usar Lucene para indexar y buscar datos almacenados en archivos: páginas web en servidores remotos, documentos almacenados en el sistema local de archivos, archivos de texto simple, documentos Microsoft Word, HTML, PDF, o cualquier otro formato del que se pueda extraer &lt;/span&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;información textual&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt;.&lt;/span&gt;&lt;/p&gt; &lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-bottom: 0cm;" align="justify"&gt;&lt;span lang="es-ES"&gt;El centro de la arquitectura lógica de Lucene se encuentra el concepto de Documento (Document) que contiene Campos (Fields) de texto. Esta flexibilidad permite a Lucene ser &lt;/span&gt;&lt;span lang="es-ES"&gt;&lt;b&gt;independiente del formato del fichero&lt;/b&gt;&lt;/span&gt;&lt;span lang="es-ES"&gt;. Textos que se encuentran en PDF, páginas HTML, documentos de Microsoft Word, así como muchos otros pueden ser indexados siempre y cuando se pueda extraer información de ellos.&lt;/span&gt;&lt;/p&gt;&lt;br /&gt;Este diagrama nos ayuda a comprender 'dónde' está situado Lucene en nuestro sistema:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://2.bp.blogspot.com/_PBQprNaCCI0/SSxD6f0i0_I/AAAAAAAADgM/T1W8VPmUL7I/s1600-h/grafico.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 400px; height: 300px;" src="http://2.bp.blogspot.com/_PBQprNaCCI0/SSxD6f0i0_I/AAAAAAAADgM/T1W8VPmUL7I/s400/grafico.png" alt="" id="BLOGGER_PHOTO_ID_5272663935997367282" border="0" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-4936090657479590389?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/4936090657479590389/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=4936090657479590389' title='0 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4936090657479590389'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/4936090657479590389'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2008/11/qu-es-lucene.html' title='¿Qué es Lucene?'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://2.bp.blogspot.com/_PBQprNaCCI0/SSxD6f0i0_I/AAAAAAAADgM/T1W8VPmUL7I/s72-c/grafico.png' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-644969411289125524.post-5313030354253310841</id><published>2008-11-18T22:20:00.003+01:00</published><updated>2008-11-18T22:28:11.213+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Lucene'/><title type='text'>Inauguración</title><content type='html'>Hola a todos!&lt;br /&gt;&lt;br /&gt;El objetivo de este blog es dar una pequeña (y espero que correcta) introducción a Lucene, como herramienta de indexación. Incluyendo algunas otras herramientas adicionales bastante útiles en su combinación con Lucene.&lt;br /&gt;&lt;br /&gt;Es más bien un blog benéfico, en español en principio, ya que toda la información que hay (escasa en el campo en el que aplicaré Lucene) está en inglés y muy fragmentada.&lt;br /&gt;&lt;br /&gt;Espero que sirva de utilidad en un futuro a alguien. Es el fruto del trabajo realizado durante mi Prácticum y bueno, mi trabajito me ha costado ;)&lt;br /&gt;&lt;br /&gt;Debo decir que no hago el blog para resolver dudas sobre esta materia, puesto que no soy experta. Simplemente, espero que lo que escriba aquí sirva y si alguien tiene alguna dudilla, responderé lo que esté en mi mano :)&lt;br /&gt;&lt;br /&gt;Un saludo!&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/644969411289125524-5313030354253310841?l=lucene-es.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://lucene-es.blogspot.com/feeds/5313030354253310841/comments/default' title='Enviar comentarios'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=644969411289125524&amp;postID=5313030354253310841' title='1 comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/5313030354253310841'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/644969411289125524/posts/default/5313030354253310841'/><link rel='alternate' type='text/html' href='http://lucene-es.blogspot.com/2008/11/inauguracin.html' title='Inauguración'/><author><name>Blancanieves</name><uri>http://www.blogger.com/profile/10807749950584121005</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='27' height='32' src='http://3.bp.blogspot.com/_PBQprNaCCI0/SSMuB8W6-6I/AAAAAAAADeg/M4UjCf3zP5g/S220/yoruichi_0411_000.jpg'/></author><thr:total>1</thr:total></entry></feed>
