martes, 8 de noviembre de 2011

16.- Sistemas de recuperación masiva basados en técnicas de sindicación de contenidos

Las técnicas de lectura y recuperación de canales de sindicación hacen posible el desarrollo de una nueva generación de buscadores especializados, muy parecidos conceptualmente a los tradicionales motores de búsqueda como Google, Yahoo, Bing y muy distintos en cuanto a su alimentación contextual y corpus documental. La principal diferencia reside en la selección de las fuentes de información, su control, descripción y recuperación de contenidos de forma exhaustiva y precisa. Ello hace posible que una búsqueda en MedWorm, sea más productiva para el colectivo de médicos y especialistas clínicos que por ejemplo en Google...



La sindicación de contenidos es clave para la las ciencias de la Documentación no sólo por el interés que suscita el mero hecho de poder controlar y desarrollar técnicas que permitan la transmisión de catálogos bibliográficos, registros, datos, o información. Es mucho más importante ser conscientes de que la mayor parte de los sitios web y sistemas de publicación digital tienen un canal de sindicación paralelo. Esto significa que una gran cantidad de información se está generando día a día, de forma limpia, resumida o completa, constantemente y cuyas fuentes de información pueden ser y son en muchos casos de gran importancia y relevancia. Millones de canales de sindicación y formatos que aún quedan por descubrir y desarrollar aguardan a que algún investigador o documentalista sea capaz de reconocerlos, emplearlos y aprovecharlos para hacer lo que siempre ha caracterizado a nuestra profesión, recuperarlos, documentarlos, describirlos y ponerlos al servicio de todos nuestros usuarios y lectores.

Finalmente, hay que recordar que todo buscador de esta naturaleza, así como de cualquier otra, emplea constantemente las técnicas de sindicación, agrupación (clustering), algoritmos de recuperación, SQL e indexación de los contenidos en centenares de bases de datos y clusters de almacenamiento repartidos en miles de servidores por todo el mundo. De tal forma que hasta este punto y según todo lo explicado hasta el momento, sea asienta la primera piedra de los conocimientos necesarios para comprender mejor y en algún momento configurar y desarrollar un verdadero sistema de recuperación de información.



15.- Práctica6: Lectura y recuperación de canales de sindicación

El segundo elemento esencial para demostrar un proceso de sindicación de contenidos es la disposición de un lector de canales de sindicación, capaz de interpretar el lenguaje de cada formato RSS1.0, RSS2.0 y ATOM. Con la práctica6 se evidenciará irrefutablemente que MARC-XML no sólamente puede ser generado y compartido como cualquier canal de sindicación, sino que también puede ser capturado, recuperado y leído perfectamente con un programa parser similar al que se utiliza para todos los demás formatos de sindicación. De esta forma se demuestra que la técnica de sindicación de contenidos puede ser empleada también para otras actividades y finalidades como las bibliográficas, archivísticas, biblioteconómicas o documentales.

lunes, 7 de noviembre de 2011

14.- Práctica5: Generación de canales de sindicación

La generación de canales de sindicación es un proceso que lleva a cabo un programa adjunto a las principales herramientas de publicación digital (blogs, wikis, cms y otros sistemas). Su ejecución se activa en el momento en el que se publican nuevos contenidos. En ese momento se regenera un archivo con extensión XML que porta la información del canal y cuyo lenguaje de codificación suele ser un formato de sindicación RSS1.0, RSS2.0 o ATOM. Es ese archivo el que comúnmente se denomina canal de sindicación y que almacena los titulares, resúmenes y contenidos completos del artículo o elemento documental que se publica. En la práctica5 se abordará este asunto y se comprobará cómo trabajan este tipo de programas, generadores de canales de sindicación, comprobando que su funcionamiento es el mismo tanto para los casos de formatos de sindicación tradicionales como para cualquier otro formato como MARC-XML, demostrando empíricamente que al menos el primer elemento de la comunicación de la teoría de sindicación de contenidos, es decir, el emisor del canal es siempre el mismo para cualquier tipo de formato. 

13.- Demostrador de procesos de sindicación de contenidos: OrangeUP

La sindicación de contenidos es un proceso de comunicación y transmisión de datos ampliamente utilizado para efectuar el seguimiento de una serie de fuentes de información de forma sencilla y rápida. Dicho proceso es posible gracias a la disposición de una serie de programas capaces de generar los canales de sindicación en formato XML y a otros capaces de leer dichos canales en los formatos que se especifiquen. Dicho de otra forma, para que pueda darse una comunicación entre el emisor del canal de sindicación y el lector, ambos deberán compartir y entender el lenguaje en el que está codificado la información. En estos casos el lenguaje extensible de marcado XML ha dado lugar a terceros formatos RSS1.0, RSS2.0 y ATOM. Todos ellos son considerados por la comunidad científica como formatos de sindicación debido a que son legibles para la mayoría de los lectores de canales de sindicación, especialmente los que incorporan los navegadores web. Otra razón por la que se consideran formatos de sindicación es por su amplia difusión en el ámbito de los medios de comunicación y entre los usuarios que diariamente los utilizan. 

La pregunta que hay que hacer llegados a este punto es: ¿Podría crearse un canal de sindicación con información bibliográfica? ¿Podrían utilizarse otros formatos derivados de XML, que al igual que RSS1.0, RSS2.0 y ATOM, permitieran la transmisión de registros bibliográficos, archivísticos o documentales? ¿Rigen las mismas normas de transmisión de datos para todos los formatos? ¿Las mismas técnicas de sindicación de contenidos pueden emplearse para otros casos? ¿Es cierto que con un generador de canales y un programa lector se pueden utilizar las mismas técnicas que se están utilizando para la sindicación de contenidos, empleando formatos especializados?





Todas estas dudas y preguntas razonables, tienen su respuesta en el programa demostrador de procesos de sindicación de contenidos OrangeUP, desarrollado exprofeso, para explicar el funcionamiento de las técnicas de sindicación, sus formatos, aplicaciones y realidades desconocidas para la comunidad científica.

lunes, 31 de octubre de 2011

12.- Sindicación de contenidos y recuperación de información

La sindicación de contenidos, también denominada redifusión de contenidos se emplea habitualmente en el marco de la transmisión de noticias para su lectura mediante diversos sistemas de lectura. La gran cantidad de información que se genera en estos medios hace necesario su conocimiento, de cara a su explotación documental, organización, clasificación y posterior recuperación. En el documento que se muestra a continuación se explican algunas de las bases sobre las que se alambica esta técnica.


Descargar documento


Cronograma de la evolución de los formatos de sindicación

Esquema de funcionamiento de la sindicación de contenidos en el entorno web

Fisionomía de un canal de sindicación

martes, 25 de octubre de 2011

11.- Práctica4bis: Recuperación con Carrot2

Para los alumnos que no dispongan de ordenador personal o que no puedan probar el programa Carrot2 en su casa, se presenta la práctica4bis, que sí es posible llevar a cabo en los ordenadores de la facultad y de cualquier aula. Para poner a prueba los conceptos aprendidos, se propone la resolución de una práctica basada en la colección de prueba ODP239.

lunes, 24 de octubre de 2011

10.- Práctica4: Recuperación con Carrot2

Las técnicas de agrupación de contenidos pueden ser de gran utilidad para la recuperación masiva de documentos y su clasificación automática. Para poner a prueba los conceptos aprendidos, se propone la resolución de una práctica basada en un caso real "recuperación de empresas especializadas en ingeniería".