¿Qué es la CDPedia?

La CDPedia es la Wikipedia Offline. O sea, la Wikipedia, lo más fiel posible a su formato y contenido original, pero armada (construida, compactada) de una manera que no se necesita nada de Internet para acceder a toda la info de la misma.

¿Cómo surgió?

El proyecto arrancó en el sprint posterior al primer PyDay de Santa Fé, en Junio del 2006, con la idea base de poder distribuir la Wikipedia a aquellos lugares que no tenían o tienen acceso a Internet (en particular teníamos en mente a escuelas de frontera o de ciudades chicas, bibliotecas de barrio, centros culturales de pueblos pequeños, etc.).

El proyecto continuó siempre, y aunque no siempre se le pudo dedicar tiempo. Las mejoras en el proyecto fueron paulatinas. Se destaca que fueron casi 30 personas quienes colaboraron en el proyecto a lo largo de los años.

Se trabajó mucho en este proyecto durante los PyCamps (los dos en Los Cocos, el de Verónica, y el de La Falda), donde muchas personas le dedicaron un buen tiempo, y también se realizó bastante durante otras reuniones, especialmente durante el 2010 y 2011.

¿Y qué contenido tiene?

El contenido de la CDPedia está fuertemente determinado por dos características intrínsecas del proyecto: la CDPedia es estática y fácilmente distribuible en un disco o pendrive.

Decimos que la CDPedia es estática porque una vez armada, no se actualiza. Por eso, como «fotografía de un momento de Wikipedia», por definición siempre va a estar desactualizada.

Cuando se comienza a generar una nueva versión de la CDPedia, se baja todo el contenido de Wikipedia y se empieza a procesar. Este procesamiento puede llevar varias semanas, incluso un par de meses. Entonces, cuando se libera una nueva versión de CDPedia, no incluye todos los cambios desde que se empezó a procesar.

Es por esto que se trata de liberar CDPedias al menos una vez por año, para que contenga todo lo último.

La CDPedia se puede distribuir fácilmente: sólo hace falta grabar un CD o DVD, o incluso pasarse los archivos mediante un pendrive. En casi todas las versiones (menos la más grande), por una cuestión de formato, no entra todo el contenido de la Wikipedia. Por ejemplo, para la versión 0.8.3, tenemos lo siguiente:

  • CD (693 MB): 54 mil páginas y 5% de las imágenes
  • Tarball medio (3.6 GB): 400 mil páginas y 20% de las imágenes
  • DVD (4.3 GB): Todas las páginas y 8% de las imágenes
  • Tarball grande (8.7 GB): Todas las páginas y todas las imágenes

Entonces, a menos que se arme un tarball grande, es evidente que tenemos que decidir cuáles páginas e imágenes van a entrar, y cuales van a quedar afuera.

Esa decisión se toma ordenando todas las páginas por un determinado puntaje (que se explica abajo), y se eligen las primeras N páginas (para el ejemplo anterior, las primeras 54 mil para el CD, las primeras 400 mil para el tarball medio, etc). Esas páginas tienen a su vez imágenes, que naturalmente también quedan ordenadas por el puntaje de las páginas: se toma un primer porcentaje de imágenes que se incluyen al 100%, otro porcentaje de imágenes que se escalan al 75%, otro porcentaje de imágenes que se escalan al 50%, y el resto no se incluye.

La selección de las páginas

La selección de la páginas que estén incluídas en CDpedia es un tema clave.  Por lo que se trata de darle un puntaje a las mismas. Este puntaje está formado (hoy por hoy) en base a dos factores: levemente por el largo de la página (una página larga tiene más puntaje que una corta), y fuertemente por lo que llamamos «peishranc», que es la cantidad de otras páginas que enlazan a la que estamos evaluando (entonces, si a una página se la menciona en otras mil páginas es mucho más importante que una página que casi no se la menciona en el resto de la Wikipedia).

Pueden descargar CDPedia desde acá.

 Texto: Facundo Batista –  Ingeniero Electrónica de la Universidad Nacional de La Matanza. Tiene un Master en Ingeniería de la Innovación en la Universidad de Bologna, Italia.

Dejar una respuesta