La ley de Zipf y los blogs: radiografía de Forestalia

Hace algo más de un año descubrí, gracias a una entrada en FuegoLab, la ley de Zipf. George Zipf fue un lingüista estadounidense que acuñó la ley que lleva su nombre y que dice, básicamente, que la frecuencia con que se utiliza una determinada palabra en un idioma es inversamente proporcional a su posición en la tabla de frecuencias. Es decir, que la palabra más frecuente se usará el doble de veces que la segunda más usada, tres veces más que la tercera, cuatro más que la cuarta, etc. Esta ley se puede escribir matemáticamente como:
donde Pn es la frecuencia de la palabra situada en la posición n, y a es un escalar. Se ha comprobado que la ley de Zipf se cumple para numerosos fenómenos, desde los tamaños de las ciudades de un país hasta la abundancia de especies en un ecosistema. Para que se cumpla de manera estricta, a debe valer 1, aunque se ha comprobado que hay muchos casos donde aunque se da la proporcionalidad, a toma valores distintos.
Pues bien, como os decía, hace un año que FuegoLab decidió comprobar si la ley de Zipf se cumplía con las visitas a los blogs, y nos lanzaba el guante a probarlo por nosotros mismos. Una entrada reciente del mismo blog nos recordaba su propuesta, así que aunque un poco tarde, pero aquí van los resultados para Forestalia:
Como podéis ver, la ley se cumple bastante bien, aunque el valor de a es mayor de 1, lo que indica que la entrada en la posición n no se ha visto 1/n veces que la más vista, sino algo menos. Esto es algo que ya observó Javier, y que parece que pasa también en otros blogs, y se debe al efecto de las entradas menos vistas. En este caso, si sólo cogemos las entradas que han tenido al menos 100 visitas (gracias a vosotros son la gran mayoría!) obtenemos un ajuste mucho mejor (R2=0.99!!!) y una pendiente de la recta más cercana a 1, aunque todavía mayor.

Pero ¿se cumplirá la ley de Zipf con otras de las métricas del blog? Para comprobarlo, usé los datos que da blogger sobre visitas por país y por tipo de navegador.

La proporcionalidad se cumple muy muy bien, pero en cambio la pendiente es mucho mayor que 1 (más negativa, vaya). Esto quiere decir que el primer clasificado en el ranking (España en el de países, Chrome en el de navegadores) aporta mucho más del doble de visitas que el segundo clasificado (EE.UU. para países, Safari para navegadores).
En definitiva, y a la espera de que se anime más gente a probarlo con sus blogs, parece que la ley de Zipf se cumple, pero sólo con las entradas con un cierto número de visitas. En el caso de Forestalia, algunas de las entradas que escribí al principio, cuando nadie sabía que tenía blog, contribuyen a romper la pendiente de 1. En otros aspectos como el país de origen, sin embargo, la regla no se cumple tan bien, probablemente por el gran peso del primer clasificado en el ránking, aunque el hecho de que Blogger solo de datos de los 10 primeros países hace difícil sacar más conclusiones.
¿Para qué sirve esto? Pues en principio, para nada más que para que un grupo de nerds se entretenga un rato. Pero si habéis llegado hasta aquí es que tenéis también vuestro puntito freak, así que ¡no os hagáis los estirados y animaos a probarlo con los datos de vuestro blog, a ver si conseguimos sacar alguna conclusión!

2 Comments

  • @Fuego_lab

    9 febrero, 2015 at 06:42 Responder

    Gracias compañero Nerd! 😉 para algo si que sirve la Ley de Zipf, nos ha entretenido un rato 🙂 Si a algún desarrollador le intersara podria ser interesante ver cómo funciona si eliminamos del blog la pestaña "los mas leídos" o si reducimos el impacto de las lecturas solo a fechas cercanas a la pubicación. Eso sí podria informar sobre su utilidad, aunque seguiremos sin saber por qué ocurre. Da para un Iker. Saludos!

  • @Fuego_lab

    9 febrero, 2015 at 06:43 Responder

    Gracias compañero Nerd! 😉 para algo si que sirve la Ley de Zipf, nos ha entretenido un rato 🙂 Si a algún desarrollador le intersara podria ser interesante ver cómo funciona si eliminamos del blog la pestaña "los mas leídos" o si reducimos el impacto de las lecturas solo a fechas cercanas a la pubicación. Eso sí podria informar sobre su utilidad, aunque seguiremos sin saber por qué ocurre. Da para un Iker. Saludos!

Deja un comentario