El primer paso de un análisis suele ser entender la distribución de las variables en juego. Para cada variable, queremos responder a preguntas como:

  • ¿cuál es el rango de valores que toma la variable?
  • ¿cuál es la mediana / cuartiles / etc.?
  • ¿existen valores atípicos (outliers)?
  • ¿cuál es la forma de la distribución (normal, larga cola, etc.)?

Existen diferentes visualizaciones adecuadas para el análisis de una distribución. En este artículo veremos algunas opciones, mediante un ejemplo.

Vamos a utilizar un conjunto de datos de Youtube. Disponemos de una tabla con información de unos 40,000 videos de los “youtubers” más populares en España (gracias a Adrià Padilla por pasarnos estos datos). Para cada video, sabemos el título, autor, canal, fecha de publicación, duración, visitas, comentarios, etc.

Nos preguntamos lo siguiente: ¿cómo ha variado la duración de los videos de youtube en los últimos años? Es decir, queremos analizar la variable “duración del video”, que toma un valor determinado para cada uno de los 40,000 videos de nuestro conjunto de datos.

Lo primero que podemos hacer es un histograma como el siguiente:

Cada barra representa un intervalo de 5 minutos. Por ejemplo, la barra situada en el “10” nos indica el % de videos entre 10 y 15 minutos. Este histograma nos permite ver lo siguiente, entre otras cosas:

  • la longitud de los videos varía entre 0 y 275 minutos
  • la mitad de los videos duran menos de 10 minutos
  • es poco probable que un video dure más de media hora

A fin de entender la evolución temporal, podemos mostrar un histograma para los videos de cada año:

Hemos optado por mostrar una línea en lugar de barras, para apreciar mejor la forma de la distribución, que es lo que queremos comparar año a año. Se aprecia como los videos tienden a ser más largos, aunque de manera muy gradual. Así mismo, tiende a haber más diversidad, como demuestra que los picos sean cada vez menos pronunciados.

En particular, sospechamos que entre 2016 y 2017 ha habido un cambio de tendencia más pronunciado. Por ello, a continuación hemos pintado la evolución mes a mes, a fin de detectar en qué mes se produce el cambio de tendencia.

Para poder comprimir toda la información en un único gráfico, hemos utilizado la técnica de “small multiples” (pequeños múltiples). Consiste en repetir un mismo gráfico, con la misma escala, a fin de facilitar la comparación de varios elementos. En este caso, los meses de los últimos años.

Así mismo, hemos realizado algunos ajustes adicionales:

  • Cambio de escala lineal a logarítmica en el eje de las X (por ello veis un 10 y un 100 como referencias). No siempre es recomendable, pero en este caso juega a nuestro favor, porque nos interesa únicamente apreciar cambios de forma (cosa que no era posible con la escala lineal)
  • Destacar con un tono más oscuro los meses en los que se ha producido el cambio de tendencia, para facilitar la comprensión del mensaje que queremos dar

Una vez hemos comprendido la evolución global de los videos, nos hemos fijado en dos youtubers particularmente conocidos: El Rubius y Vegetta777. Nuestra intención es comprobar si los youtubers siguen estrategias diferenciadas en cuanto a la duración de sus videos, más allá de las tendencias globales.

Comparando los dos histogramas, vemos que El Rubius ha seguido una estrategia similar en los últimos años, principalmente publicando videos de unos diez minutos de duración. Sin embargo, la estrategia de Vegetta777 es diferente. En primer lugar, sus picos no son tan pronunciados, lo que indica una mayor variedad de duraciones de los videos. En segundo lugar, su estrategia de publicación ha cambiado significativamente con los años. Empezó centrándose en videos de alrededor de 30 minutos, y poco a poco fue cambiando hasta que en 2016 aparecieron dos picos: videos de 18 minutos y 30 minutos.

Otra manera de comparar las distribuciones de los dos youtubers sería utilizar un box plot, como hemos hecho a continuación:

Para ser más precisos, hemos utilizado una variación del box plot. Mostramos únicamente la caja central de este gráfico. En otras palabras, el rectángulo gris oscuro representa la diferencia entre el primer cuartil y la mediana, y el rectángulo gris claro la diferencia entre la mediana y el tercer cuartil. Por lo tanto, el gráfico nos permite evaluar la dispersión de los valores, y la evolución de la mediana en el tiempo.

El box plot nos permite ver claramente cómo los videos de El Rubius tienen una duración muy cercana a la mediana, sobre todo a partir de finales de 2015. Sin embargo, Vegetta777 hace lo contrario, y sus videos cada vez comprenden duraciones más variadas.

Una ventaja del box plot es que permite comparar más fácilmente que el histograma la distribución de un valor en el tiempo, porque es más compacto. Sin embargo, perdemos información importante referente a los picos de la distribución. Por ejemplo, ya no vemos los dos picos que se forman para Vegetta777 en el 2016. Únicamente vemos que la distribución se ensancha, pero no sabemos si lo hace de manera uniforme, o alrededor de ciertos valores. En el siguiente gráfico vemos esto más claramente:

Hemos comparado el histograma con el boxplot, para entender mejor lo que aporta cada uno. Como podéis ver, mientras que el histograma muestra claramente dos picos, con el boxplot somos incapaces de verlo. A cambio, el boxplot es más compacto, permite saber donde está la mediana y cada cuartil, e identifica fácilmente a los valores atípicos (los puntos gris claro).

Hasta el momento, hemos utilizado formas gráficas que enfatizan la distribución de los valores. Sin embargo, en ocasiones nos interesará destacar la evolución media de los valores a lo largo del tiempo. En este caso, por ejemplo, podríamos optar por pintar la evolución de la mediana en el tiempo, como hacemos en el siguiente gráfico:

En azul oscuro mostramos la mediana, y en azul claro el rango entre el primer y el tercer cuartil. Este gráfico, por lo tanto, muestra la misma información que el boxplot, pero haciendo hincapié en la tendencia de la mediana. Nos permite apreciar que la tendencia en la duración de los videos de Vegetta777 es ligeramente a la baja, mientras que para El Rubius se mantiene muy estable alrededor de los diez minutos.

En resumen, en este artículo hemos expuesto diferentes maneras de representar la distribución de valores de una variable. En particular, hemos visto tres tipos de gráficos:

  • histograma
  • box plot
  • tendencia de mediana

Son tres gráficos muy simples, ideales para una primera aproximación al análisis de una variable concreta. Como hemos visto en el ejemplo de los videos de Youtube, un simple histograma es capaz de revelar muchas cosas. A veces, los gráficos más simples son los más reveladores. Si un histograma no nos dice nada acerca de una variable, es muy probable que dicha variable no esconda información de interés. Por el contrario, gráficos como el boxplot o medidas como la mediana pueden ocultarnos información importante (por ejemplo un pico alrededor de un valor) y deben utilizarse con cautela.