Un título de gráfico

Tipos de gráficos utilizados en análisis de datos y cómo usarlos


Autora: Lorena Múnera


En el mundo de la analítica de datos, la capacidad de interpretar y comunicar la información de manera efectiva es supremamente importante. Por tal motivo, la visualización de datos es un recurso indispensable que proporciona a los usuarios finales una herramienta poderosa para entender y extraer insights valiosos de conjuntos de datos complejos. En este artículo, exploraremos un aspecto fundamental de la visualización de datos: los tipos de gráficos. Reconocer qué tipo de gráfico es el más adecuado para cada necesidad y tipo de dato es esencial, por ello, exploraremos los principales tipos de gráficos usados para la visualización de datos, viendo cómo se pueden utilizar de manera efectiva para representar una variedad de datos.

Primero, pero no menos importante, ¿qué son los gráficos? 

Los gráficos son las distintas maneras de representar series de datos estadísticos de diverso tipo y origen para mostrar de manera visual cómo evoluciona una o más variables en comparación con otras, permitiendo representar de manera accesible información compleja.​



A continuación, entraremos a explorar los principales tipos de gráfico:

Gráfico de barras:


Son útiles para comparar datos discretos, para mostrar tendencias en el tiempo y para trazar muchas series de datos.


Por ejemplo, se quiere comparar la popularidad de diferentes géneros musicales entre los jóvenes de la ciudad. Esta información se puede representar con un gráfico de barras donde cada barra representa un género musical específico, y la altura de la barra representa la popularidad relativa de ese género entre los jóvenes encuestados, determinada por una valoración en un rango del 1 al 5.




Gráfico circular / torta:

Son útiles para resaltar proporciones. Usan segmentos circulares para mostrar la relación de las partes con todo el conjunto.​ 

Por ejemplo, imaginemos que estamos analizando la distribución de gastos mensuales de un hogar promedio. Podríamos representar esta información utilizando un gráfico de torta, donde cada porción del pastel representa un área específica de gasto, como alimentación, vivienda, transporte, entretenimiento y otros. Cada porción del pastel está etiquetada con el porcentaje del presupuesto mensual que se destina a ese tipo de gasto. Esto nos proporcionaría una representación visual rápida y clara de cómo se distribuyen los gastos en el hogar. 

NOTA: Hay que tener cuidado con este tipo de gráfico debido a que se puede confundir al tratar de diferenciar 2 partes del conjunto que tengan valores similares.




Gráfico de líneas:

Son útiles para mostrar tendencias en el tiempo y para comparar muchas series de datos. Los gráficos de líneas trazan los datos en puntos regulares conectados con líneas.

Por ejemplo, supongamos que estamos analizando la evolución de las temperaturas diarias durante una semana en una ciudad determinada. Podríamos representar esta información utilizando un gráfico de líneas, donde el eje horizontal representa los días de la semana y el eje vertical representa las temperaturas en grados Celsius. Cada punto en la línea representa la temperatura registrada para un día específico, y trazando una línea a través de estos puntos, podemos visualizar cómo cambian las temperaturas a lo largo de la semana. Esto nos ayudaría a identificar patrones climáticos, como fluctuaciones de temperatura o tendencias de calentamiento o enfriamiento durante el período analizado.


Gráfico de dispersión:

Utilizan puntos de datos para trazar dos medidas en cualquier lugar de una escala, no sólo con marcas de escala regulares.​

Por ejemplo, Imaginemos que estamos estudiando la relación entre la cantidad de horas de estudio y las calificaciones obtenidas en un examen para un grupo de estudiantes. Podríamos representar esta información utilizando un gráfico de dispersión, donde cada punto en el gráfico representa a un estudiante. En el eje horizontal representamos las horas de estudio y en el eje vertical representamos las calificaciones obtenidas en el examen. Cada punto en el gráfico representa un par de valores: las horas de estudio de un estudiante y su calificación en el examen. Al observar el patrón general de dispersión de los puntos en el gráfico, podemos determinar si existe alguna relación entre la cantidad de horas de estudio y las calificaciones obtenidas. Esto nos ayudaría a entender mejor la influencia del tiempo de estudio en el rendimiento académico.


Gráfico de cajas y bigotes:

Un gráfico de cajas y bigotes muestra la distribución de datos en cuartiles, resaltando el promedio y los valores atípicos. Las cajas podrán tener líneas que se extienden verticalmente llamadas “bigotes”. Estas líneas indican la variabilidad fuera de los cuartiles superior e inferior y cualquier punto fuera de esas líneas o bigotes se considera un valor atípico.

Por ejemplo, Imaginemos una empresa de retail que opera en varias regiones geográficas y necesita analizar las ventas de sus productos en cada una de ellas. El eje vertical del gráfico representará las ventas, mientras que el eje horizontal mostrará las regiones.

Cada región tendrá su propia caja con límites superiores e inferiores, lo que indica el rango intercuartil, y los bigotes mostrarán los valores mínimos y máximos. Esto permitirá identificar rápidamente las regiones con mayores y menores ventas, así como aquellas con una mayor variabilidad en sus resultados.


Histograma:

Un histograma es similar en apariencia a un diagrama de barras, pero en lugar de comparar categorías o buscar tendencias a lo largo del tiempo, cada barra representa cómo se distribuyen los datos en una única categoría. Cada barra representa un rango continuo de datos o el número de frecuencias de un punto de datos específico. 

Los histogramas son útiles para mostrar la distribución de una única variable de escala. Los datos se agrupan y se resumen utilizan un estadístico de porcentaje o recuento.​ 

Por ejemplo, se quiere saber la variación de las edades en un grupo de artistas de una banda sinfónica, donde en el eje x tenemos como variable los rangos de edad y en el eje y la frecuencia de estos datos, es decir la cantidad de personas que tienen una edad específica.



En resumen, los gráficos son herramientas fundamentales en el análisis de datos, ya que permiten visualizar de manera clara y concisa la información compleja. Cada tipo de gráfico tiene su utilidad específica, desde comparar datos discretos hasta mostrar tendencias en el tiempo o resaltar proporciones.

 Los gráficos de barras son ideales para comparar datos y mostrar tendencias en el tiempo, mientras que los gráficos circulares son eficaces para resaltar proporciones. Por otro lado, los gráficos de líneas son excelentes para visualizar tendencias temporales, y los gráficos de dispersión son útiles para identificar relaciones entre dos variables.

 Al comprender qué tipo de gráfico utilizar en cada situación, los analistas de datos pueden comunicar de manera efectiva sus hallazgos y facilitar la toma de decisiones informadas. Por último, dominar la utilización de estos gráficos es esencial para aprovechar al máximo el potencial de los datos y obtener insights valiosos para cualquier organización.

¿Qué te pareció? ¡Comparte tu opinión ahora!