Diagrama de dispersión y correlación

Diagrama de dispersión y correlación

Los diagramas de dispersión son una forma fenomenal de expresar datos de dos variables, y hacer predicciones basadas en los datos. Al contrario de los histogramas y los diagramas de caja, los de dispersión muestran valores de datos individuales.

Este es el diagrama de dispersión que expresa la cantidad de dinero que se ganó Mateo cada semana trabajando en la tienda de su padre.

Las semanas están diagramadas en el eje x, y la cantidad de dinero que se ganó en esa semana en el eje y. En general, la variable independiente (la variable que no está influenciada por nada) está en el eje x y la variable dependiente (la que es modificada por la variable independiente) está en el eje y.

En este diagrama podemos ver que en la semana 2 Mateo se ganó alrededor de $125, y en la semana 18 estuvo cerca de los $165. Pero más importante aún es la tendencia. Por ejemplo, con estos datos podemos ver que Mateo gana cada vez más según pasan las semanas. Quizá su padre le da más horas a la semana o más responsabilidades.

Correlación

Con los diagramas de dispersión podemos ver cómo se relacionan ambas variables entre sí. Esto es lo que se conoce como correlación. Hay tres tipos de correlación: positiva, negativa y nula (sin correlación).

  • Correlación positiva: ocurre cuando una variable aumenta y la otra también. Por ejemplo, la altura de una persona y el tamaño de su pie; mientras aumenta la altura, el pie también.
     
  • Correlación negativa: es cuando una variable aumenta y la otra disminuye. El tiempo de estudio y el tiempo que pasas jugando videojuegos, tienen una correlación negativa, ya que cuando tu tiempo de estudio aumenta, no te queda tanto tiempo para jugar videojuegos.
     
  • Sin correlación: no hay una relación aparente entre las variables. Los puntos en tus videojuegos y tu talla de zapato no parece tener ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto.

El diagrama de dispersión que analizamos tiene una fuerte correlación positiva: a medida que las semanas aumentan, su pago también.

Línea de ajuste

Usamos la "línea de ajuste" para hacer predicciones basándonos en datos pasados. Hay muchas y muy complicadas fórmulas para encontrar esta recta, pero por ahora solo la dibujaremos a través de los puntos en la gráfica para que se ajuste a la tendencia que nos marcan los datos. Cuando dibujes la recta, asegúrate de que encaje con la mayor parte de los datos. Si hay un punto que está muy por encima o muy por debajo con respecto al resto (los atípicos) déjalo fuera de la recta.

Usando esta recta podemos predecir cuánto dinero se ganará Mateo en 20 semanas de trabajo (asumiendo que el patrón continúa).

Basándonos en estos ejemplos, Mateo se ganará, aproximadamente, $157 en la semana 20.