Bachillerato: Estadística y Probabilidad
Bachillerato: Estadística y Probabilidad
Interpretar Datos y Categóricos Cuantitativos HSS-ID.B.5
5. Resume los datos categóricos para dos categorías en tablas de frecuencia de dos variables. Interpreta las frecuencias relativas en el contexto de los datos (incluyendo las frecuencias relativas conjuntas, marginales y condicionales). Reconoce posibles asociaciones y tendencias en los datos.
Por más vueltas que le demos, la estadística trata los números. Por lo tanto, obviamente resulta lógico que los estadísticos usen un montón de datos numéricos (estatura, peso, edad, etc.) pero hasta eso se vuelve demasiado fácil después de un tiempo. Los datos que no se representan de forma numérica se conocen como datos categóricos (color de ojos, color de pelo, sexo, etc.).
Si bien parece que no es mucho lo que podemos hacer con los datos categóricos (después de todo, ¿cómo vamos a analizar el color café de los ojos de una persona?), los estadísticos lamentarían discrepar. Bueno, en todo caso, hay un 92% de posibilidades de que discrepen.
Los alumnos deben saber qué hacer con los datos categóricos y cómo analizarlos. Los estudiantes deben poder analizar los datos de dos categorías distintas. Por ejemplo, los datos recolectados de hombres y mujeres acerca de su libro de superhéroes favorito (la Mujer Maravilla (WW), Batman (BM) o Superman (SM) se pueden resumir en una tabla.
Esta tabla es una tabla de dos variables porque podemos dividir los datos en dos categorías: en hombres o mujeres (100 son hombres y 100 son mujeres) o en superhéroe favorito (87 prefieren a la Mujer Maravilla, 63 prefieren a Batman y 50 prefieren a Superman).
Los estudiantes también deben poder convertir estos datos en tablas de frecuencia relativa de dos variables:
Los estudiantes deben saber lo que estos números significan. Los números en el medio se llaman probabilidades conjuntas porque dependen de más de una categoría o un evento que tengan lugar al mismo tiempo. En este caso, queremos saber si la persona es hombre o mujer y cuál superhéroe prefiere. Así, escrito en lenguaje matemático, cada variable en la tabla representa P (sexo y superhéroe).
Las probabilidades marginales representan la probabilidad de solo una categoría, P (sexo) o P (superhéroe). Se llaman marginales porque se ubican en los márgenes de la tabla. Obvio.
Si conocemos los datos de una categoría y no los de la otra (supongamos que sabemos que la persona es hombre, pero no sabemos cuál es su superhéroe favorito), podemos calcular la probabilidad de que su superhéroe favorito sea Superman. Esto se denomina probabilidad condicional porque está supeditada a que sepamos parte de la información. Escribimos esto en lenguaje matemático así: P (SM | Hombre). (El símbolo |significa “dado”.)
Podemos calcular P(SM | Hombre) según la tabla de frecuencia porque sabemos que el 0.50 de la gente encuestada eran hombres y el 0.175 de la gente encuestada eran hombres a los que les gustaba Superman. Podemos usar estos dos valores para determinar lo siguiente:
Los estudiantes deben sentirse cómodos al crear, entender y usar estas tablas para calcular probabilidades correspondientes a más de dos categorías. Además, deben poder determinar la probabilidad de las combinaciones (por ejemplo, P(M) = P(M & WW) + P(M & BM) + P(M & SM) = 0.310 + 0.115 + 0.075 = 0.5) y las negociaciones (tales como P(M & WW'), lo que representa la probabilidad de que la persona encuestada sea mujer y no prefiera a la Mujer Maravilla, como P(M & WW') = P(M & BM) + P(M & SM) = 0.115 + 0.075 = 0.190).
Recuerda a los estudiantes que estas probabilidades expresan la probabilidad de que una persona encuestada al azar satisfaga cualquiera de las categorías descritas en el paréntesis.
Aunque muchos de estos temas parecen obvios o implícitos, a algunos estudiantes les costará entender la diferencia entre datos numéricos y categóricos o para analizar la tabla de frecuencia. Lo mejor es explicar estos temas por medio de muchos ejemplos, haciendo hincapié en las similitudes y diferencias para que los estudiantes entiendan lo que es importante y lo que no. Por ejemplo, si bien el número de categorías no va a ser el mismo en cada ejemplo, los datos siempre serán categóricos.