Reto de Numpy con Estadística Básica

Usted trabaja en una compañia de comidas (cereales) que esta desarrollando un nuevo producto. Su empresa quiere demostrar que tan saludable es el producto en comparacion a otras marcas y usted ha entrado a trabajar sobre los datos nutricionales de su marca.

Tu trabajo es usar calculos estadisticos con NumPy para analizar esta data y probar que la marca para la cual trabajas es mas saludable que los productos de la competencia.

1- Importa Numpy

2- Hemos creado un archivo csv llamado cereal.csv, vaya al siguiente link, descargue el archivo en su ambiente virtual o en su máquina local y carguelo en la siguiente celda usando el método genfromtxt de Numpy. Este archivo contiene las calorias de los diferentes cereales de la competencia.

Guarde el archivo como calorie_stats y luego imprímalo

3- El producto de la empresa para la cual usted está trabajando tiene 60 calorias. Cual es el promedio de calorias de la competencia? Guarde la respuesta en una variable llamada average_calories e imprimala

4- Este promedio refleja adecuadamente la distribucion de los datos? Ordenelos de menor a mayor y analicemos. Guarde el resultado en una variable llamada calorie_stats_sorted e imprimala

Si esta viendo lo mismo que nosotros, se dará cuenta que la mayoria de valores están por encima de la media de 106.88 que obtuvimos en el punto #3. Vemos si la mediana es mas representativa que la media en este caso.

5- Calcule la Mediana y guárdela en una variable llamada median_calories e imprímala

Si vemos, el dataset contiene muchos datos en ese valor de 110, y aparentemente esta representando mejor las mayorias.

6- Calcule ahora los diferentes percentiles e imprimalos hasta que encuentre el percentil más bajo y que es mayor que 60 calorias. Guarde este valor en la variable nth_percentile

Nota: esto lo puedes hacer calculando cada percentil de forma manual hasta que logres el percentil adecuado

7- Calculemos ahora el porcentaje de cereales que tienen más de 60 calorias. Guarde el valor en la variable more_calories e imprimala. Esto puedes hacerlo de varias formas, te recomendamos usando la media con Numpy.

Nota: la media de Numpy combinada con un selector booleano es una poderosa función que nos permite hacer dos pasos en simultánea: seleccionar los valores que cumplen la condicion booleana (los cuales devuelven True) y luego calcular el peso que ellos tienen sobre el total de los datos!

8- También podemos llegar al mismo resultado restando 100 al nth_percentile. Haz el calculo y observa el resultado

Como vemos la gran mayoria de competidores tienen cereales con mas de +60 calorias. pero cuanta variacion hay en el set de datos? Podemos hacer una generalizacion diciendo que la mayoria tiene alrededor de 100 calorias o es la dispersion aún mas grande?

9- Encuentre el monto de variacion calculando la desviacion standard. Guarde su respuesta en calorie_std e imprimala. Como podemos incorporar este valor en nuestro analisis?

La forma de análizar estos datos es decir que, la media de calorías de la competencia es de 106.88 calorías y que la desviación estandar está entre +19.35 calorías y -19.35 calorías, o sea que el 68% de las calorias de la competencia se encuentra entre: 87.53 y 126.23 calorías, y si nosotros tenemos solo 60 calorías quiere decir que estamos ubicados entre los rangos inferiores, por lo que somos mucho más saludables!

10- Escriba un parrafo corto acerca de sus resultados y como puede usarlo su empresa para las campañas de marketing?

Idea: trata de analizar los percentiles y sacar conclusiones sobre ellos!