Usted trabaja en una compañia de comidas (cereales) que esta desarrollando un nuevo producto. Su empresa quiere demostrar que tan saludable es el producto en comparacion a otras marcas y usted ha entrado a trabajar sobre los datos nutricionales de su marca.
Tu trabajo es usar calculos estadisticos con NumPy para analizar esta data y probar que la marca para la cual trabajas es mas saludable que los productos de la competencia.
1- Importa Numpy
2- Hemos creado un archivo csv llamado cereal.csv
, vaya al siguiente link, descargue el archivo en su ambiente virtual o en su máquina local y carguelo en la siguiente celda usando el método genfromtxt
de Numpy. Este archivo contiene las calorias de los diferentes cereales de la competencia.
Guarde el archivo como calorie_stats
y luego imprímalo
3- El producto de la empresa para la cual usted está trabajando tiene 60 calorias. Cual es el promedio de calorias de la competencia? Guarde la respuesta en una variable llamada average_calories
e imprimala
4- Este promedio refleja adecuadamente la distribucion de los datos? Ordenelos de menor a mayor y analicemos. Guarde el resultado en una variable llamada calorie_stats_sorted
e imprimala
Si esta viendo lo mismo que nosotros, se dará cuenta que la mayoria de valores están por encima de la media de 106.88
que obtuvimos en el punto #3. Vemos si la mediana es mas representativa que la media en este caso.
5- Calcule la Mediana y guárdela en una variable llamada median_calories
e imprímala
Si vemos, el dataset contiene muchos datos en ese valor de 110, y aparentemente esta representando mejor las mayorias.
6- Calcule ahora los diferentes percentiles e imprimalos hasta que encuentre el percentil más bajo y que es mayor que 60 calorias. Guarde este valor en la variable nth_percentile
Nota: esto lo puedes hacer calculando cada percentil de forma manual hasta que logres el percentil adecuado
7- Calculemos ahora el porcentaje de cereales que tienen más de 60 calorias. Guarde el valor en la variable more_calories
e imprimala. Esto puedes hacerlo de varias formas, te recomendamos usando la media con Numpy.
Nota: la media de Numpy combinada con un selector booleano es una poderosa función que nos permite hacer dos pasos en simultánea: seleccionar los valores que cumplen la condicion booleana (los cuales devuelven True
) y luego calcular el peso que ellos tienen sobre el total de los datos!
8- También podemos llegar al mismo resultado restando 100 al nth_percentile
. Haz el calculo y observa el resultado
Como vemos la gran mayoria de competidores tienen cereales con mas de +60 calorias. pero cuanta variacion hay en el set de datos? Podemos hacer una generalizacion diciendo que la mayoria tiene alrededor de 100 calorias o es la dispersion aún mas grande?
9- Encuentre el monto de variacion calculando la desviacion standard. Guarde su respuesta en calorie_std
e imprimala. Como podemos incorporar este valor en nuestro analisis?
La forma de análizar estos datos es decir que, la media de calorías de la competencia es de 106.88
calorías y que la desviación estandar está entre +19.35
calorías y -19.35
calorías, o sea que el 68% de las calorias de la competencia se encuentra entre: 87.53
y 126.23
calorías, y si nosotros tenemos solo 60
calorías quiere decir que estamos ubicados entre los rangos inferiores, por lo que somos mucho más saludables!
10- Escriba un parrafo corto acerca de sus resultados y como puede usarlo su empresa para las campañas de marketing?
Idea: trata de analizar los percentiles y sacar conclusiones sobre ellos!
## escriba aquí un párrafo con su propio análisis y conclusiones