lunes, 16 de septiembre de 2013

EJERCICIOS ESTADISTICA

teorema de Chebyshev:

en una importante empresa de mercado inicio un estudio sobre habitos de salud en un sector de estrato 3 de una sociedad capital. Para hacer dicho estudio contrato a varios encuestadores que, en promedio, aplicaron 30 encuestas al dia, con una desviacion estándar de 5.

utiliza el teorema de Chebychev para determinar el porcentaje de encuestas aplicadas dentro de cada uno de los siguientes intervalos.


  • 20 a 40
  • 15 a 45 
  • 22 a 38
  • 18 a 42

los resultados de una encuesta nacional aplicada a 1.154 estudiantes mostraron que, en promedio, los adultos duermen 6,9 horas por dia durante una semana de trabajo. Si la desviación estándar en este estudio fue 1,2 horas


  • calcula el porcentaje de individuos que duerme entre 4,5 y 9,3 horas por dia.                       

LA REGLA EMPIRICA

Una de las ventajas del teorema de de Chebyshev es que se aplica a cualquier conjunto de datos, sin importar en que forma estén distribuidos; pero se ha visto en la práctica que si un conjunto de datos se distribuye, aproximadamente, en forma de campana es posible aplicar en ellos la llamada, regla empirica.

esta regla permite encontrar el porcentaje de datos que debe estar dentro de determinadas desviaciones estándar respecto a la media. A continuación se determinan estos porcentajes:

  • aproximadamente el 68% de los datos están  a menos de una desviación estándar de la media 
  • aproximadamente el 95% de los datos están a menos de dos desviaciones estándar de la media 
  • casi todos los datos de la muestra están a tres desviaciones de la media 
EJEMPLO:

Una maquina embotelladora de refrescos llena automaticamente envases con bebidas gaseosas. se sabe que la distribución de las botellas se comporta como campana y ademas, el contenido promedio de las botellas es 375cc con õ= 4,3 cc 
 la directora de producción desea saber con mayor exactitud entre que rangos de llenado estan quedando las botellas de bebida.

aplicando la regla empirica, se determinan los siguientes valores: 

(x-s, x+s)
(x-2s, x+2s)
(x-3s, x+3s)
De donde se presentan las siguientes conclusiones con relación al llenado de botellas:
  • aproximadamente el 68% de las botellas están llenas entre 370,7 cc y 379,3 cc.
  • aproximadamente el 95% de las botellas estan lenas entre 366,4 cc y 383,6 cc. 
  • casi todas las botellas están llenas entre 362,1 cc y 387,9 cc.

TEOREMA DE CHEBYSHEV

Para determinar la proporción de los valores que deben quedar dentro de una cantidad especifica de desviaciones estándar con respecto a la media, se usa el llamada teorema de Chebyshev, este ofrece de alguna manera, los limites de un intervalo entre el cual se deben ubicar los datos de una distribución para analizar la dispersión.
 Como minimo (1-  1     )  de los datos debe de estar a menos de z desviaciones estándar de distancia
                                  z 2
con respecto a la media, siendo z cualquier valor mayor que 1.

  • si Z= 2 se dice que como mínimo el 75% de los datos deben a estar a media  de Z= 2 desviaciones estándar de la media 
  • si Z=3 se dice que como mínimo el 89% de los datos deben estar a menos de Z= 3 desviaciones estándar de la media 
  • si Z= 4 se dice que como minimo el 94% de los datos deben estar a menos de Z= 4 desviaciones estándar de la media 

ejemplo:

el profesor de ingles realizo un examen a sus 100 estudiantes. Al entregar los resultados a su jefe de área, le comento que el promedio había sido 70 puntos, con una desviación estándar de 5 puntos. El jefe de área desea saber cuantos estudiantes obtuvieron puntajes entre entre 60 y 80 pues para los estudiantes que obtuvieron puntaje menor a 60 tendrán  que contratar un refuerzo adicional.

se observa que 60 puntos esta a 2 desviaciones estándar debajo del promedio y 80 puntos esta a 2 desviaciones estándar por encima del promedio.

Asi, como Z= 2, se dice que mínimo el 75% de los estudiantes esta a menos de dos desviaciones estándar del promedio. (para el caso el 75% de los estudiantes esta a menos de dos desviaciones estándar de 70)

En conclusion, tendrán que poner un refuerzo adicional como máximo a 25 de los 100 estudiantes. 



VALOR Z O VALOR ESTANDARIZADO

Un valor z o valor estandarizado juega un  papel importante para comparar valores de distintos conjuntos de datos.

El valor de z se interpreta como el numero de desviaciones estándar, a las que se encuentra un dato X1 en relacion con la medida \overline{X}

ejemplo:

liga de baloncesto       46 deportistas
liga de gimnasia          54 deportistas
liga de patinaje           42 deportistas
liga de tenis                46 deportistas
liga de fútbol              32 deportistas

la directora de la liga planea ampliar la sede para cada deporte si la mayoría de los deportistas supera la media, pero quiere tener la seguridad de que hay suficientes deportistas en cada liga de tal forma que los espacios sean aprovechados en su totalidad. hay suficientes deportistas para ampliar la sede?

primero, se calculan la media o promedio y la desviación estándar de la distribución.

El calculo de la media es:
\overline{X}=46+54+42+46+32   = 44 deportistas
                  5

El calculo para la desviación estándar es:


s^2 = \frac{ \sum_{i=1}^n \left( x_i - \overline{x} \right) ^ 2 }{n-1}

=(46-44)2 + (54-44)2 + (42-44)2 + (46+44)2 + (32-44)2  
                                                   4


=4+100+4+4+144 = 256 = 64
                 4                       4

por tanto, s = 8 deportistas 

después, se calcula el valor z para determinar los datos (en este caso la cantidad de deportistas) sean tan cercanos a la muestra, que valga la pena la ampliacion de cada espacio de la sede.

Cantidad de deportistas
Desviación con respcto a la
Media Xi-
Valor Z   Zi= Xi-
                           s

46
2
0.25
54
10
1,25
42
-2
-0.25
46
2
0.25
32
-12
-1.5

     

medidas de localizacion

Al iniciar un curso de estadística se aprende a caracterizar variables teniendo en cuenta si son cuantitativas o cualitativas.

la caracterización de variables cuantitativas, en particular, se hace teniendo en cuenta si los datos se analizan en forma agrupada o en forma no agrupada.

en forma agrupada se utilizan:
  • la distribucion de frecuencias 
  • el diagrama de tallo y hojas 
  • el histograma y el poligono de frecuencias 
  • la ojiva 
A. Obtener Nh (número de datos acumulado)
B. Determinar la posición del cuantil j (y marcar la clase que lo contiene), con:


en forma no agrupada se utilizan:
  • las medidas de tendencia central {media, mediana, moda}
  • las medidas de posicion {cuartiles, deciles, perceptibles}
  • las medida de dispersión{rango, varianza, desviación,  estándar}
A. Ordenar los datos de menor a mayor.
B. Encontrar la posición con:


Donde M = número de partes en que se divide la distribución

la media es la medida que mas se usa para la localización, mientras que la desviación estándar y las varianzas son las mas usadas para examinar la dispersión de datos.