Medidas de Dispersión

MEDIDAS DE DISPERSIÓN

En secciones anteriores se ha discutido sobre tres medidas descriptivas del centro. Sin embargo, estas medidas no son suficientes para caracterizar la distribución, puesto que otro aspecto que debe se tomar en cuenta es la variabilidad de las observaciones.

Con el propósito de medir la dispersión o variabilidad, se discutirán en este apartado las medidas de: Amplitud (llamada también rango o recorrido), Desviación media, Varianza, Desviación Estándar (también llamada desviación típica) y Coeficiente de Variación.

Amplitud o recorrido

La medida de dispersión más simple recibe el nombre de Amplitud o recorrido y es muy poco usada puesto que su única ventaja es la sencillez con que se calcula. Es común que se use también el nombre de rango para esta medida. La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones que tienen el mayor y el menor valor numérico en el mismo.

Fórmula de Rango:

Dato más alto - Dato más pequeño.

( X2 - X1 )

Interpretación de Rango:

El Rango lo podremos interpretar como la amplitud existente entre una serie de datos, es decir, mide cuán lejos está el valor más pequeño y el valor más grande de la muestra o población.

Ejemplo de Rango:

Si tenemos una producción de franelas y sabemos que diariamente se producen un promedio de 500 franelas, y si un día se produce un mínimo de 415 franelas y otro día se produce un máximo de 573 franelas entonces si vemos el RANGO de producción estará entre 158 franelas, es decir, podemos tener una producción de 158 franelas a partir del valor mínimo

Por ejemplo: Supóngase que en un hospital el pulso de cada paciente se mide tres veces al día y que cierto día los registros de dos pacientes muestran:

Paciente 1: 73 77 74

Paciente 2: 64 90 73

¿Cuál es la Amplitud en pulsaciones para cada paciente?

Para calcular la amplitud de los datos necesario identificar el valor más grande y el valor más pequeño del conjunto de datos de cada uno de los pacientes.

Para el Paciente 1:

A = 77 - 73 = 4

Para el Paciente 2:

A = 90 - 64 = 26

La amplitud es una medida de dispersión cuya ventaja es la facilidad con que se calcula. Tiene en cambio las siguientes desventajas:

En su cálculo sólo intervienen dos elementos del conjunto.
Al aumentar el número de observaciones, puede esperarse que aumente la variabilidad. Puesto que la amplitud no tiene en cuenta el tamaño del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones, a menos que éstos sean del mismo tamaño.

Desviación media, desviación estándar y varianza

Para presentar la desviación estándar, que es por mucho la medida generalmente más útil de la dispersión, obsérvese que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en forma cerrada en torno a su media y es grande si los valores se dispersan ampliamente en torno a su media. Por tanto, parecería razonable medir la dispersión de un conjunto de datos en términos de las cantidades en las cuales difieren los valores individuales de su media. Si se tiene un conjunto de números:

que constituyen una población con una media

, las diferencias entre:

se denominan las desviaciones de la media y esto sugiere que se podría usar el promedio de estas desviaciones como medida de dispersión en la población. A menos que las X sean todas iguales, algunas de las desviaciones serán positivas y otras negativas, la suma de todas las desviaciones de la media

y en consecuencia también su promedio es siempre cero.

Como realmente se está interesado en la magnitud de las desviaciones, y no si son positivas o negativas, se pueden ignorar simplemente los signos y definir una medida de variación en términos de los valores absolutos de las desviaciones de la media. En realidad, si se suman las desviaciones de la media como si fueran todas positivas o cero y las dividiéramos entre N, se obtendría la media estadística que se denomina desviación media y se representa por:

Esta medida tiene una apariencia intuitiva, pero debido al valor absoluto, lleva a encontrar dificultades teóricas en problemas de inferencia y rara vez se usa.

Un método alternativo consiste en trabajar con los cuadrados de las desviaciones de la media, ya que también esto eliminará el efecto de los signos. Los cuadrados de números reales no pueden ser negativos y pueden tomar el valor de cero.

Por consiguiente, si se promedia las desviaciones cuadradas de la media y se toma la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la población.

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image526.gif

Ésta medida de variación se representa por medio de sigma minúscula (

) y al expresar literalmente lo que se ha hecho aquí de manera matemática, también se conoce como la raíz de la desviación cuadrada media. A su cuadrado de se le llama Varianza de la población.

Quizá parezca lógico utilizar la misma fórmula con n y

sustituidas por N y

, para la desviación estándar de una muestra; pero, esto no es realmente lo que se hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1) y se define como desviación estándar de la muestra, que se denota con s como

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image530.gif

Su cuadrado s², se llama la Varianza de la muestra.

Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razón. Si se dividiera entre n y se utilizara s² como estimación de

es decir, se utilizaría la varianza de una muestra para determinar la varianza de la población de la cual provino, el resultado sería demasiado pequeño y esto se corrige al dividir entre n-1 en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo entre n-1 sino que es práctico para definir s como se hizo.

Coeficiente de variación

Las medidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de variación.

El Coeficiente de variación (CV) es una medida de la dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética y se expresa como

para una muestra y

para la población.

Los coeficientes de variación tienen las siguientes características:

Puesto que tanto la desviación estándar como la media se miden en las unidades originales, el CV es una medida independiente de las unidades de medición.
Debido a la propiedad anterior el CV es la cantidad más adecuada para comparar la variabilidad de dos conjuntos de datos.
En áreas de investigación donde se tienen datos de experimentos previos, el CV es muy usado para evaluar la precisión de un experimento, comparando en CV del experimento en cuestión con los valores del mismo en experiencias anteriores.

Ejemplo: En seis sábados consecutivos un operador de taxis recibió 9, 7, 11, 10, 13 y 7 llamadas a su sitio para su servicio. Calcule:

Amplitud.
Media.
Desviación media.
Desviación estándar.
Varianza.
Coeficiente de variación.

a) Para calcular la amplitud.

Valor máximo 13

Valor mínimo 7

A = 13  7 = 6

b) Para calcular la media.

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image534.gif

c) Para calcular la desviación media

d) Para calcular la desviación estándar

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image538.gif

Se puede utilizar la siguiente tabla:


9	-0.5	0.25
7	-2.5	6.25
11	1.5	2.25
10	0.5	0.25
13	3.5	12.25
7	-2.5	6.25
	0.0	27.50

Al sustituir los valores se obtiene:

e) Para calcular la varianza:

f) Para calcular el coeficiente de variación:

Cálculo de la varianza en una tabla de frecuencias

Para calcular la varianza de una tabla de frecuencias se utiliza la siguiente fórmula:

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image546.gif

Donde:

k es el número de intervalos de clase

X_i es el valor medio de cada clase

f_i es el valor de la frecuencia absoluta

Al retomar el ejemplo de la tabla de distribución de frecuencias de Precipitación pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.

intervalos	Punto medio de clase (m_i)	Conteo	f_i	*fA_i*	*FR_i*	*FRA_i*
(07.7 , 11.7]	9.7	\|\|\|\|\| \|\|\|\|\| \|\|\|\|\| \|\|\|	18	18	*18/90*	*18/90*
(11.7 , 15.7]	13.7	\|\|\|\|\| \|\|\|\|\| \|\|\|	13	31	*13/90*	*31/90*
(15.7 , 19.7]	17.7	\|\|\|\|\| \|\|\|\|\| \|\|\|\|\| \|\|\|\|\| \|\|\|\|	24	55	*24/90*	*55/90*
(19.7 , 23.7]	21.7	\|\|\|\|\| \|\|\|\|\| \|\|\|\|\| \|\|	17	72	*17/90*	*72/90*
(23.7 , 27.7]	25.7	\|\|\|\|\| \|\|\|\|\| \|\|\|	13	85	*13/90*	*85/90*
(27.7 , 31.7]	29.7		0	85	*0/90*	*85/90*
(31.7 , 35.7]	33.7	\|\|\|\|	4	89	*4/90*	*89/90*
(35.7 , 39.7]	37.7	\|	1	90	*1/90*	*90/90*
TOTAL			90	90	*90/90*	*90/90*

Calcular s² y s.

http://colposfesz.galeon.com/est501/distfrec/meddisp/Image547.gif

m_i		f_i	*f_im*_i
9.7	94.09	18	174.6	1693.62
13.7	187.69	13	178.1	2439.97
17.7	313.29	24	424.8	7518.96
21.7	470.89	17	368.9	8005.13
25.7	660.49	13	334.1	8586.37
29.7	882.09	0	0	0
33.7	1135.69	4	134.8	4542.76
37.7	1421.29	1	37.7	1421.29
TOTAL	#####	90	1653.0	34208.10

i� Ee g � `�� '>TOTAL

#####

1653.0

34208.10

Medidas de Dispersión

sábado, 6 de julio de 2013

Ejercicios Resueltos

Medidas de Dispersion