jueves, 25 de octubre de 2018

DISTRIBUCIONES


LICEO UNIVERSIDAD PEDRO DE GANTE
“DISTRIBUICIONES”
ASIGNATURA: ESTADÍSTICA II
PROFESOR: HUGO INDALECIO ALONSO VAZQUEZ

ALUMNA: MARTÍNEZ MARTÍNEZ KARELY BERENICE
7MO. CUATRIMESTRE
CONTADURÍA PÚBLICA
25 DE OCTUBRE DE  2018
INTRODUCCIÓN
La distribución de frecuencias es uno de los primeros pasos que debemos realizar al inicio del análisis estadístico, conjuntamente con la aplicación de las medidas descriptivas, y refleja cómo se reparten los individuos de una muestra según los valores de una variable. Cuando se trata de poblaciones, la probabilidad de observar los diferentes valores de una variable aleatoria pueden expresarse como una función de probabilidad. La mayoría de los fenómenos de interés en investigación científica, como pueden ser la talla y la presión arterial, siguen unas leyes o distribuciones de probabilidad teóricas, especificadas matemáticamente en las que se basan la mayoría de los métodos estadísticos. La distribución más conocida es la distribución Normal o de Gauss. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la distribución normal, y en general esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos (teorema central del límite), resulta recomendable contrastar si se puede asumir o no una distribución Normal. Para decidir si nuestra muestra procede o no de una distribución normal existen gráficos (gráficos P-P y Q-Q) y contrastes de hipótesis (test de Kolmogorov-Smirnov) que pueden ayudarnos. Cuando los datos no son normales pueden transformarse o emplearse otros métodos estadísticos que no exijan este tipo de restricciones, llamados los métodos no paramétricos.

DESARROLLO
      I.        Distribuciones relacionadas con la distribución normal. Propiedades y manejo de tablas.
En estadística, todos los sucesos se intentan definir como variables aleatorias. Existen muchos tipos de ellas según sea su distribución de probabilidad. Dado que estas distribuciones tienen una relación directa con los datos por sí mismos y con las pruebas que deben realizarse para su análisis, comentaremos las distribuciones más comunes como son: la distribución normal, la binomial, la Ji-cuadrado y la F de Fisher, entre otras.

- La distribución t de Student
La distribución de la t de Student es una distribución de probabilidad teórica, muy similar a la distribución normal estándar. Uno de los parámetros necesarios en la distribución normal es la desviación estándar poblacional, pero en el caso de no disponer de ella, puede utilizarse la desviación estándar muestral. En este caso ya no se trata de una distribución normal, sino que se conoce como la distribución t de Student. Esta distribución se diferencia de la distribución normal ya que en ella aparece un parámetro, llamado grados de libertad (df ‘degrees of freedom’). Esto significa que para cada medida de la muestra n, en realidad tenemos una distribución diferente. La distribución t de Student con n grados de libertad, denotada como tn, es muy parecida a la distribución normal N (0,1):
·         Es simétrica respecto al 0 y se extienden desde menos infinito a más infinito.
·         Cuanto mayor es el número de df, más se aproxima la distribución t de Student a la distribución normal (0,1).
·         Puede considerarse aproximar la tn por una normal estándar para n>100.
Generalmente, este modelo se aplica al caso de la media, proporciones y sus diferencias o sumas. Para una estimación con 30 o más grados de libertad, se pueden usar tanto el modelo de Gauss, como el de Student, aunque los intervalos obtenidos con Student son más anchos que sus equivalentes gaussianos. Por eso, se dice que el modelo Student tiene menor precisión que el de Gauss. Los casos más frecuentes en la práctica son:

Existen diferentes tipos de tablas de la distribución "t", siendo las más utilizadas las de una cola, y las de dos colas.

- La distribución Ji-Cuadrado
Esta distribución de probabilidad no es simétrica respecto el valor 0, sino que es asimétrica positiva, es decir, solo toma valores positivos. Como en la distribución t de Student depende de los grados de libertad. Se denota como X2 con n grados de libertad. Esta distribución se hace más simétrica al aumentar los grados de libertad. La prueba X2 asociada a dicha distribución se utiliza para comparar variables de tipo ordinal o nominal, lo que es lo mismo, comparaciones de frecuencias observadas contra las frecuencias esperadas, con datos de recuento. Los grados de libertad se calculan como (número de filas-1) x (número de columnas -1) y, a medida que aumentan los grados de libertad, tiende a una distribución normal.

- La distribución F de Snedecor
Principalmente esta distribución de probabilidad se caracteriza por ser totalmente asimétrica y depender de dos parámetros o grados de libertad. Si de dos poblaciones normales, o aproximadamente normales, se extraen dos muestras aleatorias e independientes, y a cada una se le calcula su respectiva varianza, el cociente de ambos valores F tendrá una distribución de Fisher, cuyos valores críticos fueron obtenidos por W. Snedecor. Esta tabla se caracteriza por tener dos grados de libertad: el correspondiente al numerador n1 - 1 y el del denominador n2 - 1.

En estos casos la idea es detectar si el efecto de uno o más tratamientos afecta a las muestras testeadas. En cambio, cuando se tiene el caso de dos muestras, la idea es testear si hay homoscedasticidad (igualdad de varianzas) en las dos poblaciones en estudio. Una vez verificado este supuesto, se puede avanzar más verificando si hay diferencia entre las medias muéstrales, y así verificar si ambas muestras tienen igual media y varianza, porque eso significa que en realidad provienen de la misma población normal.
    II.        Teorema del límite central.
El teorema central del límite es uno de los resultados fundamentales de la estadística. Este teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la distribución de la media muestral, seguirá aproximadamente una distribución normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de tamaño n (n>30) y calculamos los promedios muéstrales, dichos promedios seguirán una distribución normal. Además, la media será la misma que la de la variable de interés, y la desviación estándar de la media muestral será aproximadamente el error estándar.
Un caso concreto del teorema central del límite es la distribución binomial. A partir de n=30, la distribución binomial se comporta estadísticamente como una normal, por lo que podemos aplicar los test estadísticos apropiados para esta distribución.
La importancia del teorema central del límite radica en que mediante un conjunto de teoremas, se desvela las razones por las cuales, en muchos campos de aplicación, se encuentran en todo momento distribuciones normales o casi normales.

   III.        Distribución del muestreo para la media muestral.
Si recordamos a la distribución normal, esta es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simétrica. Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula:
En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribución z.

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución normal con
Entonces la fórmula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra, quedaría de la siguiente manera:
y para poblaciones finitas y muestro con reemplazo:
  IV.        Distribución de la proporción muestral.
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde “x” es el número de éxitos u observaciones de interés y “n” el tamaño de la muestra) en lugar del estadístico media.

CONCLUSIONES
Las distribuciones de probabilidad se distinguen entre las variables discretas y las continuas, distinción que se basa en el tipo de valores que puede tomar la variable: numerable (normalmente finito) o innumerable. Entre las primeras, la más importante es la distribución binomial (particularidad de la multinomial), con un buen número de aplicaciones de carácter práctico. Y entre las segundas, la más importante es la distribución normal, a la cual se ajustan fenómenos de carácter biológico, psicológico, económico, etc. Las distribuciones más frecuentemente utilizadas en la investigación además de la distribución normal y la binomial, son la F de Snedecor, la t de Student y la Ji-Cuadrado, entre otras.
La mayoría de valores observados sobre variables continuas a nuestro alrededor suelen aproximarse a una distribución normal. Esta es una función de distribución que ofrece un gran interés por las múltiples aplicaciones que presenta. Por ejemplo, el área bajo la curva normal está tabulada y se interpreta en términos de probabilidad, proporción o porcentaje. Los manuales de estadística suelen incluir tablas estadísticas de las distribuciones más importantes, a pesar de aparecer tanto los valores de los test, como los de su probabilidad asociada en cualquier programa de análisis estadístico que facilitan su computación e interpretación.
Antes de realizar pruebas estadísticas se debería comprobar que la variable de interés procede de una distribución normal (supuesto de normalidad), para poder aplicar posteriormente pruebas paramétricas o no paramétricas.

BIBLIOGRAFÍA
1.-Martín Pliego FJ, Ruiz-Maya L. Estadística: Probabilidad. Madrid: Editorial AC; 1997.
2.-Meyer PL. Probabilidad y Aplicaciones Estadísticas. México: Addison-Wesley Iberoamericana; 1986.
3.-Domenec JM. Métodos Estadísticos en Ciencias de la Salud. Barcelona: Signo; 1997.

No hay comentarios:

Publicar un comentario