Estadística II

jueves, 25 de octubre de 2018

DISTRIBUCIONES

LICEO UNIVERSIDAD PEDRO DE GANTE

“DISTRIBUICIONES”

ASIGNATURA: ESTADÍSTICA II

PROFESOR: HUGO INDALECIO ALONSO VAZQUEZ

ALUMNA: MARTÍNEZ MARTÍNEZ KARELY BERENICE

7MO. CUATRIMESTRE

CONTADURÍA PÚBLICA

25 DE OCTUBRE DE 2018

INTRODUCCIÓN

La distribución de frecuencias es uno de los primeros pasos que debemos realizar al inicio del análisis estadístico, conjuntamente con la aplicación de las medidas descriptivas, y refleja cómo se reparten los individuos de una muestra según los valores de una variable. Cuando se trata de poblaciones, la probabilidad de observar los diferentes valores de una variable aleatoria pueden expresarse como una función de probabilidad. La mayoría de los fenómenos de interés en investigación científica, como pueden ser la talla y la presión arterial, siguen unas leyes o distribuciones de probabilidad teóricas, especificadas matemáticamente en las que se basan la mayoría de los métodos estadísticos. La distribución más conocida es la distribución Normal o de Gauss. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la distribución normal, y en general esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos (teorema central del límite), resulta recomendable contrastar si se puede asumir o no una distribución Normal. Para decidir si nuestra muestra procede o no de una distribución normal existen gráficos (gráficos P-P y Q-Q) y contrastes de hipótesis (test de Kolmogorov-Smirnov) que pueden ayudarnos. Cuando los datos no son normales pueden transformarse o emplearse otros métodos estadísticos que no exijan este tipo de restricciones, llamados los métodos no paramétricos.

DESARROLLO

I. Distribuciones relacionadas con la distribución normal. Propiedades y manejo de tablas.

En estadística, todos los sucesos se intentan definir como variables aleatorias. Existen muchos tipos de ellas según sea su distribución de probabilidad. Dado que estas distribuciones tienen una relación directa con los datos por sí mismos y con las pruebas que deben realizarse para su análisis, comentaremos las distribuciones más comunes como son: la distribución normal, la binomial, la Ji-cuadrado y la F de Fisher, entre otras.

- La distribución t de Student

La distribución de la t de Student es una distribución de probabilidad teórica, muy similar a la distribución normal estándar. Uno de los parámetros necesarios en la distribución normal es la desviación estándar poblacional, pero en el caso de no disponer de ella, puede utilizarse la desviación estándar muestral. En este caso ya no se trata de una distribución normal, sino que se conoce como la distribución t de Student. Esta distribución se diferencia de la distribución normal ya que en ella aparece un parámetro, llamado grados de libertad (df ‘degrees of freedom’). Esto significa que para cada medida de la muestra n, en realidad tenemos una distribución diferente. La distribución t de Student con n grados de libertad, denotada como tn, es muy parecida a la distribución normal N (0,1):

· Es simétrica respecto al 0 y se extienden desde menos infinito a más infinito.

· Cuanto mayor es el número de df, más se aproxima la distribución t de Student a la distribución normal (0,1).

· Puede considerarse aproximar la tn por una normal estándar para n>100.

Generalmente, este modelo se aplica al caso de la media, proporciones y sus diferencias o sumas. Para una estimación con 30 o más grados de libertad, se pueden usar tanto el modelo de Gauss, como el de Student, aunque los intervalos obtenidos con Student son más anchos que sus equivalentes gaussianos. Por eso, se dice que el modelo Student tiene menor precisión que el de Gauss. Los casos más frecuentes en la práctica son:

Existen diferentes tipos de tablas de la distribución "t", siendo las más utilizadas las de una cola, y las de dos colas.

- La distribución Ji-Cuadrado

Esta distribución de probabilidad no es simétrica respecto el valor 0, sino que es asimétrica positiva, es decir, solo toma valores positivos. Como en la distribución t de Student depende de los grados de libertad. Se denota como X2 con n grados de libertad. Esta distribución se hace más simétrica al aumentar los grados de libertad. La prueba X2 asociada a dicha distribución se utiliza para comparar variables de tipo ordinal o nominal, lo que es lo mismo, comparaciones de frecuencias observadas contra las frecuencias esperadas, con datos de recuento. Los grados de libertad se calculan como (número de filas-1) x (número de columnas -1) y, a medida que aumentan los grados de libertad, tiende a una distribución normal.

- La distribución F de Snedecor

Principalmente esta distribución de probabilidad se caracteriza por ser totalmente asimétrica y depender de dos parámetros o grados de libertad. Si de dos poblaciones normales, o aproximadamente normales, se extraen dos muestras aleatorias e independientes, y a cada una se le calcula su respectiva varianza, el cociente de ambos valores F tendrá una distribución de Fisher, cuyos valores críticos fueron obtenidos por W. Snedecor. Esta tabla se caracteriza por tener dos grados de libertad: el correspondiente al numerador n1 - 1 y el del denominador n2 - 1.

En estos casos la idea es detectar si el efecto de uno o más tratamientos afecta a las muestras testeadas. En cambio, cuando se tiene el caso de dos muestras, la idea es testear si hay homoscedasticidad (igualdad de varianzas) en las dos poblaciones en estudio. Una vez verificado este supuesto, se puede avanzar más verificando si hay diferencia entre las medias muéstrales, y así verificar si ambas muestras tienen igual media y varianza, porque eso significa que en realidad provienen de la misma población normal.

II. Teorema del límite central.

El teorema central del límite es uno de los resultados fundamentales de la estadística. Este teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la distribución de la media muestral, seguirá aproximadamente una distribución normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de tamaño n (n>30) y calculamos los promedios muéstrales, dichos promedios seguirán una distribución normal. Además, la media será la misma que la de la variable de interés, y la desviación estándar de la media muestral será aproximadamente el error estándar.

Un caso concreto del teorema central del límite es la distribución binomial. A partir de n=30, la distribución binomial se comporta estadísticamente como una normal, por lo que podemos aplicar los test estadísticos apropiados para esta distribución.

La importancia del teorema central del límite radica en que mediante un conjunto de teoremas, se desvela las razones por las cuales, en muchos campos de aplicación, se encuentran en todo momento distribuciones normales o casi normales.

III. Distribución del muestreo para la media muestral.

Si recordamos a la distribución normal, esta es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simétrica. Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula:

En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribución z.

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución normal con

Entonces la fórmula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra, quedaría de la siguiente manera:

y para poblaciones finitas y muestro con reemplazo:

IV. Distribución de la proporción muestral.

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde “x” es el número de éxitos u observaciones de interés y “n” el tamaño de la muestra) en lugar del estadístico media.

CONCLUSIONES

Las distribuciones de probabilidad se distinguen entre las variables discretas y las continuas, distinción que se basa en el tipo de valores que puede tomar la variable: numerable (normalmente finito) o innumerable. Entre las primeras, la más importante es la distribución binomial (particularidad de la multinomial), con un buen número de aplicaciones de carácter práctico. Y entre las segundas, la más importante es la distribución normal, a la cual se ajustan fenómenos de carácter biológico, psicológico, económico, etc. Las distribuciones más frecuentemente utilizadas en la investigación además de la distribución normal y la binomial, son la F de Snedecor, la t de Student y la Ji-Cuadrado, entre otras.

La mayoría de valores observados sobre variables continuas a nuestro alrededor suelen aproximarse a una distribución normal. Esta es una función de distribución que ofrece un gran interés por las múltiples aplicaciones que presenta. Por ejemplo, el área bajo la curva normal está tabulada y se interpreta en términos de probabilidad, proporción o porcentaje. Los manuales de estadística suelen incluir tablas estadísticas de las distribuciones más importantes, a pesar de aparecer tanto los valores de los test, como los de su probabilidad asociada en cualquier programa de análisis estadístico que facilitan su computación e interpretación.

Antes de realizar pruebas estadísticas se debería comprobar que la variable de interés procede de una distribución normal (supuesto de normalidad), para poder aplicar posteriormente pruebas paramétricas o no paramétricas.

BIBLIOGRAFÍA

1.-Martín Pliego FJ, Ruiz-Maya L. Estadística: Probabilidad. Madrid: Editorial AC; 1997.

2.-Meyer PL. Probabilidad y Aplicaciones Estadísticas. México: Addison-Wesley Iberoamericana; 1986.

3.-Domenec JM. Métodos Estadísticos en Ciencias de la Salud. Barcelona: Signo; 1997.

jueves, 18 de octubre de 2018

Teoría Muestral Karely Berenice Martínez Martínez

LICEO UNIVERSIDAD PEDRO DE GANTE

“TEORÍA MUESTRAL”

ASIGNATURA: ESTADÍSTICA II

PROFESOR: HUGO INDALECIO ALONSO VAZQUEZ

ALUMNA: MARTÍNEZ MARTÍNEZ KARELY BERENICE

7MO. CUATRIMESTRE

CONTADURÍA PÚBLICA

18 DE OCTUBRE DE 2018

INTRODUCCIÓN

La estadística es la ciencia que se ocupa del estudio de fenómenos de tipo genérico, en el ámbito social y económico, normalmente complejos y enmarcados en un universo variable. Emplea modelos de reducción de la información y de análisis de validación de los resultados en términos de representatividad. La información puede ser numérica o alfabética.

Una de las ramas de la ciencia estadística es la estadística descriptiva, que se encarga desde la recolección, procesamiento, análisis y hasta la presentación de un conjunto de datos, mediante las denominadas medidas de posición, dispersión, forma y concentración, con el fin de describir, apropiadamente, ese conjunto de datos. La otra rama es la estadística inferencial que se refiere al método para lograr generalizaciones acerca de las propiedades del todo.

Usualmente el término estadística se utiliza como sinónimo de dato. Sin embargo una información numérica cualquiera puede no constituir una estadística. Para merecer esta denominación, los datos han de constituir un conjunto coherente, organizado de forma sistemática y siguiendo un criterio de ordenación.

El presente trabajo comprende los términos más usuales de la estadística. Los conceptos incluidos son de fácil comprensión y permiten conocer las definiciones elementales.

DESARROLLO

Población:

1. es el conjunto de elementos, individuos o entes sujetos a estudio y de los cuales queremos obtener un resultado.

2. Es el conjunto de todos los valores de un fenómeno o propiedad que se quiere observar. También se usa el nombre de variable para designar a este conjunto. Por ejemplo, las edades de los escolares de enseñanza media del país, las preferencias de marca de jabón manifestadas por un conjunto de consumidores, los diámetros de los ejemplares de un objeto producido por una máquina, etc.

3. Una Población se define como la totalidad de valores posibles (mediciones o conteos) de una característica particular de un grupo específico de objetos. Al conjunto total de objetos se le denomina Universo. Por ejemplo: el conjunto de estudiantes de ingeniería puede ser un universo; dentro de este universo puede haber muchas poblaciones, la población de tipos de sangre, la población de estaturas, la población de mujeres, etcétera. Una Muestra es una parte de la población, seleccionada de acuerdo a una regla o plan. La estadística descriptiva se puede dividir en dos grandes rubros: la descripción tabular y gráfica de los datos de una muestra, y, la definición de algunos parámetros descriptivos de dicha muestra; posteriormente se hará una breve descripción del significado de cada uno de estos rubros.

Parámetro:

1. es cualquier valor característico de la población. Ejemplo: la medida de la población, la desviación típica de la población. Sin embargo estos valores son desconocidos porque no siempre podemos tener todos los datos de la población para calcularlos.

2. Nombre dado a una característica global de una población. En general, un parámetro no es conocido. Por ejemplo, la edad promedio de una población de habitantes de una región.

3. Es una característica fija, generalmente numérica, de la población de valores de una variable. Por ejemplo, si la variable es el tiempo de reacción de sujetos entrenados ante un estímulo, un parámetro es el tiempo promedio de reacción de todos los individuos de la población de interés si éstos fueran entrenados (éste es un ejemplo de población hipotética). Nótese que al promediar todos los valores de la población se obtiene un único valor, fijo para la población. Otro parámetro podría ser el tiempo mínimo de reacción que surgiría de comparar los tiempos de todos los sujetos de la población y que, por tanto, también es único; lo mismo puede decirse del tiempo máximo. Si la variable es actitud de los consumidores hacia un nuevo producto, un parámetro puede ser el porcentaje de consumidores de toda la población objetivo que tiene una actitud positiva.

Muestra:

1. es un subconjunto representativo de la población a partir del cual se pretende realizar inferencias respecto a la población de donde procede. Los elementos seleccionados con cierta técnica reúnen ciertas características que la hacen ser representativa, significativa y confiable y que en base a ella se pueden hacer inferencias respecto a la población. La muestra puede ser probabilística y no probabilística.

2. Es la parte de la población que efectivamente se mide, con el objeto de obtener información acerca de toda la población. La selección de la muestra se hace por un procedimiento que asegure en alta grado que sea representativa de la población. Los métodos de selección de muestras se describen más adelante.

3. Es un subconjunto o parte de una población de individuos.

Estadística:

1. es la ciencia que comprende una serie de métodos y procedimientos destinados a la recopilación, tabulación, procesamiento, análisis e interpretación de datos cuantitativos y cualitativos. Un objetivo de la estadística es describir “la población del estudio” en base a información obtenida de elementos individuales. Se divide en dos ramas: Estadística descriptiva y Estadística inferencial.

2. Rama de la ciencia que estudia las reglas para diseñar, planear, recolectar, capturar, organizar, presentar, procesar y analizar los datos obtenidos al realizar varios ensayos repetidos de un experimento y para inferir conclusiones acerca de este último. Proporciona además, los métodos para el diseño estadístico de experimentos y para tomar decisiones cuando aparecen situaciones de incertidumbre. Algunos autores establecen que la estadística no es ciencia ya que algunas de las reglas que emplea son empíricas.

3. Es la ciencia que brinda los métodos y procedimientos que permiten realizar la caracterización, análisis e interpretación de una serie de datos para la toma de decisiones frente a situaciones de certidumbre o incertidumbre.

Muestreo:

1. es un conjunto de métodos y procedimientos estadísticos destinados a la selección de una o más muestras es la técnica seguida para elegir muestras. El objetivo principal de un diseño de muestreo es proporcionar procedimientos para la selección de muestras que sean representativas de la población en estudio.

2. Es la rama de la Estadística que se encarga de definir las reglas para tomar muestras de una población específica, el tamaño de dichas muestras y los parámetros que indicarán la representatividad de éstas. La primera finalidad del muestreo es obtener muestras representativas de la población en estudio. Una muestra es representativa si es obtenida aleatoriamente.

Muestreo aleatorio simple:

1. También llamado irrestrictamente aleatorio. Es un método de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Una muestra aleatoria es también llamada una muestra probabilística es aquella cuyos elementos se seleccionan individualmente de la población en forma aleatoria, y es preferida por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Por conveniencia, este método puede ser reemplazado por una tabla de números aleatorios cuando una población es infinita. Se aplica cuando los datos son casi homogéneos. Una variante del muestreo aleatorio simple es el muestreo aleatorio sistemático.

2. Es un procedimiento de toma de muestra, en el que todas las muestras posibles, de un tamaño fijo, tienen igual probabilidad de ser seleccionada. Para obtener una muestra por este procedimiento, se enumeran todas las unidades muéstrales, y se sortean unidades hasta completar el número requerido.

3. Cuando se selecciona un grupo de n unidades muestrales de tal manera que cada muestra de tamaño n tenga la misma posibilidad de ser seleccionada. Este tipo de muestreos se aplica cuando todos los elementos de la población bajo estudio se encuentran agrupados de la misma forma, sin distingos de ninguna especie. Por ejemplo, un lote de artículos agrupados a granel en un solo contenedor.

Muestreo estratificado:

1. es un método de muestreo que se aplica cuando se divide la población en grupos, llamados estratos, donde los datos son más homogéneos pero un estrato frente al otro muy distintos. Para extraer la muestra aleatoria se aplica el muestreo aleatorio simple a cada estrato y el tamaño es la suma de los tamaños de todos los estratos. Para determinar los tamaños de los estratos se puede utilizar la asignación proporcional, óptima y óptima económica. Si no se conoce la variabilidad de los datos se aplica la asignación proporcional.

2. Consiste en dividir la población en grupos homogéneos, o estratos, de acuerdo a los valores de una variable relacionada con la característica bajo estudio, y aplicar el método de muestreo aleatorio simple en cada estrato. Por ejemplo, si se desea medir las preferencias de una población de consumidores, se separa la población en estratos de acuerdo al nivel socioeconómico, y se muestrea en cada estrato separadamente.

3. Consiste en separar los elementos de la población en grupos que no presenten traslapes, llamados estratos, y la selección posterior de una muestra aleatoria simple de cada estrato. La estratificación es la separación de los datos en grupos de la misma especie o que tienen el mismo origen. Se usa el término estratificación por una similitud con la manera en que las capas terrestres o estratos, forman la corteza de la tierra; por lo que cuando un grupo de datos con características importantes comunes se separa del total de datos disponibles, se dice que se estratifica. Algunos ejemplos de estratificación pueden ser: por turno, por proveedor de materia prima, por operario, por máquina, por semana, por método de trabajo, por molde, etcétera. Por ejemplo, los seres humanos pueden ser estratificados por sexo, por edad, por lugar de origen, etcétera. El muestreo aleatorio estratificado es aplicable cuando la población bajo estudio se encuentra agrupada en bloques perfectamente distinguibles y sin traslapes; por ejemplo, un lote de artículos que llega en m cajas. Un grupo de alumnos en un salón no es homogéneo, está dividido por el sexo de cada alumno, la carrera que estén estudiando, el semestre de avance, la edad, etcétera; en este caso, si se va a realizar un estudio con ellos, conviene estratificarlos.

Muestreo sistemático:

1. es una variante del método aleatorio simple de selección de cada elemento de la muestra. Se aplica cuando la población esta listada en algún orden. Consiste en seleccionar un número aleatorio menor que N/n y luego los (n-1) elementos de la muestra se eligen agregando al primer aleatorio: el entero K obtenido por K=N/n y así sucesivamente. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar.

2. Se practica cuando se dispone de una lista de todas las unidades muéstrales, en un orden independiente de la variable que se desea medir. Supóngase que el tamaño de la población es N, y el tamaño seleccionado para la muestra es n. Sea M el entero más cercano al valor del cociente N/n. El procedimiento de muestreo sistemático consiste en seleccionar al azar, un número entre 1 y M, correspondiendo éste al orden de la primera unidad seleccionada. Luego se recorre la lista y se selecciona una de cada M, hasta completar las n unidades muéstrales requeridas.

3. Se obtiene al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco y después seleccionar cada k-ésimo elemento a partir del primero. El muestreo sistemático es aplicable cuando la población bajo estudio se encuentra ordenada de alguna forma sistemática; por ejemplo, si al hacer un experimento, la característica que se está analizando, depende de la estatura de los miembros, es conveniente entonces, antes de aplicar el muestreo, ordenar a los miembros de la población por estatura (puede ser de mayor a menor o de menor a mayor) y aplicar el muestreo sistemático. También es aplicable el muestreo sistemático, cuando la población bajo estudio está surgiendo de una línea de producción; por ejemplo, si están saliendo de la línea de producción 10000 contactos de plata por hora y deseamos obtener una muestra de tamaño n=100, que sea representativa de la población producida en todo un turno de trabajo de 8 horas; entonces, tendríamos que sacar un contacto cada 800 producidos, lo cual significa sacar un contacto cada 5 minutos aproximadamente, a lo largo de todo el turno.

Muestreo conglomerado:

1. es un método de muestreo en el cual la población está en grupos debido a la organización administrativa u otro (conglomerados). Ejemplo: colegios, universidades, manzanas de casas, entre otros. Al interior de los conglomerados no se puede garantizar homogeneidad. Cada conglomerado es una unidad donde la muestra se selecciona como en el muestreo aleatorio simple y se aplica la encuesta a todos los elementos del conglomerado. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, se obtiene menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada “conglomerado” tienden frecuentemente a ser iguales.

2. Consiste en dividir la población en pequeños grupos, o conglomerados, obtener una muestra aleatoria simple de conglomerados, y practicar un censo dentro de cada conglomerado seleccionado en la muestra. Por ejemplo, para realizar una encuesta de hogares, en una ciudad, en lugar de obtener una muestra de hogares, se obtiene una muestra de manzanas. Se envía una encuesta a cada manzana seleccionada, con el objeto de encuestar todos los hogares de las manzanas, lo que resulta más eficiente.

3. Cuando cada unidad de muestreo aleatorio es a su vez una colección o conglomerado de elementos. En Geología se dice que un conglomerado es una colección de arenas de diferente tamaño. Las colonias de la Zona Metropolitana de la Ciudad de México, no pueden considerarse como estratos, porque las características de los habitantes en cada una de ellas, no pueden considerarse como semejantes; por ejemplo, el nivel socioeconómico de las familias no puede analizarse tomando a las colonias como estratos, porque en cada colonia existen niveles socioeconómicos diversos.

CONCLUSIONES

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.

BIBLIOGRAFÍA

https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.pdf

http://www.ingenieria.unam.mx/calyesd/Docs/docs_proEsd/Notas_proEsd/Conceptos_Proba_Est.pdf