domingo, 8 de abril de 2012


Prueba Fisher

En estadística se denomina prueba F (de Fisher) a cualquier prueba en la que el estadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:


  • La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales.

En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos modelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresión conforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la suma de cuadrados de residuos de los dos modelos como sigue:

Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo 0 restringe m coeficientes, el test F puede calcularse como


El valor resultante debe entonces compararse con la entrada correspondiente de la tabla de valores críticos.

Videos de prueba Fisher




Correlación Múltiple

En las estadísticas , la correlación múltiple es una relación lineal entre más de dos variables. It is measured by the coefficient of multiple determination , denoted as R 2 , which is a measure of the fit of a linear regression . Se mide por el coeficiente de determinación múltiple , denotada como R 2, que es una medida del ajuste de una regresión lineal . A regression's R 2 falls somewhere between zero and one (assuming a constant term has been included in the regression); a higher value indicates a stronger relationship among the variables, with a value of one indicating that all data points fall exactly on a line in multidimensional space and a value of zero indicating no relationship at all between the independent variables collectively and the dependent variable. Una regresión de R 2 se ubica entre cero y uno (suponiendo un término constante se ha incluido en la regresión), un valor más alto indica una relación más fuerte entre las variables, con un valor de lo que indica que todos los puntos de datos caen exactamente en una línea en el espacio multidimensional y un valor de cero indica que no hay relación alguna entre las variables independientes en conjunto y la variable dependiente.

Unlike the coefficient of determination in a regression involving just two variables, the coefficient of multiple determination is not computationally commutative : a regression of y on x and z will in general have a different R 2 than will a regression of z on x and y . A diferencia del coeficiente de determinación en una regresión de la participación de sólo dos variables, el coeficiente de determinación múltiple no es computacionalmente conmutativa : una regresión de y sobre X y Z, en general, tienen una distinta R 2 que será una regresión de z en xe y. For example, suppose that in a particular sample the variable z is uncorrelated with both x and y , while x and y are linearly related to each other. Por ejemplo, supongamos que en una muestra particular, la variable z se correlacionados con ambos X e Y, mientras que X e Y están linealmente relacionadas entre sí. Then a regression of z on y and x will yield an R 2 of zero, while a regression of y on x and z will yield a positive R 2 . A continuación, una regresión de z en yyx dará un R 2 de cero, mientras que una regresión de y sobre X y Z dará un positivo R 2.

[ edit ] Fundamental equation of multiple regression analysisFundamental ecuación de análisis de regresión múltiple

The coefficient of multiple determination R 2 (a scalar ), can be computed using the vector c of cross- correlations (ie covariances ) between the predictor variables and the criterion variable, its transpose c' , and the matrix R xx of inter-correlations between predictor variables. El coeficiente de determinación múltiple R 2 (a escalar ), se puede calcular utilizando el vector de c de secciones correlaciones (es decir, las covarianzas ) entre las variables predictoras y la variable criterio, la transposición de c ', y la matriz de R xx de la inter-correlaciones entre las variables predictoras. The "fundamental equation of multiple regression analysis" [ 1 ] is La "ecuación fundamental de análisis de regresión múltiple" [1] es

R 2 = c' R xx −1 c . R 2 = c 'R xx -1 c.

The expression on the left side denotes the coefficient of multiple determination. La expresión en el lado izquierdo denota el coeficiente de determinación múltiple. The terms on the right side are the transposed vector c ' of cross-correlations, the inverse of the matrix R xx of inter-correlations, and the vector c of cross-correlations. Los términos del lado derecho son la transposición de vector c 'de las correlaciones cruzadas, la inversa de la matriz R xx de la inter-correlaciones, y el vector c de las correlaciones cruzadas. Note that if all the predictor variables are uncorrelated, the matrix R xx is the identity matrix and R 2 simply equals c' c , the sum of the squared cross-correlations. Tenga en cuenta que si todas las variables predictoras no están correlacionados, la matriz R xx es la matriz de identidad y 2 R simplemente es igual a c c ', la suma de los cuadrados de las correlaciones cruzadas. Otherwise, the inverted matrix of the inter-correlations removes the redundant variance that results from the inter-correlations of the predictor variables. De lo contrario, la matriz inversa de las correlaciones entre los elimina de la varianza redundante que resulta de las correlaciones entre los de las variables predictoras.

Videos de correlación múltiple






Análisis de Varianza

Introducción

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidada. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a próximos a 0 es aproximadamente igual a am. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.


Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población s2:

1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de s2 y la media de k estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados.

2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es también un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad.

MSA y MSE, estiman la varianza poblacional en la hipótesis de que las k muestras provengan de la misma población. La distribución muestral del cociente de dos estimaciones independientes de la varianza de una población normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis usando esa distribución.

Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma población.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un único contraste se contrasta la
igualdad de k medias.
Existe una tercera manera de estimar la varianza de la población, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una única
muestra, su varianza muestral también es un estimador centrado de s 2:
Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.

Los resultados de un anova se suelen representar en una tabla como la siguiente:

Fuente de variación
G.L.
SS
MS
F
Entre grupos
Tratamientos
k-1
SSA
SSA/(k-1)
MSA/MSE
Dentro
Error
(n-1)k
SSE
SSE/k(n-1)
Total
kn-1
SST

Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región crítica para dicho contraste es F > Fa(k-1,(n-1)k)

Algunas propiedades

Es fácil ver en la tabla anterior que

GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal

No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:

SST = SSA + SSE

El análisis de la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos:

La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual.

Igual tamaño minimiza la probabilidad de error tipo II.

3. Modelos de análisis de la varianza

El anova permite distinguir dos modelos para la hipótesis alternativa:
Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.
Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de
grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.

La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las
pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.

Análisis de la varianza de dos factores
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos
fuentes de variación.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la
evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.

Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:

modelo I

modelo II

modelo mixto

donde m es la media global, a i o Ai el efecto del nivel i del 11 factor, bj o Bj el efecto del nivel j del 2º factor y eijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza s 2.
A las condiciones de
muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores.
A los términos (a b )ij, (AB)ij, (a B)ij, se les denomina
interacción entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor.

Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.

Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura


A B

En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables.

Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción.

Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo.

La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como referencia).


Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:

Modelo I

MS
Valor esperado
MSA
MSB
MSAB
MSE

Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis:

no existe interacción (MSAB/MSE)


no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)


no existe efecto del segundo factor (MSB/MSE)


Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de tratamientos para encontrar la mejor combinación de los mismos.



Videos de Análisis de varianza