7.4 MANOVA (Multivariate ANalysis Of VAriance)

A MANOVA é a versão multivariada da ANOVA (ANalysis Of VAriance) e uma extensão do teste de Hotelling para mais de dois grupos. A hipótese nula considerada é \(H_0: \boldsymbol{\mu}_1 = \boldsymbol{\mu}_2 = \ldots = \boldsymbol{\mu}_k\), onde \(\boldsymbol{\mu}_i\) tem dimensão \(p \times 1\), \(i \in \left\{1,2, \ldots, k\right\}\). Possui quatro estatísticas de teste usuais, apresentadas a seguir baseado em (Tattar, Ramaiah, and Manjunath 2016).

Seja \(\boldsymbol{y}_{ij}\) a \(j\)-ésima observação da \(i\)-ésima população, \(j \in \left\{ 1,2, \ldots, n \right\}\), \(i \in \left\{1,2, \ldots, k\right\}\). Assume-se \(\boldsymbol{y}_{ij} \sim N(\boldsymbol{\mu}_{i},\Sigma)\). O modelo especificado para as observações é \[ \boldsymbol{y}_{ij} = \boldsymbol{\mu}_i + \boldsymbol{\alpha}_i + \boldsymbol{\varepsilon}_{ij} = \boldsymbol{\mu}_i + \boldsymbol{\varepsilon}_{ij} \] Como consequência da suposição de normalidade para \(\boldsymbol{y}_{ij}\), \(\varepsilon \sim N(\boldsymbol{\mu},\Sigma)\), e \(\boldsymbol{\alpha}_i\) é o efeito médio da \(i\)-ésima população. As matrizes de somas de quadrados ‘intra’ (erro experimental) e ‘entre’ (tratamentos) são denotadas respectivamente por \(W\) (\(W\)ithin/intra) e \(B\) (\(B\)etween/entre) e definidas a seguir.

\[\begin{equation} W = n \sum_{i=1}^{k} (\bar{\boldsymbol{y}}_{i\cdot} - \bar{\boldsymbol{y}}_{\cdot\cdot}) (\bar{\boldsymbol{y}}_{i\cdot} - \bar{\boldsymbol{y}}_{\cdot\cdot})^{T} \tag{7.6} \end{equation}\]

\[\begin{equation} B = \sum_{i=1}^{k} \sum_{j=1}^{n} (\bar{\boldsymbol{y}}_{ij} - \bar{\boldsymbol{y}}_{i\cdot}) (\bar{\boldsymbol{y}}_{ij} - \bar{\boldsymbol{y}}_{i\cdot})^{T} \tag{7.7} \end{equation}\]

7.4.1 Estatísticas de teste

Wilk

O lambda (\(\Lambda\)) de Wilk é o determinante da matriz \(W\) dividido pelo determinante de \(W+B\). Isso informa o quanto a matriz de variância intra grupo representa da variância total. Se existe um efeito indicado pelos dados, \(W\) deve ter uma variância pequena em relação à variância total \(B+W\). Ao contrário da estatística \(\mathcal{F}\) em uma ANOVA, rejeita-se a hipótese nula quando o Lambda de Wilk é pequeno.

\[\begin{equation} \Lambda = \dfrac{|W|}{|W+B|} = \prod_{i=1}^{s} \dfrac{1}{1+\lambda_i} \tag{7.8} \end{equation}\]

Hotelling-Lawley

A estatística de teste de Hotelling-Lawley calcula o traço da matriz \(BW^{-1}\). Se \(B\) é grande em comparação a \(W\), o traço será grande (ao contrário do Lambda de Wilk) então rejeitamos quando o traço é significativamente grande.

\[\begin{equation} U^{(s)} = tr(BW^{-1}) \tag{7.9} \end{equation}\]

Pillai(-Bartlett)

Assim como na estatística de Hotelling-Lawley, a estatística de Pillai(-Bartlett) calcula o traço de uma matriz, no caso \(B(B+W)^{-1}\). Este é o análogo matricial da razão entre a soma dos quadrados da hipótese e a soma total dos quadrados. Se \(B\) for grande em comparação à matriz de variância total \(B+W\), o traço de Pillai(-Bartlett) será grande e tende-se a rejeitar \(H_0\).

\[\begin{equation} V^{(s)} = tr( B(B+W)^{-1} ) = \sum_{i=1}^{s} \dfrac{\lambda_i}{1+\lambda_i} \tag{7.10} \end{equation}\]

Roy

Assim como nos traços de Hotelling-Lawley e Pillai(-Bartlett), a raiz máxima de Roy é o maior autovalor de \(BW^{-1}\), e será grande se \(B\) for grande em comparação a \(W\). Como utiliza-se apenas o maior autovalor (\(\lambda_1\)), a estatística de Roy frequentemente superestima o efeito. Portanto, se nenhuma das outras estatísticas de teste for significativa e apenas a de Roy indicar significância, provavelmente estamos diante de um falso positivo.

\[\begin{equation} \theta = \prod_{i=1}^{s} \dfrac{\lambda_1}{1+\lambda_1} \tag{7.11} \end{equation}\]

library(mvtnorm)

# dados simulados
m <- c(10,20)
S <- matrix(c(25,10,10,25), ncol = 2)
set.seed(1)
data <- rmvnorm(n = 150, mean = m, sigma = S)
grupo <- c(rep(1,50) ,rep(0,50), rep(2,50))

data <- cbind(data, grupo)
colnames(data) <- c('cintura', 'coxa', 'grupo')
data <- as.data.frame(data)
data$grupo <- as.factor(data$grupo)

Y <- as.matrix(cbind(data$cintura, data$coxa))
g <- as.vector(data$grupo)

# MANOVA
m <- manova(Y ~ g)
summary(m, test = 'Wilks') 
##            Df  Wilks approx F num Df den Df Pr(>F)
## g           2 0.9821   0.6622      4    292 0.6187
## Residuals 147
summary(m, test = 'Hotelling-Lawley') 
##            Df Hotelling-Lawley approx F num Df den Df Pr(>F)
## g           2         0.018183  0.65915      4    290 0.6209
## Residuals 147
summary(m, test = 'Pillai') 
##            Df  Pillai approx F num Df den Df Pr(>F)
## g           2 0.01794  0.66524      4    294 0.6166
## Residuals 147
summary(m, test = 'Roy') # maximum root
##            Df      Roy approx F num Df den Df Pr(>F)
## g           2 0.015501   1.1393      2    147 0.3228
## Residuals 147

Referências

Tattar, Prabhanjan N., Suresh Ramaiah, and Bangalore G. Manjunath. 2016. A Course in Statistics with R. John Wiley & Sons. https://onlinelibrary.wiley.com/doi/book/10.1002/9781119152743.