2.4 Medidas de Dispersão
As medidas de dispersão ou variabilidade estão associadas aos parâmetros de escala.
2.4.1 Amplitude
A amplitude é a medida de dispersão mais simples de ser calculada, e fornece uma informação rápida sobre a variabilidade do conjunto de dados. \[\begin{equation} R = \max{X} - \min{X} \tag{2.28} \end{equation}\]
Exemplo 2.44 (Amplitude com valores positivos) A amplitude das temperaturas 6, 4, 9, 20, 7 e 12 é \[A = 20-4 = 16.\] \(\\\)
## [1] 16
A <- range(temp) # A função 'range' retorna o mínimo e o máximo
diff(A) # A função 'diff' calcula a diferença
## [1] 16
Exemplo 2.45 (Amplitude com valores negativos) A amplitude das temperaturas 6, -4, 9, 20, 7 e 12 é \[A = 20-(-4) = 24.\] \(\\\)
## [1] 24
2.4.2 Variância
A variância é a principal medida de dispersão da Estatística. É uma média quadrática em relação à média, i.e., avalia o quanto, em média, os dados variam ao quadrado em torno da média. A variância universal pode ser calculada pelas Equações (2.29) e (2.30), e nos textos mais antigos é também chamada variância absoluta. É também conhecida como segundo momento em relação à média.
\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \tag{2.29} \end{equation}\]
\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N x_{i}^2}{N} - \mu^2 \tag{2.30} \end{equation}\]
Exemplo 2.46 A variância universal do conjunto de dados 186, 402, 191, 20, 7 e 124 é
Equação (2.29) \[\sigma^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6} = \frac{104356}{6} = 17392.\bar{6}\]
Equação (2.30) \[\sigma^2 = \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 = \frac{248506}{6} - 24025 = 17392.\bar{6}\]
## [1] 17392.67
A variância amostral pode ser calculada pelas Equações (2.31) e (2.32)
\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} \tag{2.31} \end{equation}\]
\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \left( \frac{\sum_{i=1}^n x_{i}^2}{n} - \bar{x}^2 \right) \left( \frac{n}{n-1} \right) \tag{2.32} \end{equation}\]
Exemplo 2.47 A variância amostral do conjunto de dados 186, 402, 191, 20, 7 e 124 é
Equação (2.31) \[s_{6}^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6-1} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6-1} = \frac{104356}{5} = 20871.2\]
Equação (2.32) \[s_{6}^2 = \left( \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 \right) \left( \frac{6}{5} \right) = 17392.\bar{6} \times 1.2 = 20871.2\]
## [1] 20871.2
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima, pode-se dizer que a variância amostral é 20871.2 passos\(^2\). Dica: não tente interpretar este valor.
Note pela Equação (2.31) que a variância amostral é dividida por \(n-1\) e não por \(n\). Isto faz com que a variância amostral seja maior ou igual à variância universal para os mesmos dados. Intuitivamente pode-se pensar como uma espécie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Da mesma forma pode-se pensar na variância amostral como o produto entre a variância universal \(\sigma^2\) e o fator \(n/(n-1)\), descrito por
\[\begin{equation} s_{n}^2 = \sigma^2 \left( \frac{n}{n-1} \right) \tag{2.33} \end{equation}\]
Exercício 2.13 Mostre que a Eq. (2.32) pode ser escrita como \(s^2 = \frac{\sum_{i=1}^n x_{i}^2 - n \bar{x}^2}{n-1}\).
2.4.3 Desvio Padrão
O desvio padrão é a raiz quadrada da variância. O motivo de calcular o desvio padrão é que a sua interpretação é mais intuitiva se comparada à da variância, uma vez que a unidade de medida do desvio padrão é a mesma da variável \(X\). As fórmulas do desvio padrão universal e amostral são dadas respectivamente pelas equações15 (2.34) e (2.35).
\[\begin{equation} \sigma = \sqrt{\sigma^2} \tag{2.34} \end{equation}\]
\[\begin{equation} s_{n} = \sqrt{s^{2}_{n}} \tag{2.35} \end{equation}\]
Exemplo 2.48 (Desvio padrão universal) Do Exemplo 2.46 sabe-se que a variância universal do conjunto de dados 186, 402, 191, 20, 7 e 124 é \(\sigma^2 = 17392.\bar{6}\). Assim, o desvio padrão universal é \[\sigma = \sqrt{17392.\bar{6}} \approx 131.88126.\]
dat <- c(186,402,191,20,7,124) # dados
(dp.p <- sd(dat) * sqrt(5/6)) # s_n * raiz(1/fator de correção)
## [1] 131.8813
## [1] TRUE
## [1] TRUE
Exemplo 2.49 Do Exemplo 2.47 sabe-se que a variância amostral do conjunto de dados 186, 402, 191, 20, 7 e 124 é \(s^{2}_{6}= 20871.2\). Assim, o desvio padrão amostral é \[s_{6} = \sqrt{20871.2} \approx 144.46868.\]
## [1] 144.4687
## [1] TRUE
## [1] TRUE
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima, pode-se dizer que o desvio padrão (amostral, claro) é de aproximadamente 144.5 passos. Pode-se pensar neste valor como uma oscilação média aproximada em torno da média aritmética.
2.4.4 Coeficiente de variação
O coeficiente de variação é uma medida de comparação de variabilidades, uma vez que ajusta o desvio padrão pela média. É um número adimensional, i.e., não possui unidade de medida, tornando quaisquer conjuntos de dados comparáveis em termos de variabilidade.
As fórmulas do coeficiente de variação universal e amostral são dadas respectivamente pelas equações (2.36) e (2.37). \[\begin{equation} \gamma = \frac{\sigma}{\mu} \tag{2.36} \end{equation}\]
\[\begin{equation} \hat{\gamma} = g = \frac{s}{\bar{x}} \tag{2.37} \end{equation}\]
Exemplo 2.50 (Coeficiente de variação) Duas variáveis são obtidas em um certo experimento químico. A variável X é medida em microgramas e possui média de 0.0045 \(\mu\)g e desvio padrão de 0.0056 \(\mu\)g. A variável Y é medida em mols e possui média de 3549 mols e desvio padrão de 419 mols. O coeficiente de variação de X é dado por \(g_X=\frac{0.0056}{0.0045} \approx 1.24\), e de Y por \(g_Y=\frac{419}{3549} \approx 0.12\). Portanto, como \(1.24 > 0.12\), conclui-se que o conjunto de dados X varia mais do que Y.
## [1] 1.24
## [1] 0.12
2.4.5 Amplitude Interquartílica
\[\begin{equation} IQR = Q_3-Q_1 \tag{2.38} \end{equation}\]
## [1] 143.75
## 75%
## 143.75
2.4.6 Desvio Absoluto Mediano
\[\begin{equation} MAD = 1.4826 |x - Md|_{\left( \frac{1}{2} (n+1) \right)} \tag{2.39} \end{equation}\]
## [1] 126.7623
## [1] 126.7623
De acordo com a documentação da função \(\texttt{stats::mad}\), a constante padrão \(1.4826 \approx \frac{1}{\Phi^{-1}(3/4)}\) ou \(\texttt{1/qnorm(3/4)}\) garante consistência, i.e., \(E[MAD(X_1,\ldots,X_n)] = \sigma\) para \(X_i\) distribuído como \(\mathcal{N}(\mu, \sigma^2)\) e \(n\) grande.
Exercício 2.14 Considere a Eq. (2.39).
- Quais as consequências se \(X_i\) não for distribuído como \(\mathcal{N}(\mu, \sigma^2)\)?
- O que seria \(n\) grande?
- Quais as consequências se \(n\) não for grande?
- Quais as associações entre a violação simultânea da normalidade de \(X_i\) e o tamanho do \(n\)?
\(\\\)
Se você ficou confuso com a notação, escreva \(\sigma^2= V\) e \(\sigma=D\) (bem como \(s^2=v\) e \(s=d\)) e repense o problema.↩︎