2.4 Medidas de Dispersão

As medidas de dispersão ou variabilidade estão associadas aos parâmetros de escala.

2.4.1 Amplitude

A amplitude é a medida de dispersão mais simples de ser calculada, e fornece uma informação rápida sobre a variabilidade do conjunto de dados. \[\begin{equation} R = \max{X} - \min{X} \tag{2.28} \end{equation}\]

Exemplo 2.44 (Amplitude com valores positivos) A amplitude das temperaturas 6, 4, 9, 20, 7 e 12 é \[A = 20-4 = 16.\] \(\\\)

temp <- c(6,4,9,20,7,12)  # Dados
max(temp)-min(temp)       # Pela Eq. (2.15)

## [1] 16

A <- range(temp)          # A função 'range' retorna o mínimo e o máximo
diff(A)                   # A função 'diff' calcula a diferença

## [1] 16

Exemplo 2.45 (Amplitude com valores negativos) A amplitude das temperaturas 6, -4, 9, 20, 7 e 12 é \[A = 20-(-4) = 24.\] \(\\\)

temp <- c(6,-4,9,20,7,12) # Dados
diff(range(temp))         # Funções aninhadas ('nested functions')

## [1] 24

2.4.2 Variância

A variância é a principal medida de dispersão da Estatística. É uma média quadrática em relação à média, i.e., avalia o quanto, em média, os dados variam ao quadrado em torno da média. A variância universal pode ser calculada pelas Equações (2.29) e (2.30), e nos textos mais antigos é também chamada variância absoluta. É também conhecida como segundo momento em relação à média.

\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \tag{2.29} \end{equation}\]

\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N x_{i}^2}{N} - \mu^2 \tag{2.30} \end{equation}\]

Exemplo 2.46 A variância universal do conjunto de dados 186, 402, 191, 20, 7 e 124 é

Equação (2.29) \[\sigma^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6} = \frac{104356}{6} = 17392.\bar{6}\]

Equação (2.30) \[\sigma^2 = \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 = \frac{248506}{6} - 24025 = 17392.\bar{6}\]

(var.p <- var(c(186,402,191,20,7,124))*(5/6))   # (Variância amostral)*(1/fator de correção)

## [1] 17392.67

A variância amostral pode ser calculada pelas Equações (2.31) e (2.32)

\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} \tag{2.31} \end{equation}\]

\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \left( \frac{\sum_{i=1}^n x_{i}^2}{n} - \bar{x}^2 \right) \left( \frac{n}{n-1} \right) \tag{2.32} \end{equation}\]

Exemplo 2.47 A variância amostral do conjunto de dados 186, 402, 191, 20, 7 e 124 é

Equação (2.31) \[s_{6}^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6-1} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6-1} = \frac{104356}{5} = 20871.2\]

Equação (2.32) \[s_{6}^2 = \left( \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 \right) \left( \frac{6}{5} \right) = 17392.\bar{6} \times 1.2 = 20871.2\]

(var.a <- var(c(186,402,191,20,7,124)))     # 'var' calcula a variância amostral

## [1] 20871.2

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima, pode-se dizer que a variância amostral é 20871.2 passos\(^2\). Dica: não tente interpretar este valor.

Note pela Equação (2.31) que a variância amostral é dividida por \(n-1\) e não por \(n\). Isto faz com que a variância amostral seja maior ou igual à variância universal para os mesmos dados. Intuitivamente pode-se pensar como uma espécie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Da mesma forma pode-se pensar na variância amostral como o produto entre a variância universal \(\sigma^2\) e o fator \(n/(n-1)\), descrito por

\[\begin{equation} s_{n}^2 = \sigma^2 \left( \frac{n}{n-1} \right) \tag{2.33} \end{equation}\]

Exercício 2.13 Mostre que a Eq. (2.32) pode ser escrita como \(s^2 = \frac{\sum_{i=1}^n x_{i}^2 - n \bar{x}^2}{n-1}\).

2.4.3 Desvio Padrão

O desvio padrão é a raiz quadrada da variância. O motivo de calcular o desvio padrão é que a sua interpretação é mais intuitiva se comparada à da variância, uma vez que a unidade de medida do desvio padrão é a mesma da variável \(X\). As fórmulas do desvio padrão universal e amostral são dadas respectivamente pelas equações¹⁵ (2.34) e (2.35).

\[\begin{equation} \sigma = \sqrt{\sigma^2} \tag{2.34} \end{equation}\]

\[\begin{equation} s_{n} = \sqrt{s^{2}_{n}} \tag{2.35} \end{equation}\]

Exemplo 2.48 (Desvio padrão universal) Do Exemplo 2.46 sabe-se que a variância universal do conjunto de dados 186, 402, 191, 20, 7 e 124 é \(\sigma^2 = 17392.\bar{6}\). Assim, o desvio padrão universal é \[\sigma = \sqrt{17392.\bar{6}} \approx 131.88126.\]

dat <- c(186,402,191,20,7,124)    # dados
(dp.p <- sd(dat) * sqrt(5/6))     # s_n * raiz(1/fator de correção)

## [1] 131.8813

all.equal(dp.p, sqrt(var.p))      # 'dp.p' é igual à raiz quadrada de 'var.p'

## [1] TRUE

all.equal(dp.p^2, var.p)          # 'dp.p' ao quadrado é igual a 'var.p'

## [1] TRUE

Exemplo 2.49 Do Exemplo 2.47 sabe-se que a variância amostral do conjunto de dados 186, 402, 191, 20, 7 e 124 é \(s^{2}_{6}= 20871.2\). Assim, o desvio padrão amostral é \[s_{6} = \sqrt{20871.2} \approx 144.46868.\]

dat <- c(186,402,191,20,7,124)    # dados
(dp.a <- sd(dat))                 # 'sd' calcula o desvio padrão amostral

## [1] 144.4687

all.equal(dp.a, sqrt(var.a))      # 'dp.a' é igual à raiz quadrada de 'var.a'

## [1] TRUE

all.equal(dp.a^2, var.a)          # 'dp.a' ao quadrado é igual a 'var.a'

## [1] TRUE

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima, pode-se dizer que o desvio padrão (amostral, claro) é de aproximadamente 144.5 passos. Pode-se pensar neste valor como uma oscilação média aproximada em torno da média aritmética.

2.4.4 Coeficiente de variação

O coeficiente de variação é uma medida de comparação de variabilidades, uma vez que ajusta o desvio padrão pela média. É um número adimensional, i.e., não possui unidade de medida, tornando quaisquer conjuntos de dados comparáveis em termos de variabilidade.

As fórmulas do coeficiente de variação universal e amostral são dadas respectivamente pelas equações (2.36) e (2.37). \[\begin{equation} \gamma = \frac{\sigma}{\mu} \tag{2.36} \end{equation}\]

\[\begin{equation} \hat{\gamma} = g = \frac{s}{\bar{x}} \tag{2.37} \end{equation}\]

Exemplo 2.50 (Coeficiente de variação) Duas variáveis são obtidas em um certo experimento químico. A variável X é medida em microgramas e possui média de 0.0045 \(\mu\)g e desvio padrão de 0.0056 \(\mu\)g. A variável Y é medida em mols e possui média de 3549 mols e desvio padrão de 419 mols. O coeficiente de variação de X é dado por \(g_X=\frac{0.0056}{0.0045} \approx 1.24\), e de Y por \(g_Y=\frac{419}{3549} \approx 0.12\). Portanto, como \(1.24 > 0.12\), conclui-se que o conjunto de dados X varia mais do que Y.

mx <- 0.0045
dx <- 0.0056
round(gx <- dx/mx, 2)   # Coeficiente de variação de X

## [1] 1.24

my <- 3549
dy <- 419
round(gy <- dy/my, 2)   # Coeficiente de variação de Y

## [1] 0.12

2.4.5 Amplitude Interquartílica

\[\begin{equation} IQR = Q_3-Q_1 \tag{2.38} \end{equation}\]

x <- c(186,402,191,20,7,124)
IQR(x)

## [1] 143.75

quantile(x,3/4)-quantile(x,1/4)

##    75% 
## 143.75

2.4.6 Desvio Absoluto Mediano

\[\begin{equation} MAD = 1.4826 |x - Md|_{\left( \frac{1}{2} (n+1) \right)} \tag{2.39} \end{equation}\]

x <- c(186,402,191,20,7,124)
mad(x)

## [1] 126.7623

1.4826*median(abs(x-median(x)))

## [1] 126.7623

De acordo com a documentação da função \(\texttt{stats::mad}\), a constante padrão \(1.4826 \approx \frac{1}{\Phi^{-1}(3/4)}\) ou \(\texttt{1/qnorm(3/4)}\) garante consistência, i.e., \(E[MAD(X_1,\ldots,X_n)] = \sigma\) para \(X_i\) distribuído como \(\mathcal{N}(\mu, \sigma^2)\) e \(n\) grande.

Exercício 2.14 Considere a Eq. (2.39).

Quais as consequências se \(X_i\) não for distribuído como \(\mathcal{N}(\mu, \sigma^2)\)?
O que seria \(n\) grande?
Quais as consequências se \(n\) não for grande?
Quais as associações entre a violação simultânea da normalidade de \(X_i\) e o tamanho do \(n\)?

\(\\\)

Se você ficou confuso com a notação, escreva \(\sigma^2= V\) e \(\sigma=D\) (bem como \(s^2=v\) e \(s=d\)) e repense o problema.↩︎