2.3 Medidas de Localização

As medidas de localização ou posição estão associadas aos parâmetros de localização

2.3.1 Mínimo e Máximo

O mínimo de uma distribuição é o menor valor observado desta distribuição; de forma análoga, o máximo é o maior valor. São estatísticas de ordem, mais especificamente os extremos de um conjunto de dados ordenado (rol). Para uma distribuição de \(n\) elementos são denotadas por \(\min X = x_{(1)}\) e \(\max X = x_{(n)}\).

Apesar da simplicidade destas medidas, existem considerações teóricas sofisticadas a seu respeito. Para maiores detalhes, vide (S. Kotz and Nadarajah 2000).

Exemplo 2.20 (Mínimo e máximo) Suponha novamente as \(n=100\) observações da variável Y: ‘altura de mulheres atendidas em um certo hospital público de Porto Alegre em 2019’, apresentadas no Exemplo 2.18. O mínimo e o máximo são denotados, respectivamente, por \(\min Y = y_{(1)} = 1.51\) e \(\max Y = y_{(100)} = 1.74\). \(\\\)

h <- read.csv('https://filipezabala.com/data/hospital.csv')
min(h$height)     # Mínimo
## [1] 1.51
max(h$height)     # Máximo
## [1] 1.74
range(h$height)   # A função 'range' fornece o mínimo e o máximo
## [1] 1.51 1.74

2.3.2 Média (Aritmética)

A média (aritmética) é uma das medidas mais importantes da Estatística devido às suas propriedades e relativa facilidade de cálculo. A média da variável \(X\) é simbolizada genericamente por \(\mu\) quando refere-se à média universal, e por \(\bar{x}\) quando refere-se à média amostral. Pode-se utilizar a notação \(\bar{x}_{n}\) para indicar o tamanho da amostra. Suas expressões no universo a na amostra são dadas respectivamente pelas equações (2.8) e (2.9). Por distribuir a soma dos valores da distribuição pelo número de observações, a média é uma medida que indica centro de massa. \[\begin{equation} \mu = \frac{\sum_{i=1}^N x_i}{N} \tag{2.8} \end{equation}\]

\[\begin{equation} \bar{x}_{n} = \frac{\sum_{i=1}^n x_i}{n} \tag{2.9} \end{equation}\]

Exemplo 2.21 (Média aritmética) Suponha novamente os dados do Exemplo ??. O número médio de passos até a lixeira mais próxima foi de \[\bar{x}_6 = \frac {\sum_{i=1}^6 x_i}{6} = \frac {186+402+191+20+7+124}{6} = \frac{930}{6} = 155.\]

x <- c(186,402,191,20,7,124)      # Dados brutos
mean(x)                           # Equações (2.8) e (2.9). Veja ?mean
## [1] 155

Média (Aritmética) Ponderada

A média (aritmética) ponderada permite atribuir pesos distintos para as observações.

\[\begin{equation} \bar{x}_{n} = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} \tag{2.10} \end{equation}\]

Média aparada

Aparar um vetor de dados significa retirar uma fração (usualmente entre 0 e 0.5) de cada um dos extremos do vetor ordenado. A média aparada (trimmed mean) consiste em calcular a média aritmética do vetor aparado. Uma definição formal pode ser encontrada em (Yuen 1974, 166).

x <- c(2:99,1000,10000) # Vetor original, contendo valores extremos
mean(x)                 # Média aritmética
## [1] 159.49
mean(x, trim = 0.01)    # Retira 1% dos valores extremos
## [1] 60.68367347
mean(sort(x[2:99]))     # mean(x, trim = 0.01) 
## [1] 60.68367347
mean(x, trim = 0.25)    # Média interquartílica: retira 25% dos valores extremos
## [1] 51.5
mean(sort(x[26:75]))    # mean(x, trim = 0.25)
## [1] 51.5

Média Winsorizada

Winsorizar um vetor (ordenado) significa substituir uma certa proporção de valores extremos por valores menos extremos. Assim, os valores substitutos são os valores retidos mais extremos. Uma definição formal pode ser encontrada em (Yuen 1974, 166).

x <- c(2:99,1000,10000) # Vetor original, contendo valores extremos
(xw <- DescTools::Winsorize(x, probs = c(0.01, 0.99)))
##   [1]    2.99    3.00    4.00    5.00    6.00    7.00    8.00    9.00   10.00   11.00   12.00   13.00   14.00   15.00
##  [15]   16.00   17.00   18.00   19.00   20.00   21.00   22.00   23.00   24.00   25.00   26.00   27.00   28.00   29.00
##  [29]   30.00   31.00   32.00   33.00   34.00   35.00   36.00   37.00   38.00   39.00   40.00   41.00   42.00   43.00
##  [43]   44.00   45.00   46.00   47.00   48.00   49.00   50.00   51.00   52.00   53.00   54.00   55.00   56.00   57.00
##  [57]   58.00   59.00   60.00   61.00   62.00   63.00   64.00   65.00   66.00   67.00   68.00   69.00   70.00   71.00
##  [71]   72.00   73.00   74.00   75.00   76.00   77.00   78.00   79.00   80.00   81.00   82.00   83.00   84.00   85.00
##  [85]   86.00   87.00   88.00   89.00   90.00   91.00   92.00   93.00   94.00   95.00   96.00   97.00   98.00   99.00
##  [99] 1000.00 1090.00
mean(x)
## [1] 159.49
mean(xw)
## [1] 70.3999

2.3.3 Total

Total é a soma de todos os valores de uma variável. É expresso pelas equações (2.11) e (2.12).

\[\begin{equation} \tau = \sum_{i=1}^N x_i \tag{2.11} \end{equation}\]

\[\begin{equation} \hat{\tau} = N \bar{x}_{n}, \tag{2.12} \end{equation}\]

onde \(\bar{x}_{n}\) é a média amostral, apresentada na Equação (2.9).

Exemplo 2.22 (Total) Suponha novamente os dados do Exemplo 2.21. Se alguém precisar de uma lixeira 60 vezes na capital gaúcha, estima-se que o número total de passos a serem caminhados é de \[\hat{\tau} = \frac{60}{6} \times 930 = 60 \times 155 = 9300\]

N <- 60                         # Tamanho do universo/população
x <- c(186,402,191,20,7,124)    # Dados brutos
N*mean(x)                       # Equação (2.11)
## [1] 9300

2.3.4 Média Quadrática

A média quadrática é a média dos valores ao quadrado, utilizada no cálculo das variâncias. \[\begin{equation} MS = \frac{\sum_{i=1}^n x_{i}^{2}}{n}. \tag{2.13} \end{equation}\]

A raiz da média quadrática, raiz do valor quadrático médio ou valor eficaz é a raiz quadrada da média quadrática. \[\begin{equation} RMS=\sqrt{MS}. \tag{2.14} \end{equation}\]

Exemplo 2.23 (MS e RMS) A média quadrática dos valores 186, 402, 191, 20, 7 e 124 é \[MS = \frac{\sum_{i=1}^6 x_{i}^{2}}{6} = \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} = \frac{248506}{6} = 41417.\bar{6}.\] O valor quadrático médio é \[RMS = \sqrt{41417.\bar{6}} \approx 203.5133.\]

x <- c(186,402,191,20,7,124)    # Dados brutos
(ms <- mean(x^2))               # Eq. (2.12), compare com mean(x)^2
## [1] 41417.66667
sqrt(ms)                        # Eq. (2.13), raiz da média quadrática (RMS)
## [1] 203.5133083

2.3.5 Moda

Moda(s) é (são) o(s) valor(es) mais frequente(s) de uma distribuição. Quando existe apenas uma moda, a distribuição é conhecida como unimodal. Se existirem duas modas, a distribuição é bimodal. Três modas configuram uma distribuição trimodal, e quatro ou mais modas indicam uma distribuição multimodal. Distribuições com frequências equivalentes para todos os valores são ditas amodais. Quando os dados estão agrupados deve-se indicar a classe modal, i.e., a classe de maior frequência. O esforço computacional para calcular a moda é realizar uma contagem.

No R existe a função Mode do pacote pracma, mas ela só funciona bem no caso unimodal. Por isso a seguir está apresentada a função Modes, adaptada da sugestão de digEmAll nesta discussão do StackOverflow. Nos exemplos a seguir são comparadas as duas abordagens.

# Função Modes
Modes <- function(x) {
  ux <- sort(unique(x))
  tab <- tabulate(match(x, ux))
  ux[tab == max(tab)]
}

Exemplo 2.24 (Unimodal) A moda do conjunto de dados 4, 7, 1, 3, 3, 9 é \(Mo=3\), pois ele apresenta frequência 2 enquanto os demais valores têm frequência 1. Esta é uma distribuição unimodal.

dat <- c(4,7,1,3,3,9)
Modes(dat)
## [1] 3
pracma::Mode(dat)
## [1] 3

Exemplo 2.25 (Bimodal) As modas do conjunto de dados 4, 7, 1, 3, 3, 9, 7 são \(Mo'=3\) e \(Mo''=7\), pois ambos têm frequência 2 enquanto os demais valores têm frequência 1. A ordem de apresentação é indiferente. Esta é uma distribuição bimodal.

dat <- c(4,7,1,3,3,9,7)
Modes(dat)
## [1] 3 7
pracma::Mode(dat)
## [1] 3

Exemplo 2.26 (Amodal) O conjunto de dados 4, 7, 1, 3, 9 é dito amodal pois todos os valores têm frequência 1.

dat <- c(4,7,1,3,9)
Modes(dat)    # se todos são moda, ninguém é moda
## [1] 1 3 4 7 9
pracma::Mode(dat)
## [1] 1

Exemplo 2.27 (Moda para dados agrupados) No Exemplo 2.18 observa-se que \(f_{3}=41\) é a maior frequência. A classe modal é portanto a terceira, compreendida entre os valores 1.60 e 1.65.

2.3.6 Quantil

Quantis11 ou separatrizes são medidas que dividem um conjunto de dados ordenados em \(k\) partes iguais. O método básico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada) os valores que repartem a distribuição de acordo com o \(k\) desejado. O esforço computacional para calcular quaisquer separatrizes é, portanto, a ordenação dos dados. De forma geral, pode-se definir uma separatriz \(S\) conforme a Eq. (2.15), onde \(n\) indica o número de observações e \(p\) a proporção de observações ordenadas abaixo de \(S\). \[\begin{equation} S = x_{(p(n+1))} \tag{2.15} \end{equation}\]

A função stats::quantile apresenta nove métodos para obtenção de quantis, portanto recomenda-se a documentação para maiores detalhes. Com ela pode-se facilmente obter os quantis desejados, bastando ajustar o argumento \(p\). Note que a função retorna os quantis expressos em percentis, onde \(0\%\) equivale ao mínimo e \(100\%\) ao máximo.

Mediana (\(k=2\))

A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade à sua direita, i.e., é a medida central em termos de ordenação. Sua posição é a média entre a primeira e última posições. \[\begin{equation} Pos = \frac{1+n}{2} \tag{2.16} \end{equation}\]

Exemplo 2.28 A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade à sua direita, i.e., é a medida central em termos de ordenação. Pode ser definida pela Eq. (2.17).

\[\begin{equation} Md = x_{\left( \frac{1}{2} (n+1) \right)} \tag{2.17} \end{equation}\]

x <- 0:100
median(x)
## [1] 50
quantile(x, 1/2)
## 50% 
##  50

Exemplo 2.29 (Mediana para \(n\) ímpar) Seja o conjunto de dados 10, -4, 11, 12, 1, 5, 15, formado por \(n=7\) valores. Quando ordenado obtemos o rol -4, 1, 5, 10, 11, 12, 15. Considerando \(k=2\), obtém-se o quantil \(Md=10\), pois ele divide o conjunto em duas partes de mesmo tamanho (três valores abaixo da mediana 10 e três valores acima). Sua posição é dada por \(Pos=\frac{1+7}{2}=4\).

x <- c(10, -4, 11, 12, 1, 5, 15)
(n <- length(x))
## [1] 7
(pos <- (n+1)/2)
## [1] 4
sort(x)
## [1] -4  1  5 10 11 12 15
median(x)
## [1] 10

Exemplo 2.30 (Mediana para \(n\) par) Quando o número de observações é par, basta tomar a média dos dois valores centrais do rol. Seja o conjunto de dados 15, -4, 11, 12, 1, 5, formado por \(n=6\) valores. Quando ordenado obtemos o rol -4, 1, 5, 11, 12, 15. Considerando novamente \(k=2\), obtém-se o quantil \(Md=\frac{5+11}{2}=8\), pois ele divide o conjunto em duas partes de mesmo tamanho (três valores abaixo de 8 e três valores acima). Sua posição é dada por \(Pos=\frac{1+6}{2}=3.5\), i.e., a mediana é um valor intermediário entre a terceira e quarta posições.

x <- c(15, -4, 11, 12, 1, 5)
(n <- length(x))
## [1] 6
(pos <- (n+1)/2)
## [1] 3.5
sort(x)
## [1] -4  1  5 11 12 15
median(x)
## [1] 8

Exemplo 2.31 O primeiro e terceiro quartis podem ser definidos respectivamente pelas Eq. (2.18) e (2.19).

\[\begin{equation} Q_1 = x_{\left( \frac{1}{4} (n+1) \right)} \tag{2.18} \end{equation}\]

\[\begin{equation} Q_3 = x_{\left( \frac{3}{4} (n+1) \right)} \tag{2.19} \end{equation}\]

x <- 0:100
quantile(x, c(1/4,3/4))
## 25% 75% 
##  25  75

Pode-se dividir um conjunto de dados em \(k\) setores, sendo os principais apresentados na tabela a seguir

\(k\) \(p\) Nome Simbologia
2 1/2 Mediana Md
3 1/3, 2/3 Tercil \(T_1\), \(T_2\)
4 1/4, 2/4, 3/4 Quartil \(Q_1\), \(Q_2\), \(Q_3\)
10 1/10, …, 9/10 Decil \(D_1\), \(D_2\), \(\ldots\), \(D_9\)
100 1/100, …, 99/100 Percentil \(P_1\), \(P_2\), \(\ldots\), \(P_{99}\)

Exemplo 2.32 Alguns quantis.

h <- read.csv('https://filipezabala.com/data/hospital.csv')
options(digits = 4)                              # Para melhorar a apresentação
quantile(h$height, probs = seq(0, 1, 1/2))       # Mediana
##    0%   50%  100% 
## 1.510 1.625 1.740
quantile(h$height, probs = seq(0, 1, 1/3))       # Tercis
##        0% 33.33333% 66.66667%      100% 
##      1.51      1.61      1.65      1.74
quantile(h$height, probs = seq(0, 1, 1/4))       # Quartis
##    0%   25%   50%   75%  100% 
## 1.510 1.598 1.625 1.650 1.740
quantile(h$height, probs = seq(0, 1, 1/10))      # Decis
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 1.510 1.569 1.590 1.600 1.616 1.625 1.640 1.650 1.660 1.680 1.740

Exercício 2.8 Interprete os quantis do Exemplo 2.32.

Sugestão: Capítulo 8
\(\\\)

Exercício 2.9 Considere as separatrizes discutidas nesta seção.
a. Verifique que as separatrizes mediana (Md), segundo quartil (\(Q_2\)) são equivalentes.
b. Existem outras medidas equivalentes às do item (a)? Justifique.
c. Considere algum \(k\) diferente dos apresentados e atribua um nome e uma simbologia.
d. Se existem \(k\) ‘fatias’, quantas são as separatrizes?

Sugestão: Capítulo 8
\(\\\)

Exercício 2.10 Utilizando a função quantile calcule as separatrizes discutidas nesta Seção com os dados da coluna children disponível em https://filipezabala.com/data/hospital.csv.

Sugestão: Capítulo 8

2.3.7 Resumo de 5 números

O resumo de 5 números (5-number summary) foi sugerido por (Tukey 1977). Engloba mínimo, máximo, mediana e hinges (dobra/dobradiça/articulação) inferior e superior. Por não haver tradução oficial no Glossário de Estatística da SPE/ABE iremos nos referir ao hinge inferior como a mediana entre o mínimo e a mediana de todo o conjunto. O hinge superior é a mediana entre a mediana de todo o conjunto e o máximo. Dependendo do algoritmo utilizado no cálculo dos quartis, os hinges podem diferir ligeiramente destas separatrizes.

Exemplo 2.33 Considere o conjunto de dados utilizado por (Tukey 1977, 33).

x <- c(-3.2,-1.7,-0.4,0.1,0.3,1.2,1.5,1.8,2.4,3.0,4.3,6.4,9.8)
fivenum(x)
## [1] -3.2  0.1  1.5  3.0  9.8
quantile(x, probs = seq(0,1,1/4))
##   0%  25%  50%  75% 100% 
## -3.2  0.1  1.5  3.0  9.8

References

Kotz, S., and S. Nadarajah. 2000. Extreme Value Distributions. World Scientific. https://books.google.com.br/books/about/Extreme_Value_Distributions.html?id=ZPW3CgAAQBAJ&redir_esc=y.
Tukey, John W. 1977. Exploratory Data Analysis. Addison-Wesley Publishing Company.
Yuen, Karen K. 1974. “The Two-Sample Trimmed t for Unequal Population Variances.” Biometrika 61 (1): 165–70. https://www.jstor.org/stable/2334299.

  1. Pronuncia-se quantís.↩︎