2.3 Medidas de Localização

As medidas de localização ou posição estão associadas aos parâmetros de localização

2.3.1 Mínimo e Máximo

O mínimo de uma distribuição é o menor valor observado desta distribuição; de forma análoga, o máximo é o maior valor. São estatísticas de ordem, mais especificamente os extremos de um conjunto de dados ordenado (rol). Para uma distribuição de \(n\) elementos são denotadas por \(\min X = x_{(1)}\) e \(\max X = x_{(n)}\).

Apesar da simplicidade destas medidas, existem considerações teóricas sofisticadas a seu respeito. Para maiores detalhes, vide (S. Kotz and Nadarajah 2000).

Exemplo 2.25 (Mínimo e máximo) Suponha novamente as \(n=100\) observações da variável Y: ‘altura de mulheres atendidas em um certo hospital público de Porto Alegre em 2019’, apresentadas no Exemplo 2.18. O mínimo e o máximo são denotados, respectivamente, por \(\min Y = y_{(1)} = 1.51\) e \(\max Y = y_{(100)} = 1.74\). \(\\\)

h <- read.csv('https://filipezabala.com/data/hospital.csv')
min(h$height)     # Mínimo

## [1] 1.51

max(h$height)     # Máximo

## [1] 1.74

range(h$height)   # A função 'range' fornece o mínimo e o máximo

## [1] 1.51 1.74

2.3.2 Total

Total é a soma de todos os valores de uma variável. É expresso pelas equações (2.11) e (2.12).

\[\begin{equation} \tau = \sum_{i=1}^N x_i \tag{2.11} \end{equation}\]

\[\begin{equation} \hat{\tau} = N \bar{x}_{n}, \tag{2.12} \end{equation}\]

onde \(\bar{x}_{n}\) é a média amostral, apresentada na Equação (2.14).

Exemplo 2.26 (Total) Suponha novamente os dados do Exemplo 2.27. Se alguém precisar de uma lixeira 60 vezes na capital gaúcha, estima-se que o número total de passos a serem caminhados é de \[\hat{\tau} = \frac{60}{6} \times 930 = 60 \times 155 = 9300\]

N <- 60                         # Tamanho do universo/população
x <- c(186,402,191,20,7,124)    # Dados brutos
N*mean(x)                       # Equação (2.11)

## [1] 9300

2.3.3 Média (Aritmética)

A média (aritmética) é uma das medidas mais importantes da Estatística devido às suas propriedades e relativa facilidade de cálculo. A média da variável \(X\) é simbolizada genericamente por \(\mu\) quando refere-se à média universal, e por \(\bar{x}\) quando refere-se à média amostral. Pode-se utilizar a notação \(\bar{x}_{n}\) para indicar o tamanho da amostra. Suas expressões no universo a na amostra são dadas respectivamente pelas equações (2.13) e (2.14). Por distribuir a soma dos valores da distribuição pelo número de observações, a média é uma medida que indica centro de massa. \[\begin{equation} \mu = \frac{\sum_{i=1}^N x_i}{N} \tag{2.13} \end{equation}\]

\[\begin{equation} \bar{x}_{n} = \frac{\sum_{i=1}^n x_i}{n} \tag{2.14} \end{equation}\]

Exemplo 2.27 (Média aritmética) Suponha novamente os dados do Exemplo 1.6. O número médio de passos até a lixeira mais próxima foi de \[\bar{x}_6 = \frac {\sum_{i=1}^6 x_i}{6} = \frac {186+402+191+20+7+124}{6} = \frac{930}{6} = 155.\]

x <- c(186,402,191,20,7,124)      # Dados brutos
mean(x)                           # Equações (2.8) e (2.9). Veja ?mean

## [1] 155

2.3.3.1 Lei dos grandes números

A lei dos grandes números (LGN) foi proposta por (Poisson 1837, 7), e “[c]onsiste no fato de que, se observarmos um número considerável de acontecimentos da mesma natureza, (…) encontraremos, entre esses números, relações aproximadamente constantes”¹² ¹³. Atualmente fala-se nas leis dos grandes números, visto que há diferentes resultados envolvendo a proposta original. Essencialmente a LGN indica que a média amostral \(\bar{x}_n\) converge para a média universal \(\mu\) quando \(n \rightarrow \infty\). (Samuel Kotz et al. 2005, 3979) definem três variantes, das quais listam-se as duas mais conhecidas. Para detalhes da lei dos grandes números de Erdös-Rényi, veja (Erdös and Rényi 1970).

Lei (forte) dos grandes números de Borel
Se \(X_1,\ldots,X_n\) é uma sequência de variáveis aleatórias condicionalmente independentes, identicamente distribuídas \(\mathcal{Ber}(\theta)\), i.e., \(Pr(X_i = 1)=\theta\) e \(Pr(X_i = 0)=1-\theta\) para todo \(i = 1,\ldots,n\), então \(\bar{x}_n \rightarrow \theta\) quase certamente quando \(n \rightarrow \infty\), i.e., \[\begin{equation} Pr\left[ \lim_{n \rightarrow \infty} \frac{\sum_{i=1}^n X_i}{n} = \theta \right] = 1 \tag{2.15} \end{equation}\]

Lei (fraca) dos grandes números de Chebyshev
Se \(X_1,\ldots,X_n\) é uma sequência de variáveis aleatórias condicionalmente independentes, tal que \(E(X_i)=m_i\) e \(Var(X_i)=\sigma_i^2\), \(i = 1,\ldots,n\), e \(\sigma_i^2 \le c < \infty\), então para qualquer \(\varepsilon > 0\), \(\bar{x}_n \rightarrow \mu\) em probabilidade quando \(n \rightarrow \infty\), i.e., \[\begin{equation} \lim_{n \rightarrow \infty} Pr\left[ \left| \frac{\sum_{i=1}^n X_i}{n} - \frac{\sum_{i=1}^n m_i}{n} \right| < \varepsilon \right] = 1 \tag{2.16} \end{equation}\]

Exemplo 2.28 Suponha \(M=20\,000\) lançamentos de um dado equilibrado. Pela Eq. (3.44) sabe-se que o valor esperado neste caso é \(E(X)=\frac{1+2+3+4+5+6}{6}=3.5\).

M <- 20000
theta <- 1/6
media <- vector(length = M)
sim <- base::sample(1:6, M, replace = TRUE, prob = rep(theta,6))
for(i in 1:M){
  set.seed(i+314); media[i] <- mean(sim[1:i])
}
plot(media, type = 'l', las = 1,
     main = 'Média acumulada de 20 mil lançamentos de um dado equilibrado')
EX <- mean(1:6)
abline(h = EX, col = 'red')

Exercício 2.8 Considere o Exemplo 2.28.
(a) Implemente para dois dados.
(b) Varie o número de simulações \(M\).

Média (Aritmética) Ponderada

A média (aritmética) ponderada permite atribuir pesos distintos para as observações.

\[\begin{equation} \bar{x}_{n} = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} \tag{2.17} \end{equation}\]

Exemplo 2.29 (Água do chimarrão) Média ponderada é como colocar água quente e fria para regular a temperatura do mate. Suponha 1 litro de água em uma garrafa térmica, onde coloque-se \(w_1=850\)mL (85%) de água a \(x_1=96\,^{\circ}{\rm C}\) e \(w_2=150\)mL (15%) de água a \(x_2=30\,^{\circ}{\rm C}\). Desconsiderando variações externas, essa mistura deve ficar em \[ W = \frac {850mL \times 96\,^{\circ}{\rm C} + 150mL \times 30\,^{\circ}{\rm C}}{850mL + 150mL} = 0.85 \times 96\,^{\circ}{\rm C}+0.15 \times 30\,^{\circ}{\rm C} = 86.1\,^{\circ}{\rm C}.\]

weighted.mean(c(96,30), c(850,150))       # Facilita uma barbaridade

## [1] 86.1

Exemplo 2.30 (Cálculo do G1) Suponha que o senhor Z, professor de certa instituição de ensino superior, avalie os alunos no Grau 1 atribuindo peso 8 para a média das três provas – \(P_1\), \(P_2\) e \(P_3\) –, peso 2 para a média dos dois trabalhos de maior nota – denotados por \(T_{(3)}\) e \(T_{(2)}\) – e peso zero para o trabalho de menor nota, denotado por \(T_{(1)}\). Assim, o cálculo do Grau 1 é dado por

\[\begin{equation} G1 = \frac{ 8 \times \left( \frac{P_1+P_2+P_3}{3} \right) + 2 \times \left( \frac{T_{(3)}+T_{(2)}}{2} \right) + 0 \times T_{(1)}}{8+2+0} \therefore \\ G1 = 0.8 \left( \frac{P_1+P_2+P_3}{3} \right) + 0.2 \left( \frac{T_{(3)}+T_{(2)}}{2} \right). \tag{2.18} \end{equation}\]

Se as notas de Joãozinho foram \(P_1=6\), \(P_2=5\), \(P_3=10\), \(T_{(3)}=8\), \(T_{(2)}=7\) e \(T_{(1)}=5\), \[ G1 = 0.8 \left( \frac{6+5+10}{3} \right) + 0.2 \left( \frac{8+7}{2} \right) = 7.1. \]

weighted.mean(c(mean(c(6,5,10)),mean(c(7,8))), c(0.8,0.2))  # Simule com as suas notas

## [1] 7.1

g1 <- function(p1,p2,p3, t1,t2,t3){             # Funções podem ser personalizadas
  mp <- mean(c(p1,p2,p3))                       # Média das 3 provas
  mt <- (sum(t1,t2,t3) - min(t1,t2,t3))/2       # Média dos 2 trabalhos de maior nota
  return(trunc(0.8*mp + 0.2*mt, dig = 1))       # Aplicando a ponderação e truncando
}
g1(6,5,10, 5,7,8)                               # Aplicando a função 'g1'

## [1] 7.1

Exercício 2.9 Suponha os dados do Exemplo 2.30.
(a) Refaça os cálculos considerando duas provas e dois trabalhos, \(P_1\), \(P_2\), \(T_1\) e \(T_2\) (sem desconsiderar qualquer das notas).
(b) Reesceva a função g1 utilizando duas provas e dois trabalhos.
(c) Isolar \(P_3\) na Equação (2.18).

Média aparada

Aparar um vetor de dados significa retirar uma fração (usualmente entre 0 e 0.5) de cada um dos extremos do vetor ordenado. A média aparada (trimmed mean) consiste em calcular a média aritmética do vetor aparado. Uma definição formal pode ser encontrada em (Yuen 1974, 166).

x <- c(2:99,1000,10000) # Vetor original, contendo valores extremos
mean(x)                 # Média aritmética

## [1] 159.49

mean(x, trim = 0.01)    # Retira 1% dos valores extremos

## [1] 60.68367347

mean(sort(x[2:99]))     # mean(x, trim = 0.01)

## [1] 60.68367347

mean(x, trim = 0.25)    # Média interquartílica: retira 25% dos valores extremos

## [1] 51.5

mean(sort(x[26:75]))    # mean(x, trim = 0.25)

## [1] 51.5

Média Winsorizada

Winsorizar um vetor (ordenado) significa substituir uma certa proporção de valores extremos por valores menos extremos. Assim, os valores substitutos são os valores retidos mais extremos. Uma definição formal pode ser encontrada em (Yuen 1974, 166).

x <- c(2:99,1000,10000) # Vetor original, contendo valores extremos
(xw <- DescTools::Winsorize(x, probs = c(0.01, 0.99)))

##   [1]    2.99    3.00    4.00    5.00    6.00    7.00    8.00    9.00   10.00   11.00   12.00   13.00   14.00   15.00   16.00   17.00
##  [17]   18.00   19.00   20.00   21.00   22.00   23.00   24.00   25.00   26.00   27.00   28.00   29.00   30.00   31.00   32.00   33.00
##  [33]   34.00   35.00   36.00   37.00   38.00   39.00   40.00   41.00   42.00   43.00   44.00   45.00   46.00   47.00   48.00   49.00
##  [49]   50.00   51.00   52.00   53.00   54.00   55.00   56.00   57.00   58.00   59.00   60.00   61.00   62.00   63.00   64.00   65.00
##  [65]   66.00   67.00   68.00   69.00   70.00   71.00   72.00   73.00   74.00   75.00   76.00   77.00   78.00   79.00   80.00   81.00
##  [81]   82.00   83.00   84.00   85.00   86.00   87.00   88.00   89.00   90.00   91.00   92.00   93.00   94.00   95.00   96.00   97.00
##  [97]   98.00   99.00 1000.00 1090.00

mean(x)

## [1] 159.49

mean(xw)

## [1] 70.3999

2.3.4 Média Quadrática

A média quadrática é a média dos valores ao quadrado, utilizada no cálculo das variâncias. É também conhecida como segundo momento (não centrado). \[\begin{equation} Q = \frac{\sum_{i=1}^n x_{i}^{2}}{n}. \tag{2.19} \end{equation}\]

A raiz da média quadrática, raiz do valor quadrático médio ou valor eficaz é a raiz quadrada da média quadrática. \[\begin{equation} RMS=\sqrt{Q}. \tag{2.20} \end{equation}\]

Exemplo 2.31 (Q e RMS) A média quadrática dos valores 186, 402, 191, 20, 7 e 124 é \[Q = \frac{\sum_{i=1}^6 x_{i}^{2}}{6} = \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} = \frac{248506}{6} = 41417.\bar{6}.\] O valor quadrático médio é \[RMS = \sqrt{41417.\bar{6}} \approx 203.5133.\]

x <- c(186,402,191,20,7,124)    # Dados brutos
(ms <- mean(x^2))               # Eq. (2.12), compare com mean(x)^2

## [1] 41417.66667

sqrt(ms)                        # Eq. (2.13), raiz da média quadrática (RMS)

## [1] 203.5133083

2.3.5 Média Harmônica

A média harmônica é utilizada para calcular médias de taxas. É definida por \[\begin{equation} H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}} = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}. \tag{2.21} \end{equation}\]

Exemplo 2.32 (Média harmônica) Suponha que um veículo viajou uma certa distância a 60 km/h e a mesma distância novamente a 90 km/h. Sua velocidade média pode ser calculada pela média harmônica \[H = \frac{2}{\frac{1}{60} + \frac{1}{90}} = 72 km/h,\] i.e., se o veículo percorresse toda a distância a 72 km/h, faria o trajeto no mesmo tempo.

2/((1/60)+(1/90))       # Pela Equação (21)

## [1] 72

1/mean(1/c(60,90))      # Alternativa

## [1] 72

2.3.6 Média Geométrica

A média geométrica é utilizada para calcular médias de índices e aceleações, bem como em casos em que as medidas possuam magnitudes numéricas distintas. É definida por \[\begin{equation} G = \sqrt[n]{\Pi_{i=1}^n x_i}. \tag{2.22} \end{equation}\]

Exemplo 2.33 (Média geométrica) Sejam os índices de preço \(L_{2004,2008}^{P} = 139.58\%\) e \(P_{2004,2008}^{P} = 97.22\%\). Sua média geométrica é conhecida como índice (ideal) de Fisher, dada por \[G = \sqrt{1.3958 \times 0.9722} \approx 116.49\%.\]

sqrt(1.3958*.9722)      # 'sqrt': square root

## [1] 1.164902039

2.3.7 Relação entre médias

Seja \(H\) a média harmônica (Eq. (2.21)), \(G\) a média geométrica (Eq. (2.22)), \(A\) a média aritmética (Eq. (2.13)) e \(Q\) a média quadrática (Eq. (2.19)). Se aplicadas a valores positivos, então \[H \le G \le A \le Q.\]

2.3.8 Moda

Moda(s) é (são) o(s) valor(es) mais frequente(s) de uma distribuição. Quando existe apenas uma moda, a distribuição é conhecida como unimodal. Se existirem duas modas, a distribuição é bimodal. Três modas configuram uma distribuição trimodal, e quatro ou mais modas indicam uma distribuição multimodal. Distribuições com frequências equivalentes para todos os valores são ditas amodais. Quando os dados estão agrupados deve-se indicar a classe modal, i.e., a classe de maior frequência. O esforço computacional para calcular a moda é realizar uma contagem.

No R existe a função Mode do pacote pracma, mas ela só funciona bem no caso unimodal. Por isso a seguir está apresentada a função Modes, adaptada da sugestão de digEmAll nesta discussão do StackOverflow. Nos exemplos a seguir são comparadas as duas abordagens.

# Função Modes
Modes <- function(x) {
  ux <- sort(unique(x))
  tab <- tabulate(match(x, ux))
  ux[tab == max(tab)]
}

Exemplo 2.34 (Unimodal) A moda do conjunto de dados 4, 7, 1, 3, 3, 9 é \(Mo=3\), pois ele apresenta frequência 2 enquanto os demais valores têm frequência 1. Esta é uma distribuição unimodal.

dat <- c(4,7,1,3,3,9)
Modes(dat)

## [1] 3

pracma::Mode(dat)

## [1] 3

Exemplo 2.35 (Bimodal) As modas do conjunto de dados 4, 7, 1, 3, 3, 9, 7 são \(Mo'=3\) e \(Mo''=7\), pois ambos têm frequência 2 enquanto os demais valores têm frequência 1. A ordem de apresentação é indiferente. Esta é uma distribuição bimodal.

dat <- c(4,7,1,3,3,9,7)
Modes(dat)

## [1] 3 7

pracma::Mode(dat)

## [1] 3

Exemplo 2.36 (Amodal) O conjunto de dados 4, 7, 1, 3, 9 é dito amodal pois todos os valores têm frequência 1.

dat <- c(4,7,1,3,9)
Modes(dat)    # se todos são moda, ninguém é moda

## [1] 1 3 4 7 9

pracma::Mode(dat)

## [1] 1

Exemplo 2.37 (Moda para dados agrupados) No Exemplo 2.18 observa-se que \(f_{3}=41\) é a maior frequência. A classe modal é portanto a terceira, compreendida entre os valores 1.60 e 1.65.

2.3.9 Quantil

Quantis¹⁴ ou separatrizes são medidas que dividem um conjunto de dados ordenados em \(k\) partes iguais. O método básico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada) os valores que repartem a distribuição de acordo com o \(k\) desejado. O esforço computacional para calcular quaisquer separatrizes é, portanto, a ordenação dos dados. De forma geral, pode-se definir uma separatriz \(S\) conforme a Eq. (2.23), onde \(n\) indica o número de observações e \(p\) a proporção de observações ordenadas abaixo de \(S\). \[\begin{equation} S = x_{(p(n+1))} \tag{2.23} \end{equation}\]

A função stats::quantile apresenta nove métodos para obtenção de quantis, portanto recomenda-se a documentação para maiores detalhes. Com ela pode-se facilmente obter os quantis desejados, bastando ajustar o argumento \(p\). Note que a função retorna os quantis expressos em percentis, onde \(0\%\) equivale ao mínimo e \(100\%\) ao máximo.

Mediana (\(k=2\))

A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade à sua direita, i.e., é a medida central em termos de ordenação. Sua posição é a média entre a primeira e última posições. \[\begin{equation} Pos = \frac{1+n}{2} \tag{2.24} \end{equation}\]

Exemplo 2.38 A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade à sua direita, i.e., é a medida central em termos de ordenação. Pode ser definida pela Eq. (2.25).

\[\begin{equation} Md = x_{\left( \frac{1}{2} (n+1) \right)} \tag{2.25} \end{equation}\]

x <- 0:100
median(x)

## [1] 50

quantile(x, 1/2)

## 50% 
##  50

Exemplo 2.39 (Mediana para \(n\) ímpar) Seja o conjunto de dados 10, -4, 11, 12, 1, 5, 15, formado por \(n=7\) valores. Quando ordenado obtemos o rol -4, 1, 5, 10, 11, 12, 15. Considerando \(k=2\), obtém-se o quantil \(Md=10\), pois ele divide o conjunto em duas partes de mesmo tamanho (três valores abaixo da mediana 10 e três valores acima). Sua posição é dada por \(Pos=\frac{1+7}{2}=4\).

x <- c(10, -4, 11, 12, 1, 5, 15)
(n <- length(x))

## [1] 7

(pos <- (n+1)/2)

## [1] 4

sort(x)

## [1] -4  1  5 10 11 12 15

median(x)

## [1] 10

Exemplo 2.40 (Mediana para \(n\) par) Quando o número de observações é par, basta tomar a média dos dois valores centrais do rol. Seja o conjunto de dados 15, -4, 11, 12, 1, 5, formado por \(n=6\) valores. Quando ordenado obtemos o rol -4, 1, 5, 11, 12, 15. Considerando novamente \(k=2\), obtém-se o quantil \(Md=\frac{5+11}{2}=8\), pois ele divide o conjunto em duas partes de mesmo tamanho (três valores abaixo de 8 e três valores acima). Sua posição é dada por \(Pos=\frac{1+6}{2}=3.5\), i.e., a mediana é um valor intermediário entre a terceira e quarta posições.

x <- c(15, -4, 11, 12, 1, 5)
(n <- length(x))

## [1] 6

(pos <- (n+1)/2)

## [1] 3.5

sort(x)

## [1] -4  1  5 11 12 15

median(x)

## [1] 8

Exemplo 2.41 O primeiro e terceiro quartis podem ser definidos respectivamente pelas Eq. (2.26) e (2.27).

\[\begin{equation} Q_1 = x_{\left( \frac{1}{4} (n+1) \right)} \tag{2.26} \end{equation}\]

\[\begin{equation} Q_3 = x_{\left( \frac{3}{4} (n+1) \right)} \tag{2.27} \end{equation}\]

x <- 0:100
quantile(x, c(1/4,3/4))

## 25% 75% 
##  25  75

Pode-se dividir um conjunto de dados em \(k\) setores, sendo os principais apresentados na tabela a seguir

\(k\)	\(p\)	Nome	Simbologia
2	1/2	Mediana	Md
3	1/3, 2/3	Tercil	\(T_1\), \(T_2\)
4	1/4, 2/4, 3/4	Quartil	\(Q_1\), \(Q_2\), \(Q_3\)
10	1/10, …, 9/10	Decil	\(D_1\), \(D_2\), \(\ldots\), \(D_9\)
100	1/100, …, 99/100	Percentil	\(P_1\), \(P_2\), \(\ldots\), \(P_{99}\)

Exemplo 2.42 Alguns quantis.

h <- read.csv('https://filipezabala.com/data/hospital.csv')
options(digits = 4)                              # Para melhorar a apresentação
quantile(h$height, probs = seq(0, 1, 1/2))       # Mediana

##    0%   50%  100% 
## 1.510 1.625 1.740

quantile(h$height, probs = seq(0, 1, 1/3))       # Tercis

##        0% 33.33333% 66.66667%      100% 
##      1.51      1.61      1.65      1.74

quantile(h$height, probs = seq(0, 1, 1/4))       # Quartis

##    0%   25%   50%   75%  100% 
## 1.510 1.598 1.625 1.650 1.740

quantile(h$height, probs = seq(0, 1, 1/10))      # Decis

##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 1.510 1.569 1.590 1.600 1.616 1.625 1.640 1.650 1.660 1.680 1.740

Exercício 2.10 Interprete os quantis do Exemplo 2.42.

Sugestão: Capítulo 8
\(\\\)

Exercício 2.11 Considere as separatrizes discutidas nesta seção.
a. Verifique que as separatrizes mediana (Md), segundo quartil (\(Q_2\)) são equivalentes.
b. Existem outras medidas equivalentes às do item (a)? Justifique.
c. Considere algum \(k\) diferente dos apresentados e atribua um nome e uma simbologia.
d. Se existem \(k\) ‘fatias’, quantas são as separatrizes?

Sugestão: Capítulo 8
\(\\\)

Exercício 2.12 Utilizando a função quantile calcule as separatrizes discutidas nesta Seção com os dados da coluna children disponível em https://filipezabala.com/data/hospital.csv.

Sugestão: Capítulo 8

2.3.10 Resumo de 5 números

O resumo de 5 números (5-number summary) foi sugerido por (Tukey 1977, 32). Engloba mínimo, máximo, mediana e hinges (dobra/dobradiça/articulação) inferior e superior. Por não haver tradução oficial no Glossário de Estatística da SPE/ABE iremos nos referir ao hinge inferior como a mediana entre o mínimo e a mediana de todo o conjunto. O hinge superior é a mediana entre a mediana de todo o conjunto e o máximo. Dependendo do algoritmo utilizado no cálculo dos quartis, os hinges podem diferir ligeiramente destas separatrizes.

Exemplo 2.43 Considere o conjunto de dados utilizado por (Tukey 1977, 33).

x <- c(-3.2,-1.7,-0.4,0.1,0.3,1.2,1.5,1.8,2.4,3.0,4.3,6.4,9.8)
fivenum(x)

## [1] -3.2  0.1  1.5  3.0  9.8

quantile(x, probs = seq(0,1,1/4))

##   0%  25%  50%  75% 100% 
## -3.2  0.1  1.5  3.0  9.8

Referências

Erdös, P, and A Rényi. 1970. “On a New Law of Large Numbers.” Analyse Math 23: 103–11. https://link.springer.com/article/10.1007/BF02795493.

Kotz, Samuel, Narayanaswamy Balakrishnan, Campbell B Read, and Brani Vidakovic. 2005. Encyclopedia of Statistical Sciences. John Wiley & Sons.

Kotz, S., and S. Nadarajah. 2000. Extreme Value Distributions. World Scientific. https://books.google.com.br/books/about/Extreme_Value_Distributions.html?id=ZPW3CgAAQBAJ&redir_esc=y.

Poisson, Siméon-Denis. 1837. Recherches Sur La Probabilité Des Jugements En Matière Criminelle Et En Matière Civile: Précédées Des règles générales Du Calcul Des Probabilités. Bachelier. https://archive.org/details/bub_gb__8FAjzHfzHgC/mode/2up.

Tukey, John W. 1977. Exploratory Data Analysis. Addison-Wesley Publishing Company.

Yuen, Karen K. 1974. “The Two-Sample Trimmed t for Unequal Population Variances.” Biometrika 61 (1): 165–70. https://www.jstor.org/stable/2334299.

“Les choses do toutes natures sont soumises à une loi universelle qu’on peut appeler la loi des grands nombres. Elle consiste en ce que, si l’on observe des nombres très considérables d’événements d’une même nature, dépendants de causes constantes et de causes qui varient irrégulièrement, tantôt dans un sens, tantôt dans l’autre, c’est-à-dire sans que leur variation soit progressive dans aucun sens déterminé, on trouvera, entve ces nombres, des rapports à très peu près constants.” https://archive.org/details/recherchessurla02poisgoog/page/n29/mode/2up ↩︎
“Coisas de todas as naturezas estão sujeitas a uma lei universal que pode ser chamada de lei dos grandes números. Consiste no fato de que, se observarmos um número considerável de acontecimentos da mesma natureza, dependentes de causas constantes e de causas que variam irregularmente, ora numa direcção, ora noutra, é - isto é, sem a sua sendo a variação progressiva em qualquer direção determinada, encontraremos, entre esses números, relações aproximadamente constantes.”↩︎
Pronuncia-se quantís.↩︎