2.2 Distribuições de Frequência

(Agresti and Franklin 2013, 30) definem uma distribuição de frequência como “uma lista de valores possíveis para uma variável, juntamente com o número de observações em cada valor”. Neste texto será feita a distinção entre a distribuição de frequência discreta na Seção 2.2.2 e a distribuição de frequência contínua na Seção 2.2.3.

2.2.1 Dados brutos, Rol e Estatísticas de Ordem

Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que aparecem. Estes dados não tratados são dados brutos. Quando ordenam-se estes dados – em ordem crescente ou decrescente – obtém-se um rol ou lista, dando origem às estatísticas de ordem. Em uma distribuição de \(n\) elementos \(x_{1}\), \(x_{2}\), \(\ldots\), \(x_{n}\) observados sequencialmente, denotam-se os dados ordenados de forma crescente por \(x_{(1)}\), \(x_{(2)}\), \(\ldots\), \(x_{(n)}\) e, analogamente, \(x_{(n)}\), \(x_{(n-1)}\), \(\ldots\), \(x_{(1)}\) para a ordenação decrescente.

Exemplo 2.11 (Rol) Se ordenarmos os dados observados da variável \(X\): ‘número de passos até a lixeira mais próxima’ do Exemplo 1.6, obtemos o rol conforme tabela a seguir. O menor número de passos caminhados foi sete, representado por \(x_{(1)}=7\), e o maior foi quatrocentos e dois, representado por \(x_{(6)}=402\).

\(x_{(1)}\) \(x_{(2)}\) \(x_{(3)}\) \(x_{(4)}\) \(x_{(5)}\) \(x_{(6)}\)
7 20 124 186 191 402
(x <- c(186,402,191,20,7,124))  # Criando e apresentando o vetor original de dados brutos
## [1] 186 402 191  20   7 124
sort(x)                     # Apresentando o rol, lista, ou vetor ordenado. Teste ?order
## [1]   7  20 124 186 191 402
sort(x, decreasing = T)     # Ordem decrescente, onde T indica TRUE (padrão: FALSE)
## [1] 402 191 186 124  20   7

Em um primeiro momento estas definições podem parecer ultrapassadas, mas são de grande importância na construção de métodos avançados de análise de dados. Como atualmente trabalham-se com bases de dados em formato eletrônico, em geral é fácil realizar a ordenação de grandes volumes de dados. É importante ressaltar, porém, que em certos casos é necessário muito poder de processamento para executar tais ordenações, podendo ter alto custo computacional. Para mais detalhes veja (Mahmoud 2000) e 15 Sorting Algorithms in 6 Minutes de Timo Bingmann.

Exercício 2.3 Considere o conjunto de dados \(10,-4,5,7,1,3,9\).

  1. Obtenha o rol.
  2. Indique e interprete \(x_{(4)}\).

Sugestão: Capítulo 8 \(\\\)

Exercício 2.4 Considere as colunas children (número de filhos) and height (altura) disponíveis em https://filipezabala.com/data/hospital.csv. Encontre o rol de cada uma delas através das seguintes funções:

  1. base::sort.
  2. base::order
  3. dplyr::arrange

Sugestão: Capítulo 8 \(\\\)

2.2.2 Distr. de frequência discreta

Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a distribuição de frequência discreta é uma boa maneira de consolidar os dados de uma variável que assuma, como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna descrevendo a variável de interesse e uma coluna com a frequência (da classe), i.e., o número de observações contempladas em cada categoria. Sugere-se também a apresentação de uma coluna indicando a classe, denotada por \(i\) conforme Tabela a seguir.

\(i\) \(x_{i}\) \(f_{i}\) \(f_{r_{i}}\) \(F_{i}\) \(F_{r_{i}}\) \(\Finv_{i}\) \(\Finv_{r_{i}}\)
1 \(x_{1}\) \(f_{1}\) \(f_{1}/n\) \(F_{1}=f_{1}\) \(F_{1}/n\) \(\Finv_{1}=\Finv_{2}+f_{1}=n\) \(\Finv_{1}/n=1\)
2 \(x_{2}\) \(f_{2}\) \(f_{2}/n\) \(F_{2}=F_{1}+f_{2}\) \(F_{2}/n\) \(\Finv_{2}=\Finv_{3}+f_{2}\) \(\Finv_{2}/n\)
3 \(x_{3}\) \(f_{3}\) \(f_{3}/n\) \(F_{3}=F_{2}+f_{3}\) \(F_{3}/n\) \(\Finv_{3}=\Finv_{4}+f_{3}\) \(\Finv_{3}/n\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(k-2\) \(x_{k-2}\) \(f_{k-2}\) \(f_{k-2}/n\) \(F_{k-2}=F_{k-3}+f_{k-2}\) \(F_{k-2}/n\) \(\Finv_{k-2}=\Finv_{k-1}+f_{k-2}\) \(\Finv_{k-2}/n\)
\(k-1\) \(x_{k-1}\) \(f_{k-1}\) \(f_{k-1}/n\) \(F_{k-1}=F_{k-2}+f_{k-1}\) \(F_{k-1}/n\) \(\Finv_{k-1}=\Finv_{k}+f_{k-1}\) \(\Finv_{k-1}/n\)
\(k\) \(x_{k}\) \(f_{k}\) \(f_{k}/n\) \(F_{k}=F_{k-1}+f_{k}=n\) \(F_{k}/n=1\) \(\Finv_{k}=f_{k}\) \(\Finv_{k}/n\)
Total - \(n\) 1 - - - -

Para a classe genérica \(i\) são calculadas as seguintes frequências:
- \(f_{i}\): Frequência
- \(f_{r_{i}}\): Frequência relativa
- \(F_{i}\): Frequência acumulada
- \(F_{r_{i}}\): Frequência acumulada relativa
- \(\Finv_{i}\): Frequência acumulada inversa
- \(\Finv_{r_{i}}\): Frequência acumulada inversa relativa

Exemplo 2.12 (Número de filhos revisitado) Do Exemplo 2.4 observou-se a variável

\(X\): ‘número de filhos de mulheres atendidas em um hospital’.

A tabela de dados brutos a seguir mostra os dados na ordem em que foram observados. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique o número máximo de filhos observados na amostra a partir desta tabela.

\(i\) \(x_{i}\) \(i\) \(x_{i}\) \(i\) \(x_{i}\) \(i\) \(x_{i}\) \(i\) \(x_{i}\)
1 2 21 2 41 1 61 3 81 0
2 0 22 3 42 1 62 0 82 1
3 1 23 1 43 4 63 2 83 2
4 2 24 2 44 1 64 0 84 2
5 4 25 2 45 1 65 2 85 2
6 2 26 1 46 3 66 2 86 2
7 1 27 4 47 1 67 2 87 2
8 4 28 0 48 1 68 1 88 4
9 2 29 1 49 4 69 2 89 0
10 3 30 6 50 2 70 3 90 2
11 3 31 1 51 2 71 1 91 1
12 2 32 1 52 4 72 3 92 3
13 3 33 1 53 1 73 1 93 3
14 2 34 1 54 3 74 3 94 4
15 1 35 0 55 1 75 3 95 5
16 4 36 2 56 2 76 4 96 1
17 2 37 3 57 0 77 2 97 0
18 0 38 3 58 2 78 1 98 0
19 1 39 1 59 3 79 2 99 3
20 4 40 2 60 3 80 3 100 2

A tabela a seguir apresenta a distribuição de frequência do número de filhos. Com a apresentação neste formato, facilmente observa-se o máximo de 6 filhos na amostra, ao contrário da tabela de dados brutos. Perde-se apenas a ordem na qual os dados foram observados, o que em geral não é do interesse do pesquisador.

\(i\) \(x_{i}\) \(f_{i}\) \(f_{r_{i}}\) \(F_{i}\) \(F_{r_{i}}\) \(\Finv_{i}\) \(\Finv_{r_{i}}\)
1 0 11 \(11/100=0.11\) 11 \(11/100=0.11\) \(89+11=100\) \(100/100=1\)
2 1 27 \(27/100=0.27\) \(11+27=38\) \(38/100=0.38\) \(62+27=89\) \(89/100=0.89\)
3 2 30 \(30/100=0.30\) \(38+30=68\) \(68/100=0.68\) \(32+30=62\) \(62/100=0.62\)
4 3 19 \(19/100=0.19\) \(68+19=87\) \(87/100=0.87\) \(13+19=32\) \(32/100=0.32\)
5 4 11 \(11/100=0.11\) \(87+11=98\) \(98/100=0.98\) \(2+11=13\) \(13/100=0.13\)
6 5 1 \(1/100=0.01\) \(98+1=99\) \(99/100=0.99\) \(1+1=2\) \(2/100=0.02\)
7 6 1 \(1/100=0.01\) \(99+1=100\) \(100/100=1\) 1 \(1/100=0.01\)
Total - 100 1 - - - -

Note que a coluna \(i\) da Tabela de dados brutos indica a ordem da mulher entrevistada, enquanto na tabela resumida \(i\) indica a classe. Por exemplo, \(i=4\) indica a quarta mulher entrevistada, que no caso informou ter \(x_{4}=2\) filhos. Na Tabela resumida acima, \(i=4\) indica a quarta classe onde \(x_{4}=3\), i.e., a classe das mulheres que possuem 3 filhos.

As únicas colunas que exigem a leitura dos dados brutos são a da variável \(x_i\) e a da frequência \(f_i\); as demais são calculadas a partir de \(f_i\). A seguir estão alguns exemplos de interpretação das frequências apresentadas na Tabela acima.
- \(f_{5}=11\), i.e., 11 mulheres possuem 4 filhos
- \(f_{r_{5}}=0.11=11\%\), i.e., 11% das mulheres possuem 4 filhos
- \(F_{4}=87\), i.e., 87 mulheres possuem até 3 filhos (ou ‘de zero a 3 filhos’, mas isto é menos elegante)
- \(F_{r_{3}}=0.68=68\%\), i.e., 68% das mulheres possuem até 2 filhos
- \(\Finv_{3}=62\), i.e., 62 mulheres têm pelo menos 2 filhos
- \(\Finv_{r_{2}}=0.89=89\%\), i.e., 89% das mulheres têm pelo menos 1 filho

Exemplo 2.13 (Número de filhos R-visitado) Exemplo 2.12 utilizando R/RStudio.

h <- read.csv('https://filipezabala.com/data/hospital.csv')
dim(h)       # Dimensão: 100 linhas por 2 colunas
## [1] 100   2
n <- nrow(h) # Número de linhas de h
head(h)      # Apresenta as 6 primeiras linhas do objeto 'h'; teste tail(h, 10)
##   children height
## 1        2   1.59
## 2        0   1.58
## 3        1   1.70
## 4        2   1.62
## 5        4   1.67
## 6        2   1.62
(tab <- table(h$children))    # Frequência (simples/absoluta)
## 
##  0  1  2  3  4  5  6 
## 11 27 30 19 11  1  1
prop.table(tab)               # Frequência relativa
## 
##    0    1    2    3    4    5    6 
## 0.11 0.27 0.30 0.19 0.11 0.01 0.01
cumsum(tab)                   # Frequência acumulada
##   0   1   2   3   4   5   6 
##  11  38  68  87  98  99 100
round(cumsum(tab)/n,2)        # Frequência acumulada relativa
##    0    1    2    3    4    5    6 
## 0.11 0.38 0.68 0.87 0.98 0.99 1.00
cumsum(rev(tab))              # Frequência acumulada inversa
##   6   5   4   3   2   1   0 
##   1   2  13  32  62  89 100
round(cumsum(rev(tab))/n,2)   # Frequência acumulada inversa relativa
##    6    5    4    3    2    1    0 
## 0.01 0.02 0.13 0.32 0.62 0.89 1.00

Exercício 2.5 Em uma fábrica retirou-se uma amostra de 50 peças de um lote de certo material e contou-se o número de defeitos em cada peça, apresentados na tabela a seguir.

\(i\) # defeitos \(f_i\) \(fr_i\) \(F_i\) \(Fr_i\) \(\Finv_{i}\) \(\Finv_{r_{i}}\)
1 0 17
2 1 10
3 2
4 3 8
5 4 5
6 5 1
Total - 50
  1. Classifique a variável ‘número de defeitos’.
  2. Qual a frequência absoluta da classe 3? Interprete o valor.
  3. Qual a frequência relativa da classe 3? Interprete o valor.
  4. Qual a frequência acumulada da classe 4? Interprete o valor.
  5. Qual a frequência acumulada relativa da classe 5? Interprete o valor.

Sugestão: Capítulo 8

2.2.3 Distr. de freq. contínua

Como regra de bolso, quando uma variável assume mais de 10 diferentes valores recomenda-se utilizar a distribuição de frequência contínua. A diferença para a distribuição discreta da Seção 2.2.2 é que na contínua distribuem-se os valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagem desta abordagem é a capacidade de apresentar os dados de maneira enxuta. O contraponto, como em qualquer resumo de dados, é a perda da informação original.

Intervalo e quantidade de classes

Apresentam-se a seguir três das principais regras para determinar o intervalo de classe (\(C\)) e a quantidade de classes (\(k\)) de uma série estatística com \(n\) itens.

1. Sturges

This formula (…) is based on the principle that the proper distribution into classes is given, for all numbers which are powers of 2, by a series of binomial coefficients. For example, 16 items would be divided normally into 5 classes, with class frequencies 1, 4, 6, 4, 1. (Sturges 1926, 65)

A partir do princípio supracitado, (Sturges 1926) sugere que o intervalo de classe seja calculado por \[\begin{equation} C_{St} = \frac{R}{k_{St}} = \frac{\max{X}-\min{X}}{1 + \log_{2}{n}} \approx \frac{\max{X}-\min{X}}{1 + 3.322 \log_{10}{n}}, \tag{2.1} \end{equation}\]

onde \(R\) é a amplitude descrita na Seção 2.4.1. O denominador é obtido a partir da expansão binomial, na forma \[\begin{equation} n = \sum_{i=0}^{k-1} {k-1 \choose i} = (1+1)^{k-1} = 2^{k-1}. \tag{2.2} \end{equation}\]

Da Equação (2.2) pode-se obter

\[\begin{equation} k_{St} = \left\lceil 1 + \log_{2}{n} \right\rceil \approx \left\lceil 1 + 3.322 \log_{10}{n} \right\rceil, \tag{2.3} \end{equation}\]

onde \(\left\lceil \;\; \right\rceil\) indica a função teto conforme Eq. (1.4). Alguns pacotes computacionais atribuem o número de classes aplicando regras que encontrem um valor ‘bonito’ para a divisão.

The most convenient class intervals are 1, 2, 5, 10, 20, etc., so that in practice the formula for the theoretical class interval may be used as a means of choosing among these convenient ones. In general the next smaller convenient class interval should be chosen, that is, the one next below the theoretically optimal interval. If the formula gives 9, 10 may be chosen, but if the formula indicates 7 or 8, the one actually used should generally be the next lower convenient class interval 5. (Sturges 1926, 65)

Exemplo 2.14 (Sturges) Se forem observados \(n=100\) valores com amplitude \(R=0.23\), o intervalo da classe sugerido por Sturges é \[C_{St} = \frac{0.23}{1 + \log_{2}{100}} = 0.02875,\] e a quantidade de classes \[k_{St} = \left\lceil 1 + \log_{2}{100} \right\rceil = \left\lceil 7.644 \right\rceil = 8.\]

n <- length(h$height)             # n=100, número de dados a serem tabulados
R <- diff(range(h$height))        # Amplitude
ceiling(1 + log2(n))              # Pela Equação (2.3), usando log2
## [1] 8
ceiling(1 + 3.322*log10(n))       # Pela Equação (2.3), usando log10
## [1] 8
(kSt <- nclass.Sturges(h$height)) # Pela função 'nclass.Sturges'
## [1] 8
(hSt <- R/kSt)                    # Pela Equação (2.1)
## [1] 0.02875
pretty(kSt)                       # Valores 'bonitos'
## [1]  5 10
2. Scott

(Scott 1979) incorpora \(s\), o desvio padrão amostral conforme Eq. (2.35), ao cálculo do intervalo de classe. \[\begin{equation} C_{Sc} = \frac{3.49\,s}{\sqrt[3]{n}}. \tag{2.4} \end{equation}\]

O número de classes de Scott pode ser obtido por \[\begin{equation} k_{Sc} = \left\lceil \frac{R}{C_{Sc}} \right\rceil = \left\lceil \frac{\max{X} - \min{X}}{3.49\,s/\sqrt[3]{n}} \right\rceil. \tag{2.5} \end{equation}\]

Exemplo 2.15 (Scott) Se forem observados \(n=100\) valores com desvio padrão amostral \(s=0.045268559\), o intervalo de classe sugerido por Scott é \[C_{Sc} = \frac{3.49 \times 0.045268559}{\sqrt[3]{100}} \approx 0.03403732562.\] Se \(R=0.23\), a quantidade de classes é \[k_{Sc} =\left\lceil \frac{0.23}{0.03403732562} \right\rceil = \left\lceil 6.757288 \right\rceil = 7.\]

n <- length(h$height)             # n=100, número de observações a serem tabuladas
R <- diff(range(h$height))        # Amplitude
s <- sd(h$height)                 # s=0.045268559, desvio padrão amostral
(CSc <- 3.49*s/n^(1/3))           # Pela Equação (2.4)
## [1] 0.03403732562
ceiling(R/CSc)                    # k sugerido por Scott, Equação (2.5)
## [1] 7
(kSc <- nclass.scott(h$height))   # k obtido pela função 'nclass.scott'
## [1] 7
pretty(kSc)                       # Valores 'bonitos'
## [1]  5 10
3. Freedman-Diaconis

Rule: Choose the cell width as twice the interquartile range of the data, divided by the cube root of the sample size. (Freedman and Diaconis 1981, 454)

(Freedman and Diaconis 1981) inserem \(IQR\), a amplitude interquartílica conforme Eq. (2.38), no cálculo do intervalo de classe. \[\begin{equation} C_{FD} = \frac{2\,IQR}{\sqrt[3]{n}}, \tag{2.6} \end{equation}\]

O número de classes obtido como consequência da aplicação da relação de Freedman-Diaconis é \[\begin{equation} k_{FD} = \left\lceil \dfrac{R}{C_{FD}} \right\rceil = \left\lceil \frac{\max{X} - \min{X}}{2\,IQR/\sqrt[3]{n}} \right\rceil. \tag{2.7} \end{equation}\]

Exemplo 2.16 (Freedman-Diaconis) Se forem observados \(n=100\) valores com amplitude interquartílica de \(IQR=0.0525\), o intervalo de classe sugerido por Freedman-Diaconis é \[C_{FD} = \dfrac{2 \times 0.0525}{\sqrt[3]{100}} \approx 0.02262156425.\] Se \(R=0.23\), a quantidade de classes é \[k_{FD} = \left\lceil \dfrac{0.23}{0.02262156425} \right\rceil = \left\lceil 10.16729 \right\rceil = 11.\]

n <- length(h$height)                   # n=100, número de observações a serem tabuladas
R <- diff(range(h$height))              # Amplitude
(Q <- quantile(h$height, c(1/4,3/4)))   # Primeiro e terceiro quartis
##    25%    75% 
## 1.5975 1.6500
(IQR <- diff(as.numeric(Q)))    # Amplitude Interquatílica
## [1] 0.0525
(CFD <- 2*IQR/n^(1/3))          # Pela Eq. (2.6)
## [1] 0.02262156425
ceiling(R/CFD)                  # k sugerido por Freedman-Diaconis, Eq. (2.7)
## [1] 11
(kFD <- nclass.FD(h$height))    # k obtido pela função 'nclass.FD'
## [1] 11
pretty(kFD)                     # Valores 'bonitos'
## [1] 10 20

(Hyndman 1995) argumenta que as regras de Scott e Freedman-Diaconis são tão simples quanto a regra de Sturges, mas melhor fundamentadas na teoria estatística. Além disso, a regra de Sturges funciona bem para tamanhos de amostra moderados (\(n < 200\)), mas não para valores grandes de \(n\).

Exemplo 2.17 (Comparando os três métodos) Foi realizada uma simulação com tamanhos de amostra \(n=10^{i}\), \(i \in \{1, 2, \ldots, 6 \}\), indicando o número de classes sugerido por cada método.

NC <- function(x) c(i = i, n = 10^i,                 # Quantidades simuladas
                    Sturges = nclass.Sturges(x),     # Sturges (1926)
                    Scott = nclass.scott(x),         # Scott (1979)
                    FD = nclass.FD(x))               # Freedman-Diaconis (1981)
for(i in 1:6){set.seed(i); print(NC(rnorm(10^i)))}   # Pode ser demorado para i>6
##       i       n Sturges   Scott      FD 
##       1      10       5       2       3 
##       i       n Sturges   Scott      FD 
##       2     100       8       6       7 
##       i       n Sturges   Scott      FD 
##       3    1000      11      19      25 
##       i       n Sturges   Scott      FD 
##       4   10000      15      44      56 
##       i       n Sturges   Scott      FD 
##       5  100000      18     112     145 
##       i       n Sturges   Scott      FD 
##       6 1000000      21     278     360

Exemplo 2.18 (Alturas de mulheres) Seja a variável

\(Y\): ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019’.

A tabela abaixo apresenta os dados brutos. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique quantas mulheres têm altura entre 1.70m e 1.75m a partir desta tabela.

\(i\) \(y_{i}\) \(i\) \(y_{i}\) \(i\) \(y_{i}\) \(i\) \(y_{i}\)
1 1.59 26 1.61 51 1.64 76 1.62
2 1.58 27 1.61 52 1.57 77 1.54
3 1.70 28 1.60 53 1.65 78 1.64
4 1.62 29 1.61 54 1.69 79 1.66
5 1.67 30 1.64 55 1.65 80 1.56
6 1.62 31 1.59 56 1.62 81 1.64
7 1.69 32 1.60 57 1.68 82 1.60
8 1.60 33 1.62 58 1.60 83 1.68
9 1.61 34 1.53 59 1.68 84 1.65
10 1.58 35 1.58 60 1.59 85 1.65
11 1.64 36 1.60 61 1.70 86 1.64
12 1.72 37 1.61 62 1.65 87 1.55
13 1.74 38 1.67 63 1.51 88 1.66
14 1.63 39 1.68 64 1.66 89 1.59
15 1.64 40 1.56 65 1.52 90 1.66
16 1.63 41 1.58 66 1.60 91 1.69
17 1.59 42 1.66 67 1.62 92 1.61
18 1.64 43 1.59 68 1.68 93 1.58
19 1.59 44 1.67 69 1.65 94 1.73
20 1.65 45 1.62 70 1.61 95 1.56
21 1.63 46 1.55 71 1.56 96 1.59
22 1.64 47 1.64 72 1.65 97 1.65
23 1.64 48 1.62 73 1.62 98 1.63
24 1.62 49 1.65 74 1.63 99 1.70
25 1.66 50 1.66 75 1.57 100 1.60

Para colocar estes valores em uma tabela de frequência, obteve-se \(k_{St}=8\) pela regra de Sturges, e pelo resultado de pretty(8) decidiu-se por 5 classes. Como exercício, obtenha \(k_{Sc}\) e \(k_{FD}\).

A tabela a seguir apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda algumas frequências que auxiliam o entendimento da distribuição. Facilmente observam-se 6 mulheres com altura entre 1.70m e 1.75m,11 ao contrário da tabela de dados brutos. Note, porém, que não é possível saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica em perda de informação, cabendo ao pesquisador decidir quando e como resumir os dados.

\(i\) \(y_{i}\) \(f_{i}\) \(f_{r_{i}}\) \(F_{i}\) \(F_{r_{i}}\) \(\Finv_{i}\) \(\Finv_{r_{i}}\)
1 1.50 \(\vdash\) 1.55 4 0.04 4 0.04 \(96+4=100\) \(100/100=1\)
2 1.55 \(\vdash\) 1.60 21 0.21 \(4+21=25\) 0.25 \(75+21=96\) \(96/100=0.96\)
3 1.60 \(\vdash\) 1.65 41 0.41 \(25+41=66\) 0.66 \(34+41=75\) \(75/100=0.75\)
4 1.65 \(\vdash\) 1.70 28 0.28 \(66+28=94\) 0.94 \(6+28=34\) \(34/100=0.34\)
5 1.70 \(\vdash\) 1.75 6 0.06 \(94+6=100\) 1 6 \(6/100=0.06\)
Total - 100 1 - - - -

A seguir estão alguns exemplos de interpretação das frequências apresentadas na tabela acima.
- \(f_{5}=6\), i.e., 6 mulheres têm entre 1.70m e 1.75m de altura
- \(f_{r_{5}}=0.06=6\%\), i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura
- \(F_{4}=94\), i.e., 94 mulheres têm até 1.70m de altura, ou de 1.50m a 1.70m
- \(F_{r_{2}}=0.25=25\%\), i.e., 25% das mulheres tem até 1.60m de altura, ou de 1.50m a 1.60m
- \(\Finv_{3}=75\), i.e., 75 mulheres têm pelo menos 1.60m de altura
- \(\Finv_{r_{4}}=0.34=34\%\), i.e., 34% das mulheres tem pelo menos 1.65m de altura

\(\\\)

Exercício 2.6 Considerando os dados do Exemplo 2.18, obtenha \(k_{Sc}\) e \(k_{FD}\).

Exemplo 2.19 (Alturas de mulheres R-visitado) Exemplo 2.18 utilizando R/RStudio.

h <- read.csv('https://filipezabala.com/data/hospital.csv')
dim(h)        # Dimensão: 100 linhas por 2 colunas
## [1] 100   2
n <- nrow(h)  # Número de linhas
head(h)       # Apresenta as 6 primeiras linhas do objeto 'h'; teste tail(h, 10)
##   children height
## 1        2   1.59
## 2        0   1.58
## 3        1   1.70
## 4        2   1.62
## 5        4   1.67
## 6        2   1.62
pretty(nclass.Sturges(h$height))    # Valores 'bonitos' para o número de classes
## [1]  5 10
hi <- hist(h$height, right = FALSE) # Histograma, note right = FALSE

hi$breaks                           # Quebras de valores gerados com a função 'hist'
## [1] 1.50 1.55 1.60 1.65 1.70 1.75
(f <- hi$counts)                    # Frequências das classes
## [1]  4 21 41 28  6
cumsum(f)                           # Frequência acumulada
## [1]   4  25  66  94 100
round(cumsum(f)/n, 2)       # Frequência acumulada relativa
## [1] 0.04 0.25 0.66 0.94 1.00
cumsum(rev(f))              # Frequência acumulada inversa
## [1]   6  34  75  96 100
round(cumsum(rev(f))/n, 2)  # Frequência acumulada inversa relativa
## [1] 0.06 0.34 0.75 0.96 1.00

Exercício 2.7 Considerando o Exemplo 2.19, indique:

  1. O que ocorre ao se utilizar right = FALSE? Qual a diferença para right = TRUE?
  2. Que algoritmo está sendo utilizado no cálculo de h$breaks? Como é possível alterar esta apresentação?

\(\\\)

2.2.4 Distr. de freq. bivariada

Em muitas situações práticas há interesse em avaliar a associação de atributos. A tabela de contingência tem essa finalidade. A simbologia 1 e 0 indica respectivamente a presença e ausência das características \(X\) e \(Y\).

\(Y=1\) \(Y=0\) Total
\(X=1\) \(n_{11}\) \(n_{10}\) \(n_{1\cdot}\)
\(X=0\) \(n_{01}\) \(n_{00}\) \(n_{0\cdot}\)
Total \(n_{\cdot 1}\) \(n_{\cdot 0}\) \(n\)

2.2.4.1 Razão de Chances (Odds Ratio - OR)

A razão de chances é uma medida utilizada para avaliar o quanto um atributo pode influenciar em outro. Pode ser escrita em função de \(n_{ij}\), \(i,j=0,1\) conforme Equação (2.8) ou \(\hat{\pi}_{ij} = \dfrac{n_{ij}}{n}\) conforme Eq. (2.9).

\[\begin{equation} OR = \frac{n_{11}/n_{10}}{n_{01}/n_{00}} = \frac{n_{11} n_{00}}{n_{10} n_{01}} \tag{2.8} \end{equation}\]

\[\begin{equation} OR = \frac{\hat{\pi}_{11}/\hat{\pi}_{10}}{\hat{\pi}_{01}/\hat{\pi}_{00}} = \frac{\hat{\pi}_{11} \hat{\pi}_{00}}{\hat{\pi}_{10} \hat{\pi}_{01}} \tag{2.9} \end{equation}\]

Exemplo 2.20 (Odds Ratio) Suponha um estudo da relação entre os atributos \(X\): ‘fumante’ e \(Y\): ‘tem câncer’, conforme tabela a seguir onde \(X=1\) indica o paciente fumante e \(Y=1\) se o paciente desenvolveu câncer.

\(Y=1\) \(Y=0\) Total
\(X=1\) 90 10 100
\(X=0\) 70 30 100
Total 160 40 200

Pela Equação (2.8),

\[OR = \frac{90/10}{70/30} = \frac{90 \times 30}{10 \times 70} \approx 3.86\]

Com este valor estima-se que pacientes que fumam possuem 3.86 vezes a chance (ou \(3.86-1=2.86\) vezes mais chance) de desenvolver câncer em relação aos pacientes que não fumam. Refaça o exemplo invertendo os rótulos 0 e 1.

tab.bi <- matrix(c(90,10,70,30), nrow = 2, byrow = TRUE)            
(OR <- (tab.bi[1,1]/tab.bi[1,2])/(tab.bi[2,1]/tab.bi[2,2]))    # Equação (2.8)
## [1] 3.857142857

2.2.4.2 Risco Relativo (Relative Risk - RR)

Risco relativo é uma medida baseada em taxas de incidência entre os grupos exposto (\(X=1\)) e não exposto (\(X=0\)) ao fator de risco em estudo. É obtido pelo quociente entre as estimativas da taxa de incidência do grupo exposto (\(\hat{\gamma}_{1}\)) e da taxa de incidência do grupo não exposto (\(\hat{\gamma}_{0}\)) conforme Eq. (2.10).

\[\begin{equation} RR = \frac{\hat{\gamma}_{1}}{\hat{\gamma}_{0}} = \frac{n_{11}/n_{1 \cdot}}{n_{01}/n_{0 \cdot}} \tag{2.10} \end{equation}\]

Exemplo 2.21 (Risco Relativo) Suponha novamente os dados do Exemplo 2.20. Pela Eq. @ref(eq:rr_n),

\[RR = \dfrac{90/100}{70/100} \approx 1.29\]

Com este valor estima-se que o grupo que não usa celular é aprovado em 29% mais casos em comparação ao grupo do Whats e Face.

tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T)
(RR <- (tab.bi[1,1]/sum(tab.bi[1,]))/(tab.bi[2,1]/sum(tab.bi[2,])) )    # Equação (2.10)
## [1] 1.285714286

2.2.4.3 Independência

A tabela de contingência bivariada permite avaliar a independência entre dois atributos, indicando a ausência de relação, simbolizada por \(X \perp\!\!\!\perp Y\). Se não existe tal relação, é esperado encontrar a mesma proporção de portadores da característica \(X\) entre os portadores e não portadores de \(Y\). Assim, se \(X\) e \(Y\) são independentes, a proporção de sujeitos que apresentam simultaneamente as características \(X\) e \(Y\) é igual à proporção dos \(X\) multiplicada pela proporção dos \(Y\), sob qualquer uma das formas:

\[\left\{ \begin{array}{l} \frac{n_{11}}{n_{\cdot 1}} = \frac{n_{1\cdot}}{n} \\ \\ \frac{n_{11}}{n_{1\cdot}} = \frac{n_{\cdot 1}}{n} \\ \\ n_{11} = \frac{n_{1\cdot} n_{\cdot 1}}{n} \\ \\ \frac{n_{11}}{n} = \left( \frac{n_{1\cdot}}{n} \right) \left( \frac{n_{\cdot 1}}{n} \right) \\ \end{array} \right. \]

Exemplo 2.22 (Independência 1) Se há 578 sujeitos portadores do atributo \(X\) e 216 portadores de \(Y\) em 1156 observações, espera-se que existam \[ \dfrac{n_{1\cdot} n_{\cdot 1}}{n} = \dfrac{578 \times 216}{1156} = 108 \] sujeitos portadores de \(X\) e \(Y\) se \(X \perp\!\!\!\perp Y\).

Exemplo 2.23 (Independência 2) Se existem 15% de sujeitos \(X\) e 80% de \(Y\), espera-se que existam \[ \left( \dfrac{n_{1\cdot}}{n} \right) \left( \dfrac{n_{\cdot 1}}{n} \right) = \left( \dfrac{15}{100} \right) \left( \dfrac{80}{100} \right) = 12\% \] de sujeitos \(X\) e \(Y\) se \(X \perp\!\!\!\perp Y\).

Exemplo 2.24 (Independência 3) Se \(OR = 1\), então \(X \perp\!\!\!\perp Y\).

Referências

Agresti, Alan, and Christine A Franklin. 2013. Statistics: The Art and Science of Learning from Data. Pearson Education MUA. https://toc.library.ethz.ch/objects/pdf_ead50/5/E50_010307250_TB-Inhalt_005862608.pdf.
Freedman, David, and Persi Diaconis. 1981. “On the Histogram as a Density Estimator: L2 Theory.” Zeitschrift für Wahrscheinlichkeitstheorie Und Verwandte Gebiete 57 (4): 453–76. https://link.springer.com/content/pdf/10.1007/BF01025868.pdf.
Hyndman, Rob J. 1995. “The Problem with Sturges Rule for Constructing Histograms.” NA. https://robjhyndman.com/publications/sturges/.
Mahmoud, Hosam M. 2000. Sorting: A Distribution Theory. Vol. 54. John Wiley & Sons.
Scott, David W. 1979. “On Optimal and Data-Based Histograms.” Biometrika 66 (3): 605–10. http://materias.df.uba.ar/mtb2019c1/files/2014/08/On-optimal-and-Data-based-histograms.pdf.
Sturges, Herbert A. 1926. “The Choice of a Class Interval.” Journal of the American Statistical Association 21 (153): 65–66. http://www.esalq.usp.br/departamentos/lce/arquivos/aulas/2013/LCE0216/Sturges1926.pdf.

  1. Note que a simbologia 1.70 \(\vdash\) 1.75 indica a inclusão de 1.70 e a exclusão de 1.75, i.e., este é um intervalo fechado à esquerda e aberto à direita. Equivale às notações \(\left[ 1.70, 1.75 \right[\) (mais moderna) ou \(\left[ 1.70, 1.75 \right)\) (mais antiga).↩︎