2.2 Distribuições de Frequência
(Agresti and Franklin 2013, 30) definem uma distribuição de frequência como “uma lista de valores possíveis para uma variável, juntamente com o número de observações em cada valor”. Neste texto será feita a distinção entre a distribuição de frequência discreta na Seção 2.2.2 e a distribuição de frequência contínua na Seção 2.2.3.
2.2.1 Dados brutos, Rol e Estatísticas de Ordem
Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que aparecem. Estes dados não tratados são dados brutos. Quando ordenam-se estes dados – em ordem crescente ou decrescente – obtém-se um rol ou lista, dando origem às estatísticas de ordem. Em uma distribuição de \(n\) elementos \(x_{1}\), \(x_{2}\), \(\ldots\), \(x_{n}\) observados sequencialmente, denotam-se os dados ordenados de forma crescente por \(x_{(1)}\), \(x_{(2)}\), \(\ldots\), \(x_{(n)}\) e, analogamente, \(x_{(n)}\), \(x_{(n-1)}\), \(\ldots\), \(x_{(1)}\) para a ordenação decrescente.
Exemplo 2.11 (Rol) Se ordenarmos os dados observados da variável \(X\): ‘número de passos até a lixeira mais próxima’ do Exemplo 1.6, obtemos o rol conforme tabela a seguir. O menor número de passos caminhados foi sete, representado por \(x_{(1)}=7\), e o maior foi quatrocentos e dois, representado por \(x_{(6)}=402\).
\(x_{(1)}\) | \(x_{(2)}\) | \(x_{(3)}\) | \(x_{(4)}\) | \(x_{(5)}\) | \(x_{(6)}\) |
---|---|---|---|---|---|
7 | 20 | 124 | 186 | 191 | 402 |
## [1] 186 402 191 20 7 124
## [1] 7 20 124 186 191 402
## [1] 402 191 186 124 20 7
Em certos casos aplicados é necessário muito poder de processamento para executar ordenações, com alto custo computacional. Para mais detalhes veja (Mahmoud 2000) e 15 Sorting Algorithms in 6 Minutes de Timo Bingmann.
Exercício 2.3 Considere o conjunto de dados \(10,-4,5,7,1,3,9\).
- Obtenha o rol.
- Indique e interprete \(x_{(4)}\).
Sugestão: Capítulo 8 \(\\\)
Exercício 2.4 Considere as colunas children
(número de filhos) and height
(altura) disponíveis em https://filipezabala.com/data/hospital.csv. Encontre o rol de cada uma delas através das seguintes funções:
base::sort
.
base::order
dplyr::arrange
Sugestão: Capítulo 8 \(\\\)
2.2.2 Distr. de frequência discreta
Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a distribuição de frequência discreta é uma boa maneira de consolidar os dados de uma variável que assuma, como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar os elementos característicos, que são colunas de frequência que descrevem o comportamento dos dados tabulados.
\(i\) | \(x_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | \(x_{1}\) | \(f_{1}\) | \(f_{1}/n\) | \(F_{1}=f_{1}\) | \(F_{1}/n\) | \(\Finv_{1}=\Finv_{2}+f_{1}=n\) | \(\Finv_{1}/n=1\) |
2 | \(x_{2}\) | \(f_{2}\) | \(f_{2}/n\) | \(F_{2}=F_{1}+f_{2}\) | \(F_{2}/n\) | \(\Finv_{2}=\Finv_{3}+f_{2}\) | \(\Finv_{2}/n\) |
3 | \(x_{3}\) | \(f_{3}\) | \(f_{3}/n\) | \(F_{3}=F_{2}+f_{3}\) | \(F_{3}/n\) | \(\Finv_{3}=\Finv_{4}+f_{3}\) | \(\Finv_{3}/n\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(k-2\) | \(x_{k-2}\) | \(f_{k-2}\) | \(f_{k-2}/n\) | \(F_{k-2}=F_{k-3}+f_{k-2}\) | \(F_{k-2}/n\) | \(\Finv_{k-2}=\Finv_{k-1}+f_{k-2}\) | \(\Finv_{k-2}/n\) |
\(k-1\) | \(x_{k-1}\) | \(f_{k-1}\) | \(f_{k-1}/n\) | \(F_{k-1}=F_{k-2}+f_{k-1}\) | \(F_{k-1}/n\) | \(\Finv_{k-1}=\Finv_{k}+f_{k-1}\) | \(\Finv_{k-1}/n\) |
\(k\) | \(x_{k}\) | \(f_{k}\) | \(f_{k}/n\) | \(F_{k}=F_{k-1}+f_{k}=n\) | \(F_{k}/n=1\) | \(\Finv_{k}=f_{k}\) | \(\Finv_{k}/n\) |
Total | - | \(n\) | 1 | - | - | - | - |
Para a classe genérica \(i\) são calculadas as seguintes frequências:
- \(f_{i}\): Frequência
- \(f_{r_{i}}\): Frequência relativa
- \(F_{i}\): Frequência acumulada
- \(F_{r_{i}}\): Frequência acumulada relativa
- \(\Finv_{i}\): Frequência acumulada inversa
- \(\Finv_{r_{i}}\): Frequência acumulada inversa relativa
Exemplo 2.12 (Número de filhos revisitado) Do Exemplo 2.4 observou-se a variável
\(X\): ‘número de filhos de mulheres atendidas em um hospital’.
A tabela de dados brutos a seguir mostra os dados na ordem em que foram observados. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique o número máximo de filhos observados na amostra a partir desta tabela.
\(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) |
---|---|---|---|---|---|---|---|---|---|
1 | 2 | 21 | 2 | 41 | 1 | 61 | 3 | 81 | 0 |
2 | 0 | 22 | 3 | 42 | 1 | 62 | 0 | 82 | 1 |
3 | 1 | 23 | 1 | 43 | 4 | 63 | 2 | 83 | 2 |
4 | 2 | 24 | 2 | 44 | 1 | 64 | 0 | 84 | 2 |
5 | 4 | 25 | 2 | 45 | 1 | 65 | 2 | 85 | 2 |
6 | 2 | 26 | 1 | 46 | 3 | 66 | 2 | 86 | 2 |
7 | 1 | 27 | 4 | 47 | 1 | 67 | 2 | 87 | 2 |
8 | 4 | 28 | 0 | 48 | 1 | 68 | 1 | 88 | 4 |
9 | 2 | 29 | 1 | 49 | 4 | 69 | 2 | 89 | 0 |
10 | 3 | 30 | 6 | 50 | 2 | 70 | 3 | 90 | 2 |
11 | 3 | 31 | 1 | 51 | 2 | 71 | 1 | 91 | 1 |
12 | 2 | 32 | 1 | 52 | 4 | 72 | 3 | 92 | 3 |
13 | 3 | 33 | 1 | 53 | 1 | 73 | 1 | 93 | 3 |
14 | 2 | 34 | 1 | 54 | 3 | 74 | 3 | 94 | 4 |
15 | 1 | 35 | 0 | 55 | 1 | 75 | 3 | 95 | 5 |
16 | 4 | 36 | 2 | 56 | 2 | 76 | 4 | 96 | 1 |
17 | 2 | 37 | 3 | 57 | 0 | 77 | 2 | 97 | 0 |
18 | 0 | 38 | 3 | 58 | 2 | 78 | 1 | 98 | 0 |
19 | 1 | 39 | 1 | 59 | 3 | 79 | 2 | 99 | 3 |
20 | 4 | 40 | 2 | 60 | 3 | 80 | 3 | 100 | 2 |
A tabela a seguir apresenta a distribuição de frequência do número de filhos. Com a apresentação neste formato, facilmente observa-se o máximo de 6 filhos na amostra, ao contrário da tabela de dados brutos. Perde-se apenas a ordem na qual os dados foram observados, o que em geral não é do interesse do pesquisador.
\(i\) | \(x_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 0 | 11 | \(11/100=0.11\) | 11 | \(11/100=0.11\) | \(89+11=100\) | \(100/100=1\) |
2 | 1 | 27 | \(27/100=0.27\) | \(11+27=38\) | \(38/100=0.38\) | \(62+27=89\) | \(89/100=0.89\) |
3 | 2 | 30 | \(30/100=0.30\) | \(38+30=68\) | \(68/100=0.68\) | \(32+30=62\) | \(62/100=0.62\) |
4 | 3 | 19 | \(19/100=0.19\) | \(68+19=87\) | \(87/100=0.87\) | \(13+19=32\) | \(32/100=0.32\) |
5 | 4 | 11 | \(11/100=0.11\) | \(87+11=98\) | \(98/100=0.98\) | \(2+11=13\) | \(13/100=0.13\) |
6 | 5 | 1 | \(1/100=0.01\) | \(98+1=99\) | \(99/100=0.99\) | \(1+1=2\) | \(2/100=0.02\) |
7 | 6 | 1 | \(1/100=0.01\) | \(99+1=100\) | \(100/100=1\) | 1 | \(1/100=0.01\) |
Total | - | 100 | 1 | - | - | - | - |
Note que a coluna \(i\) da Tabela de dados brutos indica a ordem da mulher entrevistada, enquanto na tabela resumida \(i\) indica a classe. Por exemplo, \(i=4\) indica a quarta mulher entrevistada, que no caso informou ter \(x_{4}=2\) filhos. Na Tabela resumida acima, \(i=4\) indica a quarta classe onde \(x_{4}=3\), i.e., a classe das mulheres que possuem 3 filhos.
As únicas colunas que exigem a leitura dos dados brutos são a da variável \(x_i\) e a da frequência \(f_i\); as demais são calculadas a partir de \(f_i\). A seguir estão alguns exemplos de interpretação das frequências apresentadas na Tabela acima.
- \(f_{5}=11\), i.e., 11 mulheres possuem 4 filhos
- \(f_{r_{5}}=0.11=11\%\), i.e., 11% das mulheres possuem 4 filhos
- \(F_{4}=87\), i.e., 87 mulheres possuem até 3 filhos (ou ‘de zero a 3 filhos’, mas isto é menos elegante)
- \(F_{r_{3}}=0.68=68\%\), i.e., 68% das mulheres possuem até 2 filhos
- \(\Finv_{3}=62\), i.e., 62 mulheres têm pelo menos 2 filhos
- \(\Finv_{r_{2}}=0.89=89\%\), i.e., 89% das mulheres têm pelo menos 1 filho
Exemplo 2.13 (Número de filhos R-visitado) Exemplo 2.12 utilizando R/RStudio.
h <- read.csv('https://filipezabala.com/data/hospital.csv')
dim(h) # Dimensão: 100 linhas por 2 colunas
## [1] 100 2
n <- nrow(h) # Número de linhas de h
head(h) # Apresenta as 6 primeiras linhas do objeto 'h'; teste tail(h, 10)
## children height
## 1 2 1.59
## 2 0 1.58
## 3 1 1.70
## 4 2 1.62
## 5 4 1.67
## 6 2 1.62
##
## 0 1 2 3 4 5 6
## 11 27 30 19 11 1 1
##
## 0 1 2 3 4 5 6
## 0.11 0.27 0.30 0.19 0.11 0.01 0.01
## 0 1 2 3 4 5 6
## 11 38 68 87 98 99 100
## 0 1 2 3 4 5 6
## 0.11 0.38 0.68 0.87 0.98 0.99 1.00
## 6 5 4 3 2 1 0
## 1 2 13 32 62 89 100
## 6 5 4 3 2 1 0
## 0.01 0.02 0.13 0.32 0.62 0.89 1.00
Exercício 2.5 Em uma fábrica retirou-se uma amostra de 50 peças de um lote de certo material e contou-se o número de defeitos em cada peça, apresentados na tabela a seguir.
\(i\) | # defeitos | \(f_i\) | \(fr_i\) | \(F_i\) | \(Fr_i\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 0 | 17 | |||||
2 | 1 | 10 | |||||
3 | 2 | ||||||
4 | 3 | 8 | |||||
5 | 4 | 5 | |||||
6 | 5 | 1 | |||||
Total | - | 50 |
- Classifique a variável ‘número de defeitos’.
- Qual a frequência absoluta da classe 3? Interprete o valor.
- Qual a frequência relativa da classe 3? Interprete o valor.
- Qual a frequência acumulada da classe 4? Interprete o valor.
- Qual a frequência acumulada relativa da classe 5? Interprete o valor.
Sugestão: Capítulo 8
2.2.3 Distr. de freq. contínua
Como regra de bolso, quando uma variável assume mais de 10 diferentes valores recomenda-se utilizar a distribuição de frequência contínua. A diferença para a distribuição discreta da Seção 2.2.2 é que na contínua distribuem-se os valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagem desta abordagem é a capacidade de apresentar os dados de maneira enxuta. O contraponto, como em qualquer resumo de dados, é a perda da informação original.
Intervalo e quantidade de classes
Apresentam-se a seguir três das principais regras para determinar o intervalo de classe (\(C\)) e a quantidade de classes (\(k\)) de uma série estatística com \(n\) itens.
1. Sturges
This formula (…) is based on the principle that the proper distribution into classes is given, for all numbers which are powers of 2, by a series of binomial coefficients. For example, 16 items would be divided normally into 5 classes, with class frequencies 1, 4, 6, 4, 1. (Sturges 1926, 65)
A partir do princípio supracitado, (Sturges 1926) sugere que o intervalo de classe seja calculado por \[\begin{equation} C_{St} = \frac{R}{k_{St}} = \frac{\max{X}-\min{X}}{1 + \log_{2}{n}} \approx \frac{\max{X}-\min{X}}{1 + 3.322 \log_{10}{n}}, \tag{2.1} \end{equation}\]
onde \(R\) é a amplitude descrita na Seção 2.4.1. O denominador é obtido a partir da expansão binomial, na forma \[\begin{equation} n = \sum_{i=0}^{k-1} {k-1 \choose i} = (1+1)^{k-1} = 2^{k-1}. \tag{2.2} \end{equation}\]
Da Equação (2.2) pode-se obter
\[\begin{equation} k_{St} = \left\lceil 1 + \log_{2}{n} \right\rceil \approx \left\lceil 1 + 3.322 \log_{10}{n} \right\rceil, \tag{2.3} \end{equation}\]
onde \(\left\lceil \;\; \right\rceil\) indica a função teto conforme Eq. (1.4). Alguns pacotes computacionais atribuem o número de classes aplicando regras que encontrem um valor ‘bonito’ para a divisão.
The most convenient class intervals are 1, 2, 5, 10, 20, etc., so that in practice the formula for the theoretical class interval may be used as a means of choosing among these convenient ones. In general the next smaller convenient class interval should be chosen, that is, the one next below the theoretically optimal interval. If the formula gives 9, 10 may be chosen, but if the formula indicates 7 or 8, the one actually used should generally be the next lower convenient class interval 5. (Sturges 1926, 65)
Exemplo 2.14 (Sturges) Se forem observados \(n=100\) valores com amplitude \(R=0.23\), o intervalo da classe sugerido por Sturges é \[C_{St} = \frac{0.23}{1 + \log_{2}{100}} = 0.02875,\] e a quantidade de classes \[k_{St} = \left\lceil 1 + \log_{2}{100} \right\rceil = \left\lceil 7.644 \right\rceil = 8.\]
n <- length(h$height) # n=100, número de dados a serem tabulados
R <- diff(range(h$height)) # Amplitude
ceiling(1 + log2(n)) # Pela Equação (2.3), usando log2
## [1] 8
## [1] 8
## [1] 8
## [1] 0.02875
## [1] 5 10
2. Scott
(Scott 1979) incorpora \(s\), o desvio padrão amostral conforme Eq. (2.35), ao cálculo do intervalo de classe. \[\begin{equation} C_{Sc} = \frac{3.49\,s}{\sqrt[3]{n}}. \tag{2.4} \end{equation}\]
O número de classes de Scott pode ser obtido por \[\begin{equation} k_{Sc} = \left\lceil \frac{R}{C_{Sc}} \right\rceil = \left\lceil \frac{\max{X} - \min{X}}{3.49\,s/\sqrt[3]{n}} \right\rceil. \tag{2.5} \end{equation}\]
Exemplo 2.15 (Scott) Se forem observados \(n=100\) valores com desvio padrão amostral \(s=0.045268559\), o intervalo de classe sugerido por Scott é \[C_{Sc} = \frac{3.49 \times 0.045268559}{\sqrt[3]{100}} \approx 0.03403732562.\] Se \(R=0.23\), a quantidade de classes é \[k_{Sc} =\left\lceil \frac{0.23}{0.03403732562} \right\rceil = \left\lceil 6.757288 \right\rceil = 7.\]
n <- length(h$height) # n=100, número de observações a serem tabuladas
R <- diff(range(h$height)) # Amplitude
s <- sd(h$height) # s=0.045268559, desvio padrão amostral
(CSc <- 3.49*s/n^(1/3)) # Pela Equação (2.4)
## [1] 0.03403732562
## [1] 7
## [1] 7
## [1] 5 10
3. Freedman-Diaconis
Rule: Choose the cell width as twice the interquartile range of the data, divided by the cube root of the sample size. (Freedman and Diaconis 1981, 454)
(Freedman and Diaconis 1981) inserem \(IQR\), a amplitude interquartílica conforme Eq. (2.38), no cálculo do intervalo de classe. \[\begin{equation} C_{FD} = \frac{2\,IQR}{\sqrt[3]{n}}, \tag{2.6} \end{equation}\]
O número de classes obtido como consequência da aplicação da relação de Freedman-Diaconis é \[\begin{equation} k_{FD} = \left\lceil \dfrac{R}{C_{FD}} \right\rceil = \left\lceil \frac{\max{X} - \min{X}}{2\,IQR/\sqrt[3]{n}} \right\rceil. \tag{2.7} \end{equation}\]
Exemplo 2.16 (Freedman-Diaconis) Se forem observados \(n=100\) valores com amplitude interquartílica de \(IQR=0.0525\), o intervalo de classe sugerido por Freedman-Diaconis é \[C_{FD} = \dfrac{2 \times 0.0525}{\sqrt[3]{100}} \approx 0.02262156425.\] Se \(R=0.23\), a quantidade de classes é \[k_{FD} = \left\lceil \dfrac{0.23}{0.02262156425} \right\rceil = \left\lceil 10.16729 \right\rceil = 11.\]
n <- length(h$height) # n=100, número de observações a serem tabuladas
R <- diff(range(h$height)) # Amplitude
(Q <- quantile(h$height, c(1/4,3/4))) # Primeiro e terceiro quartis
## 25% 75%
## 1.5975 1.6500
## [1] 0.0525
## [1] 0.02262156425
## [1] 11
## [1] 11
## [1] 10 20
(Hyndman 1995) argumenta que as regras de Scott e Freedman-Diaconis são tão simples quanto a regra de Sturges, mas melhor fundamentadas na teoria estatística. Além disso, a regra de Sturges funciona bem para tamanhos de amostra moderados (\(n < 200\)), mas não para valores grandes de \(n\).
Exemplo 2.17 (Comparando os três métodos) Foi realizada uma simulação com tamanhos de amostra \(n=10^{i}\), \(i \in \{1, 2, \ldots, 6 \}\), indicando o número de classes sugerido por cada método.
NC <- function(x) c(i = i, n = 10^i, # Quantidades simuladas
Sturges = nclass.Sturges(x), # Sturges (1926)
Scott = nclass.scott(x), # Scott (1979)
FD = nclass.FD(x)) # Freedman-Diaconis (1981)
for(i in 1:6){set.seed(i); print(NC(rnorm(10^i)))} # Pode ser demorado para i>6
## i n Sturges Scott FD
## 1 10 5 2 3
## i n Sturges Scott FD
## 2 100 8 6 7
## i n Sturges Scott FD
## 3 1000 11 19 25
## i n Sturges Scott FD
## 4 10000 15 44 56
## i n Sturges Scott FD
## 5 100000 18 112 145
## i n Sturges Scott FD
## 6 1000000 21 278 360
Exemplo 2.18 (Alturas de mulheres) Seja a variável
\(Y\): ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019’.
A tabela abaixo apresenta os dados brutos. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique quantas mulheres têm altura entre 1.70m e 1.75m a partir desta tabela.
\(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) |
---|---|---|---|---|---|---|---|
1 | 1.59 | 26 | 1.61 | 51 | 1.64 | 76 | 1.62 |
2 | 1.58 | 27 | 1.61 | 52 | 1.57 | 77 | 1.54 |
3 | 1.70 | 28 | 1.60 | 53 | 1.65 | 78 | 1.64 |
4 | 1.62 | 29 | 1.61 | 54 | 1.69 | 79 | 1.66 |
5 | 1.67 | 30 | 1.64 | 55 | 1.65 | 80 | 1.56 |
6 | 1.62 | 31 | 1.59 | 56 | 1.62 | 81 | 1.64 |
7 | 1.69 | 32 | 1.60 | 57 | 1.68 | 82 | 1.60 |
8 | 1.60 | 33 | 1.62 | 58 | 1.60 | 83 | 1.68 |
9 | 1.61 | 34 | 1.53 | 59 | 1.68 | 84 | 1.65 |
10 | 1.58 | 35 | 1.58 | 60 | 1.59 | 85 | 1.65 |
11 | 1.64 | 36 | 1.60 | 61 | 1.70 | 86 | 1.64 |
12 | 1.72 | 37 | 1.61 | 62 | 1.65 | 87 | 1.55 |
13 | 1.74 | 38 | 1.67 | 63 | 1.51 | 88 | 1.66 |
14 | 1.63 | 39 | 1.68 | 64 | 1.66 | 89 | 1.59 |
15 | 1.64 | 40 | 1.56 | 65 | 1.52 | 90 | 1.66 |
16 | 1.63 | 41 | 1.58 | 66 | 1.60 | 91 | 1.69 |
17 | 1.59 | 42 | 1.66 | 67 | 1.62 | 92 | 1.61 |
18 | 1.64 | 43 | 1.59 | 68 | 1.68 | 93 | 1.58 |
19 | 1.59 | 44 | 1.67 | 69 | 1.65 | 94 | 1.73 |
20 | 1.65 | 45 | 1.62 | 70 | 1.61 | 95 | 1.56 |
21 | 1.63 | 46 | 1.55 | 71 | 1.56 | 96 | 1.59 |
22 | 1.64 | 47 | 1.64 | 72 | 1.65 | 97 | 1.65 |
23 | 1.64 | 48 | 1.62 | 73 | 1.62 | 98 | 1.63 |
24 | 1.62 | 49 | 1.65 | 74 | 1.63 | 99 | 1.70 |
25 | 1.66 | 50 | 1.66 | 75 | 1.57 | 100 | 1.60 |
Para colocar estes valores em uma tabela de frequência, obteve-se \(k_{St}=8\) pela regra de Sturges, e pelo resultado de pretty(8)
decidiu-se por 5 classes. Como exercício, obtenha \(k_{Sc}\) e \(k_{FD}\).
A tabela a seguir apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda algumas frequências que auxiliam o entendimento da distribuição. Facilmente observam-se 6 mulheres com altura entre 1.70m e 1.75m,11 ao contrário da tabela de dados brutos. Note, porém, que não é possível saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica em perda de informação, cabendo ao pesquisador decidir quando e como resumir os dados.
\(i\) | \(y_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 1.50 \(\vdash\) 1.55 | 4 | 0.04 | 4 | 0.04 | \(96+4=100\) | \(100/100=1\) |
2 | 1.55 \(\vdash\) 1.60 | 21 | 0.21 | \(4+21=25\) | 0.25 | \(75+21=96\) | \(96/100=0.96\) |
3 | 1.60 \(\vdash\) 1.65 | 41 | 0.41 | \(25+41=66\) | 0.66 | \(34+41=75\) | \(75/100=0.75\) |
4 | 1.65 \(\vdash\) 1.70 | 28 | 0.28 | \(66+28=94\) | 0.94 | \(6+28=34\) | \(34/100=0.34\) |
5 | 1.70 \(\vdash\) 1.75 | 6 | 0.06 | \(94+6=100\) | 1 | 6 | \(6/100=0.06\) |
Total | - | 100 | 1 | - | - | - | - |
A seguir estão alguns exemplos de interpretação das frequências apresentadas na tabela acima.
- \(f_{5}=6\), i.e., 6 mulheres têm entre 1.70m e 1.75m de altura
- \(f_{r_{5}}=0.06=6\%\), i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura
- \(F_{4}=94\), i.e., 94 mulheres têm até 1.70m de altura, ou de 1.50m a 1.70m
- \(F_{r_{2}}=0.25=25\%\), i.e., 25% das mulheres tem até 1.60m de altura, ou de 1.50m a 1.60m
- \(\Finv_{3}=75\), i.e., 75 mulheres têm pelo menos 1.60m de altura
- \(\Finv_{r_{4}}=0.34=34\%\), i.e., 34% das mulheres tem pelo menos 1.65m de altura
\(\\\)
Exercício 2.6 Considerando os dados do Exemplo 2.18, obtenha \(k_{Sc}\) e \(k_{FD}\).
Exemplo 2.19 (Alturas de mulheres R-visitado) Exemplo 2.18 utilizando R/RStudio.
h <- read.csv('https://filipezabala.com/data/hospital.csv')
dim(h) # Dimensão: 100 linhas por 2 colunas
## [1] 100 2
n <- nrow(h) # Número de linhas
head(h) # Apresenta as 6 primeiras linhas do objeto 'h'; teste tail(h, 10)
## children height
## 1 2 1.59
## 2 0 1.58
## 3 1 1.70
## 4 2 1.62
## 5 4 1.67
## 6 2 1.62
## [1] 5 10
## [1] 1.50 1.55 1.60 1.65 1.70 1.75
## [1] 4 21 41 28 6
## [1] 4 25 66 94 100
## [1] 0.04 0.25 0.66 0.94 1.00
## [1] 6 34 75 96 100
## [1] 0.06 0.34 0.75 0.96 1.00
Exercício 2.7 Considerando o Exemplo 2.19, indique:
- O que ocorre ao se utilizar
right = FALSE
? Qual a diferença pararight = TRUE
?
- Que algoritmo está sendo utilizado no cálculo de
h$breaks
? Como é possível alterar esta apresentação?
\(\\\)
2.2.4 Distr. de freq. bivariada
Em muitas situações práticas há interesse em avaliar a associação de atributos. A tabela de contingência tem essa finalidade. A simbologia 1 e 0 indica respectivamente a presença e ausência das características \(X\) e \(Y\).
\(Y=1\) | \(Y=0\) | Total | |
---|---|---|---|
\(X=1\) | \(n_{11}\) | \(n_{10}\) | \(n_{1\cdot}\) |
\(X=0\) | \(n_{01}\) | \(n_{00}\) | \(n_{0\cdot}\) |
Total | \(n_{\cdot 1}\) | \(n_{\cdot 0}\) | \(n\) |
2.2.4.1 Razão de Chances (Odds Ratio - OR)
A razão de chances é uma medida utilizada para avaliar o quanto um atributo pode influenciar em outro. Pode ser escrita em função de \(n_{ij}\), \(i,j=0,1\) conforme Equação (2.8) ou \(\hat{\pi}_{ij} = \dfrac{n_{ij}}{n}\) conforme Eq. (2.9).
\[\begin{equation} OR = \frac{n_{11}/n_{10}}{n_{01}/n_{00}} = \frac{n_{11} n_{00}}{n_{10} n_{01}} \tag{2.8} \end{equation}\]
\[\begin{equation} OR = \frac{\hat{\pi}_{11}/\hat{\pi}_{10}}{\hat{\pi}_{01}/\hat{\pi}_{00}} = \frac{\hat{\pi}_{11} \hat{\pi}_{00}}{\hat{\pi}_{10} \hat{\pi}_{01}} \tag{2.9} \end{equation}\]
Exemplo 2.20 (Odds Ratio) Suponha um estudo da relação entre os atributos \(X\): ‘fumante’ e \(Y\): ‘tem câncer’, conforme tabela a seguir onde \(X=1\) indica o paciente fumante e \(Y=1\) se o paciente desenvolveu câncer.
\(Y=1\) | \(Y=0\) | Total | |
---|---|---|---|
\(X=1\) | 90 | 10 | 100 |
\(X=0\) | 70 | 30 | 100 |
Total | 160 | 40 | 200 |
Pela Equação (2.8),
\[OR = \frac{90/10}{70/30} = \frac{90 \times 30}{10 \times 70} \approx 3.86\]
Com este valor estima-se que pacientes que fumam possuem 3.86 vezes a chance (ou \(3.86-1=2.86\) vezes mais chance) de desenvolver câncer em relação aos pacientes que não fumam. Refaça o exemplo invertendo os rótulos 0 e 1.
tab.bi <- matrix(c(90,10,70,30), nrow = 2, byrow = TRUE)
(OR <- (tab.bi[1,1]/tab.bi[1,2])/(tab.bi[2,1]/tab.bi[2,2])) # Equação (2.8)
## [1] 3.857142857
2.2.4.2 Risco Relativo (Relative Risk - RR)
Risco relativo é uma medida baseada em taxas de incidência entre os grupos exposto (\(X=1\)) e não exposto (\(X=0\)) ao fator de risco em estudo. É obtido pelo quociente entre as estimativas da taxa de incidência do grupo exposto (\(\hat{\gamma}_{1}\)) e da taxa de incidência do grupo não exposto (\(\hat{\gamma}_{0}\)) conforme Eq. (2.10).
\[\begin{equation} RR = \frac{\hat{\gamma}_{1}}{\hat{\gamma}_{0}} = \frac{n_{11}/n_{1 \cdot}}{n_{01}/n_{0 \cdot}} \tag{2.10} \end{equation}\]
Exemplo 2.21 (Risco Relativo) Suponha novamente os dados do Exemplo 2.20. Pela Eq. @ref(eq:rr_n),
\[RR = \dfrac{90/100}{70/100} \approx 1.29\]
Com este valor estima-se que o grupo que não usa celular é aprovado em 29% mais casos em comparação ao grupo do Whats e Face.
tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T)
(RR <- (tab.bi[1,1]/sum(tab.bi[1,]))/(tab.bi[2,1]/sum(tab.bi[2,])) ) # Equação (2.10)
## [1] 1.285714286
2.2.4.3 Independência
A tabela de contingência bivariada permite avaliar a independência entre dois atributos, indicando a ausência de relação, simbolizada por \(X \perp\!\!\!\perp Y\). Se não existe tal relação, é esperado encontrar a mesma proporção de portadores da característica \(X\) entre os portadores e não portadores de \(Y\). Assim, se \(X\) e \(Y\) são independentes, a proporção de sujeitos que apresentam simultaneamente as características \(X\) e \(Y\) é igual à proporção dos \(X\) multiplicada pela proporção dos \(Y\), sob qualquer uma das formas:
\[\left\{ \begin{array}{l} \frac{n_{11}}{n_{\cdot 1}} = \frac{n_{1\cdot}}{n} \\ \\ \frac{n_{11}}{n_{1\cdot}} = \frac{n_{\cdot 1}}{n} \\ \\ n_{11} = \frac{n_{1\cdot} n_{\cdot 1}}{n} \\ \\ \frac{n_{11}}{n} = \left( \frac{n_{1\cdot}}{n} \right) \left( \frac{n_{\cdot 1}}{n} \right) \\ \end{array} \right. \]
Exemplo 2.22 (Independência 1) Se há 578 sujeitos portadores do atributo \(X\) e 216 portadores de \(Y\) em 1156 observações, espera-se que existam \[ \dfrac{n_{1\cdot} n_{\cdot 1}}{n} = \dfrac{578 \times 216}{1156} = 108 \] sujeitos portadores de \(X\) e \(Y\) se \(X \perp\!\!\!\perp Y\).
Exemplo 2.23 (Independência 2) Se existem 15% de sujeitos \(X\) e 80% de \(Y\), espera-se que existam \[ \left( \dfrac{n_{1\cdot}}{n} \right) \left( \dfrac{n_{\cdot 1}}{n} \right) = \left( \dfrac{15}{100} \right) \left( \dfrac{80}{100} \right) = 12\% \] de sujeitos \(X\) e \(Y\) se \(X \perp\!\!\!\perp Y\).
Exemplo 2.24 (Independência 3) Se \(OR = 1\), então \(X \perp\!\!\!\perp Y\).
Referências
Note que a simbologia 1.70 \(\vdash\) 1.75 indica a inclusão de 1.70 e a exclusão de 1.75, i.e., este é um intervalo fechado à esquerda e aberto à direita. Equivale às notações \(\left[ 1.70, 1.75 \right[\) (mais moderna) ou \(\left[ 1.70, 1.75 \right)\) (mais antiga).↩︎