Capítulo 2 Estatística Descritiva
A Estatística Descritiva está diretamente ligada à organização e descrição dos dados. É utilizada para avaliar como as observações se distribuem, onde estão posicionadas e como se apresentam em termos de dispersão e associação. Neste capítulo serão introduzidos conceitos e métodos descritivos, ponto de partida da análise exploratória de dados, passo fundamental para análises estatísticas mais avançadas.
2.1 Variáveis
Variável é uma característica medida nos universos ou amostras. As variáveis qualitativas ou atributos avaliam características não numéricas no conjunto de interesse, como gênereo, time de futebol e nível de escolaridade. As variáveis quantitativas medem características numéricas, como número de alunos prestando atenção ou tempo de uma música em segundos. Podem ser classificadas conforme a Figura a seguir.
2.1.1 Variável qualitativa nominal
Variáveis qualitativas nominais possuem o menor grau de informação dentre os quatro tipos propostos, permitindo apenas a avaliação de frequências e ordenações arbitrárias. Aplicam-se em avaliações de grupos não ordenados, tais como ‘gênero,’ ‘religião,’ ‘raça,’ ‘cor preferida,’ ‘bairro onde reside,’ ‘time de futebol do coração,’ etc.
Exemplo 2.1 (Time de futebol do coração) Suponha um lugar onde tudo seja tratado de maneira dicotômica. Como exercício, no primeiro dia de aula de Estatística as pessoas são questionadas quanto ao ‘time de futebol do coração’ através do voto secreto em uma cédula, onde estão listados os dois times locais. Não existe informação prévia que obrigue a dispor na listagem qualquer time antes ou depois de outro. Por este motivo optou-se pela ordenação alfabética – apesar do princípio de tumulto –, resultando na lista
Os mais tradicionalistas gritavam palavras de ordem, preferindo a grafia
2.1.2 Variável qualitativa ordinal
Variáveis qualitativas ordinais possuem grau de informação maior em relação às nominais pois são dotadas de uma ordenação prévia, permitindo comparações entre as observações. As variáveis de natureza ordinal são utilizadas quando avaliam-se medidas tais como ‘colocação em um torneio esportivo,’ ‘grau de escolaridade,’ ‘classificação de um restaurante quanto à qualidade da comida,’ etc.
2.1.3 Variável quantitativa discreta
Uma variável quantitativa discreta assume apenas valores inteiros, i.e., discretos. Tecnicamente as variáveis discretas são caracterizadas por conjuntos enumeráveis10 finitos ou infinitos.
2.1.4 Variável quantitativa contínua
A classe de variáveis quantitativas contínuas é caracterizada por permitir a observação de qualquer subconjunto dos números reais como resultado, i.e., permite resultados não inteiros. É utilizada para avaliar tempo, distâncias, áreas, volumes ou qualquer outra grandeza numérica de caráter não enumerável12. Tal como nas variáveis discretas, é possível avaliar relações matemáticas entre os valores observados.
Exemplo 2.11 (Descendo o nível) Suponha que um grupo de pessoas foi avaliado em relação à variável ‘idade’ medida em anos, considerando-se a hora e minuto do nascimento. É possível transformá-la na variável ‘idade discreta’ simplesmente truncando os valores observados. Da mesma forma, pode-se tranformá-la na variável ‘idade ordinal,’ classificando-a de acordo com a tabela a seguir.
i | Faixa etária | Classificação |
---|---|---|
1 | Até 10 anos | Criança |
2 | 10 \(\vdash\) 13 | Pré-adolescente |
3 | 13 \(\vdash\) 18 | Adolescente |
4 | 18 \(\vdash\) 35 | Adulto jovem |
5 | 35 \(\vdash\) 45 | Adulto |
6 | 45 \(\vdash\) 65 | Adulto maduro |
7 | 65 \(\vdash\) 75 | Idoso jovem |
8 | 75 + | Idoso |
Cada tipo de variável apresenta um nível de informação que deve ser respeitado. É possível ir de um nível maior de classificação para um nível menor, mas jamais ao contrário. É válido lembrar que perde-se informação ao descer o nível de classificação da variável. É bastante comum, porém, encontrar trabalhos utilizando níveis de classificação inapropriados, conduzindo a técnicas não adequadas que implicam em conclusões equivocadas.
Exercício 2.1 Classifique as variáveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contínua).
- Número de geladeiras em casa
- Temperaturas da água da piscina em um dia de verão
- Número de suicídios em uma cidade no decorrer do ano passado
- Concentração de chumbo em uma amostra de água
- Lista de editoras de livros
- Grau de satisfação dos clientes que frequentam uma rinha de galo
- Marcas de amaciantes para roupas
- Tempo que um paciente sobrevive após determinado diagnóstico
- Participação de mercado (market share)
- Classificação em uma corrida de banheiras
- Tempo final de cada corredor
- Lista dos nomes das banheiras participantes, tal como ‘Dick Vigarista’ e ‘Trollface’
- Distância de Estambul ao Rio de Janeiro
2.2 Distribuição de Frequência
2.2.1 Dados brutos, Rol e Estatísticas de Ordem
Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que aparecem. Esta lista de dados não ordenada é conhecida como lista de dados brutos. Quando ordenam-se estes dados – em ordem crescente ou decrescente – obtém-se um rol, dando origem às estatísticas de ordem. Em uma distribuição de \(n\) elementos \(x_{1}\), \(x_{2}\), \(\ldots\), \(x_{n}\) observados sequencialmente, denotam-se os dados ordenados de forma crescente por \(x_{(1)}\), \(x_{(2)}\), \(\ldots\), \(x_{(n)}\) e, analogamente, \(x_{(n)}\), \(x_{(n-1)}\), \(\ldots\), \(x_{(1)}\) para a ordenação decrescente.
Exemplo 2.12 (Rol) Se ordenarmos os dados observados da variável \(X\):‘número de passos até a lixiera mais próxima,’ obtemos o rol conforme tabela a seguir. O menor número de passos caminhados foi sete, representado por \(x_{(1)}=7\), e o maior foi quatrocentos e dois, representado por \(x_{(6)}=402\).
\(x_{(1)}\) | \(x_{(2)}\) | \(x_{(3)}\) | \(x_{(4)}\) | \(x_{(5)}\) | \(x_{(6)}\) |
---|---|---|---|---|---|
7 | 20 | 124 | 186 | 191 | 402 |
<- c(186,402,191,20,7,124)) # Criando e apresentando o vetor original de dados brutos (x
## [1] 186 402 191 20 7 124
sort(x) # Apresentando o rol, ou vetor ordenado. Teste ?order
## [1] 7 20 124 186 191 402
sort(x, decreasing = T) # Ordem decrescente, onde T indica TRUE (padrão: FALSE)
## [1] 402 191 186 124 20 7
Em um primeiro momento estas definições podem parecer ultrapassadas, mas são de grande importância na construção de métodos avançados de análise de dados. Como atualmente trabalham-se com bases de dados em formato eletrônico, em geral é fácil realizar a ordenação de grandes volumes de dados. É importante ressaltar, porém, que em certos casos é necessário muito poder de processamento para executar tais ordenações, podendo se tornarem impraticáveis pelo alto custo computacional.
Exercício 2.2 Considere o conjunto de dados \(10,-4,5,7,1,3,9\).
- Obtenha o rol.
- Indique e interprete \(x_{(4)}\).
Exercício 2.3 Utilizando a função sort
, encontre o rol das colunas filhos
e altura
disponíveis em http://filipezabala.com/data/hospital.txt.
2.2.2 Tabela de frequência univariada discreta
Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a tabela de frequência univariada discreta é uma boa maneira de consolidar os dados de uma variável que assuma, como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna descrevendo a variável de interesse e uma coluna com a frequência (da classe), i.e., o número de observações contempladas em cada categoria. Sugere-se também a apresentação de uma coluna indicando a classe, denotada por \(i\) conforme Tabela a seguir.
\(i\) | \(x_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | \(x_{1}\) | \(f_{1}\) | \(f_{1}/n\) | \(F_{1}=f_{1}\) | \(F_{1}/n\) | \(\Finv_{1}=\Finv_{2}+f_{1}=n\) | \(\Finv_{1}/n=1\) |
2 | \(x_{2}\) | \(f_{2}\) | \(f_{2}/n\) | \(F_{2}=F_{1}+f_{2}\) | \(F_{2}/n\) | \(\Finv_{2}=\Finv_{3}+f_{2}\) | \(\Finv_{2}/n\) |
3 | \(x_{3}\) | \(f_{3}\) | \(f_{3}/n\) | \(F_{3}=F_{2}+f_{3}\) | \(F_{3}/n\) | \(\Finv_{3}=\Finv_{4}+f_{3}\) | \(\Finv_{3}/n\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(k-2\) | \(x_{k-2}\) | \(f_{k-2}\) | \(f_{k-2}/n\) | \(F_{k-2}=F_{k-3}+f_{k-2}\) | \(F_{k-2}/n\) | \(\Finv_{k-2}=\Finv_{k-1}+f_{k-2}\) | \(\Finv_{k-2}/n\) |
\(k-1\) | \(x_{k-1}\) | \(f_{k-1}\) | \(f_{k-1}/n\) | \(F_{k-1}=F_{k-2}+f_{k-1}\) | \(F_{k-1}/n\) | \(\Finv_{k-1}=\Finv_{k}+f_{k-1}\) | \(\Finv_{k-1}/n\) |
\(k\) | \(x_{k}\) | \(f_{k}\) | \(f_{k}/n\) | \(F_{k}=F_{k-1}+f_{k}=n\) | \(F_{k}/n=1\) | \(\Finv_{k}=f_{k}\) | \(\Finv_{k}/n\) |
Total | - | \(n\) | 1 | - | - | - | - |
Para a classe genérica \(i\) são calculadas as seguintes frequências:
- \(f_{i}\): Frequência (simples/absoluta)
- \(f_{r_{i}}\): Frequência relativa
- \(F_{i}\): Frequência acumulada
- \(F_{r_{i}}\): Frequência acumulada relativa
- \(\Finv_{i}\): Frequência acumulada inversa
- \(\Finv_{r_{i}}\): Frequência acumulada inversa relativa
Exemplo 2.13 (Número de filhos revisitado) Do Exemplo 2.5 observou-se a variável
\(X\): ‘número de filhos de mulheres atendidas em um hospital de Porto Alegre em 2019.’
A Tabela a seguir apresenta os dados na ordem em que foram observados. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique o número máximo de filhos observados na amostra.
\(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) | \(i\) | \(x_{i}\) |
---|---|---|---|---|---|---|---|---|---|
1 | 2 | 21 | 2 | 41 | 1 | 61 | 3 | 81 | 0 |
2 | 0 | 22 | 3 | 42 | 1 | 62 | 0 | 82 | 1 |
3 | 1 | 23 | 1 | 43 | 4 | 63 | 2 | 83 | 2 |
4 | 2 | 24 | 2 | 44 | 1 | 64 | 0 | 84 | 2 |
5 | 4 | 25 | 2 | 45 | 1 | 65 | 2 | 85 | 2 |
6 | 2 | 26 | 1 | 46 | 3 | 66 | 2 | 86 | 2 |
7 | 1 | 27 | 4 | 47 | 1 | 67 | 2 | 87 | 2 |
8 | 4 | 28 | 0 | 48 | 1 | 68 | 1 | 88 | 4 |
9 | 2 | 29 | 1 | 49 | 4 | 69 | 2 | 89 | 0 |
10 | 3 | 30 | 6 | 50 | 2 | 70 | 3 | 90 | 2 |
11 | 3 | 31 | 1 | 51 | 2 | 71 | 1 | 91 | 1 |
12 | 2 | 32 | 1 | 52 | 4 | 72 | 3 | 92 | 3 |
13 | 3 | 33 | 1 | 53 | 1 | 73 | 1 | 93 | 3 |
14 | 2 | 34 | 1 | 54 | 3 | 74 | 3 | 94 | 4 |
15 | 1 | 35 | 0 | 55 | 1 | 75 | 3 | 95 | 5 |
16 | 4 | 36 | 2 | 56 | 2 | 76 | 4 | 96 | 1 |
17 | 2 | 37 | 3 | 57 | 0 | 77 | 2 | 97 | 0 |
18 | 0 | 38 | 3 | 58 | 2 | 78 | 1 | 98 | 0 |
19 | 1 | 39 | 1 | 59 | 3 | 79 | 2 | 99 | 3 |
20 | 4 | 40 | 2 | 60 | 3 | 80 | 3 | 100 | 2 |
A Tabela a seguir apresenta o número de filhos ordenados, fornecendo ainda algumas frequências que auxiliam o entendimento da distribuição. Com a apresentação neste formato, facilmente observa-se o máximo de 6 filhos na amostra, ao contrário da tabela de dados brutos. Perde-se apenas a ordem na qual os dados foram observados, o que em geral não é do interesse do pesquisador.
\(i\) | \(x_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 0 | 11 | \(11/100=0.11\) | 11 | \(11/100=0.11\) | \(89+11=100\) | \(100/100=1\) |
2 | 1 | 27 | \(27/100=0.27\) | \(11+27=38\) | \(38/100=0.38\) | \(62+27=89\) | \(89/100=0.89\) |
3 | 2 | 30 | \(30/100=0.30\) | \(38+30=68\) | \(68/100=0.68\) | \(32+30=62\) | \(62/100=0.62\) |
4 | 3 | 19 | \(19/100=0.19\) | \(68+19=87\) | \(87/100=0.87\) | \(13+19=32\) | \(32/100=0.32\) |
5 | 4 | 11 | \(11/100=0.11\) | \(87+11=98\) | \(98/100=0.98\) | \(2+11=13\) | \(13/100=0.13\) |
6 | 5 | 1 | \(1/100=0.01\) | \(98+1=99\) | \(99/100=0.99\) | \(1+1=2\) | \(2/100=0.02\) |
7 | 6 | 1 | \(1/100=0.01\) | \(99+1=100\) | \(100/100=1\) | 1 | \(1/100=0.01\) |
Total | - | 100 | 1 | - | - | - | - |
Note que a coluna \(i\) da Tabela acima indica a ordem da mulher entrevistada, enquanto na Tabela de dados brutos \(i\) indica a classe. Por exemplo, \(i=4\) indica a quarta mulher entrevistada, que no caso informou ter \(x_{4}=2\) filhos. Na Tabela acima, \(i=4\) indica a quarta classe onde \(x_{4}=3\), i.e., a classe das mulheres que possuem 3 filhos.
As únicas colunas que exigem a leitura dos dados brutos são a da variável \(x_i\) e a da frequência \(f_i\); as demais são calculadas a partir de \(f_i\). A seguir estão alguns exemplos de interpretação das frequências apresentadas na Tabela acima.
- \(f_{5}=11\), i.e., 11 mulheres possuem 4 filhos
- \(f_{r_{5}}=0.11=11\%\), i.e., 11% das mulheres possuem 4 filhos
- \(F_{4}=87\), i.e., 87 mulheres possuem até 3 filhos (ou ‘de zero a 3 filhos,’ mas esta alternativa é menos elegante)
- \(F_{r_{3}}=0.68=68\%\), i.e., 68% das mulheres possuem até 2 filhos
- \(\Finv_{3}=62\), i.e., 62 mulheres têm pelo menos 2 filhos
- \(\Finv_{r_{2}}=0.89=89\%\), i.e., 89% das mulheres têm pelo menos 1 filho
<- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)
hosp dim(hosp) # Dimensão: 100 linhas por 2 colunas
## [1] 100 2
head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)
## filhos altura
## 1 2 1.59
## 2 0 1.58
## 3 1 1.70
## 4 2 1.62
## 5 4 1.67
## 6 2 1.62
attach(hosp, warn=F) # Para deixar as colunas de 'hosp' disponíveis
<- table(filhos)) # Frequência (simples/absoluta) (tab
## filhos
## 0 1 2 3 4 5 6
## 11 27 30 19 11 1 1
prop.table(tab) # Frequência relativa
## filhos
## 0 1 2 3 4 5 6
## 0.11 0.27 0.30 0.19 0.11 0.01 0.01
cumsum(tab) # Frequência acumulada
## 0 1 2 3 4 5 6
## 11 38 68 87 98 99 100
round(cumsum(tab)/length(filhos),2) # Frequência acumulada relativa
## 0 1 2 3 4 5 6
## 0.11 0.38 0.68 0.87 0.98 0.99 1.00
cumsum(rev(tab)) # Frequência acumulada inversa
## 6 5 4 3 2 1 0
## 1 2 13 32 62 89 100
round(cumsum(rev(tab))/length(filhos),2) # Frequência acumulada inversa relativa
## 6 5 4 3 2 1 0
## 0.01 0.02 0.13 0.32 0.62 0.89 1.00
Exercício 2.4 Em uma fábrica retirou-se uma amostra de 50 peças de um lote de certo material e contou-se o número de defeitos em cada peça, apresentados na tabela a seguir.
\(i\) | # defeitos | \(f_i\) | \(fr_i\) | \(F_i\) | \(Fr_i\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 0 | 17 | |||||
2 | 1 | 10 | |||||
3 | 2 | ||||||
4 | 3 | 8 | |||||
5 | 4 | 5 | |||||
6 | 5 | 1 | |||||
Total | - | 50 |
- Classifique a variável ‘número de defeitos.’
- Qual a frequência absoluta da classe 3? Interprete.
- Qual a frequência relativa da classe 3? Interprete.
- Qual a frequência acumulada da classe 4? Interprete.
- Qual a frequência acumulada relativa da classe 5? Interprete.
- Represente os dados utilizando o gráfico que você considerar mais adequado.
2.2.3 Tabela de frequência univariada contínua
Quando uma variável assume mais de 10 diferentes valores, recomenda-se utilizar a tabela de frequência univariada contínua. A diferença para a tabela discreta da Seção 2.2.2 é que na contínua distribuem-se os valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagem desta abordagem é a capacidade de apresentar os dados de maneira enxuta. O contraponto, como em qualquer resumo de dados, é a perda da informação original.
Amplitude (\(h\)) e quantidade (\(k\)) de classes
Quando deseja-se apresentar a variável em intervalos de classe, é necessário determinar a amplitude do intervalo de classe (\(h\)) e a quantidade de classes (\(k\)) em que serão dispostos os dados. Apresentam-se a seguir três das principais regras para determinar \(h\) e \(k\).
1. Sturges
(Sturges 1926) sugere que a amplitude do intervalo de classe seja calculada por \[\begin{equation} h_{St} = \frac{A}{k_{St}} = \frac{\max{X}-\min{X}}{1 + \log_{2}{n}} \approx \frac{\max{X}-\min{X}}{1 + 3.322 \log_{10}{n}}, \tag{2.1} \end{equation}\]
onde \(A\) é a amplitude (dos dados) descrita na Seção 2.4.1, não devendo ser confundida com \(h\). O denominador é obtido a partir da expansão binomial, na forma \[\begin{equation} n = \sum_{i=0}^{k-1} {k-1 \choose i} = (1+1)^{k-1} = 2^{k-1}. \tag{2.2} \end{equation}\]
Da Equação (2.2) pode-se obter
\[\begin{equation} k_{St} = \left\lceil 1 + \log_{2}{n} \right\rceil = \left\lceil 1 + 3.322 \log_{10}{n} \right\rceil, \tag{2.3} \end{equation}\]
onde \(\left\lceil \;\; \right\rceil\) indica a função teto, o menor inteiro consecutivo denotado por \(\left\lceil x \right\rceil = min \{ n \in \mathbb{N} | n \ge x \}\). Alguns pacotes computacionais atribuem o número de classes aplicando regras que encontrem um valor ‘bonito’ para a divisão. Tais valores são obtidos computando números que sejam 0, 1, 2 ou 5 vezes uma potência de 10, i.e., \(a \times 10^b\), \(a \in \{0,1,2,5\}\) e \(b \in \mathbb{N} \cup \{-1\}\).
<- length(altura) # n=100, número de dados a serem tabulados
n <- diff(range(altura)) # Amplitude (dos dados, não da classe!)
A ceiling(1 + log2(n)) # Pela Equação (2.3), usando log2
## [1] 8
ceiling(1 + 3.322*log10(n)) # Pela Equação (2.3), usando log10
## [1] 8
<- nclass.Sturges(altura)) # Pela função 'nclass.Sturges' (kSt
## [1] 8
<- A/kSt) # Pela Equação (2.1) (hSt
## [1] 0.02875
pretty(kSt) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)
## [1] 5 10
2. Scott
(Scott 1979) incorpora \(s\), o desvio padrão amostral ao cálculo da amplitude do intervalo, na forma \[\begin{equation} h_{Sc} = \dfrac{3.5s}{n^{1/3}}. \tag{2.4} \end{equation}\]
O número de classes de Scott pode ser obtido por \[\begin{equation} k_{Sc} = \left\lceil \dfrac{A}{h_{Sc}} \right\rceil = \left\lceil \dfrac{max{X} - min{X}}{3.5sn^{-1/3}} \right\rceil. \tag{2.5} \end{equation}\]
<- length(altura) # n=100, número de observações a serem tabuladas
n <- sd(altura) # s=0.045268559, desvio padrão amostral
s <- diff(range(altura)) # Amplitude (dos dados, não da classe!)
A <- 3.5*s/n^(1/3)) # Pela Equação (2.4) (hSc
## [1] 0.03413485378
ceiling(A/hSc) # k sugerido por Scott, Equação (2.5)
## [1] 7
<- nclass.scott(altura)) # k obtido pela função 'nclass.scott' (kSc
## [1] 7
pretty(kSc) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)
## [1] 5 10
3. Freedman-Diaconis
(Freedman and Diaconis 1981) inserem a amplitude interquartílica no cálculo da amplitude do intervalo, na forma \[\begin{equation} h_{FD} = 2 \dfrac{AI}{n^{1/3}}, \tag{2.6} \end{equation}\]
onde \(AI = Q_{3} - Q_{1}\) é a amplitude interquartílica. O número de classes obtido como consequência da aplicação da relação de Freedman-Diaconis é \[\begin{equation} k_{FD} = \left\lceil \dfrac{A}{h_{FD}} \right\rceil = \left\lceil \dfrac{max{X} - min{X}}{2 \, AI \, n^{-1/3}} \right\rceil. \tag{2.7} \end{equation}\]
<- length(altura) # n=100, número de observações a serem tabuladas
n <- quantile(altura, c(1/4,3/4))) # Primeiro e terceiro quartis (Q
## 25% 75%
## 1.5975 1.6500
<- diff(as.numeric(Q))) # Amplitude Interquatílica (AI
## [1] 0.0525
<- 2*AI/n^(1/3)) # Pela Equação (2.6) (hFD
## [1] 0.02262156425
<- diff(range(altura)) # Amplitude (dos dados, não da classe ou interquartílica!)
A ceiling(A/hFD) # k sugerido por Freedman-Diaconis, Equação (2.7)
## [1] 11
<- nclass.FD(altura)) # Pela função 'nclass.FD' (kFD
## [1] 11
pretty(kFD) # Valores 'bonitos', (a=1, b=1) e (a=2, b=1)
## [1] 10 20
(R. J. Hyndman 1995) argumenta que as regras de Scott e Freedman-Diaconis são tão simples quanto a regra de Sturges, mas melhor fundamentadas na teoria estatística. Além disso, a regra de Sturges funciona bem para tamanhos de amostra moderados (\(n < 200\)), mas não para valores grandes de \(n\).
<- function(x) c(i = i, n = 10^i, # Quantidades simuladas
NC Sturges = nclass.Sturges(x), # Sturges (1926)
Scott = nclass.scott(x), # Scott (1979)
FD = nclass.FD(x)) # Freedman-Diaconis (1981)
for(i in 1:6){set.seed(i); print(NC(rnorm(10^i)))} # Pode ser demorado para i>6
## i n Sturges Scott FD
## 1 10 5 2 3
## i n Sturges Scott FD
## 2 100 8 6 7
## i n Sturges Scott FD
## 3 1000 11 19 25
## i n Sturges Scott FD
## 4 10000 15 44 56
## i n Sturges Scott FD
## 5 100000 18 112 145
## i n Sturges Scott FD
## 6 1000000 21 278 360
Exemplo 2.19 (Alturas de mulheres) Seja a variável
\(Y\): ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019.’
A Tabela abaixo apresenta os dados brutos. Este tipo de apresentação é bastante completo, mas dificulta a extração de informações relevantes. Como exercício, indique quantas mulheres têm altura entre 1.70m e 1.75m a partir desta tabela.
\(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) | \(i\) | \(y_{i}\) |
---|---|---|---|---|---|---|---|
1 | 1.59 | 26 | 1.61 | 51 | 1.64 | 76 | 1.62 |
2 | 1.58 | 27 | 1.61 | 52 | 1.57 | 77 | 1.54 |
3 | 1.70 | 28 | 1.60 | 53 | 1.65 | 78 | 1.64 |
4 | 1.62 | 29 | 1.61 | 54 | 1.69 | 79 | 1.66 |
5 | 1.67 | 30 | 1.64 | 55 | 1.65 | 80 | 1.56 |
6 | 1.62 | 31 | 1.59 | 56 | 1.62 | 81 | 1.64 |
7 | 1.69 | 32 | 1.60 | 57 | 1.68 | 82 | 1.60 |
8 | 1.60 | 33 | 1.62 | 58 | 1.60 | 83 | 1.68 |
9 | 1.61 | 34 | 1.53 | 59 | 1.68 | 84 | 1.65 |
10 | 1.58 | 35 | 1.58 | 60 | 1.59 | 85 | 1.65 |
11 | 1.64 | 36 | 1.60 | 61 | 1.70 | 86 | 1.64 |
12 | 1.72 | 37 | 1.61 | 62 | 1.65 | 87 | 1.55 |
13 | 1.74 | 38 | 1.67 | 63 | 1.51 | 88 | 1.66 |
14 | 1.63 | 39 | 1.68 | 64 | 1.66 | 89 | 1.59 |
15 | 1.64 | 40 | 1.56 | 65 | 1.52 | 90 | 1.66 |
16 | 1.63 | 41 | 1.58 | 66 | 1.60 | 91 | 1.69 |
17 | 1.59 | 42 | 1.66 | 67 | 1.62 | 92 | 1.61 |
18 | 1.64 | 43 | 1.59 | 68 | 1.68 | 93 | 1.58 |
19 | 1.59 | 44 | 1.67 | 69 | 1.65 | 94 | 1.73 |
20 | 1.65 | 45 | 1.62 | 70 | 1.61 | 95 | 1.56 |
21 | 1.63 | 46 | 1.55 | 71 | 1.56 | 96 | 1.59 |
22 | 1.64 | 47 | 1.64 | 72 | 1.65 | 97 | 1.65 |
23 | 1.64 | 48 | 1.62 | 73 | 1.62 | 98 | 1.63 |
24 | 1.62 | 49 | 1.65 | 74 | 1.63 | 99 | 1.70 |
25 | 1.66 | 50 | 1.66 | 75 | 1.57 | 100 | 1.60 |
Para colocar estes valores em uma tabela de frequência, obteve-se \(k_{St}=8\) pela regra de Sturges, e pelo resultado de pretty(8)
decidiu-se por 5 classes. Como exercício, obtenha \(k_{Sc}\) e \(k_{FD}\).
A Tabela abaixo apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda algumas frequências que auxiliam o entendimento da distribuição. Facilmente observam-se 6 mulheres com altura entre 1.70m e 1.75m,13 ao contrário da tabela de dados brutos. Note, porém, que não é possível saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica em perda de informação, cabendo ao pesquisador decidir quando e como resumir os dados.
\(i\) | \(y_{i}\) | \(f_{i}\) | \(f_{r_{i}}\) | \(F_{i}\) | \(F_{r_{i}}\) | \(\Finv_{i}\) | \(\Finv_{r_{i}}\) |
---|---|---|---|---|---|---|---|
1 | 1.50 \(\vdash\) 1.55 | 4 | 0.04 | 4 | 0.04 | \(96+4=100\) | \(100/100=1\) |
2 | 1.55 \(\vdash\) 1.60 | 21 | 0.21 | \(4+21=25\) | 0.25 | \(75+21=96\) | \(96/100=0.96\) |
3 | 1.60 \(\vdash\) 1.65 | 41 | 0.41 | \(25+41=66\) | 0.66 | \(34+41=75\) | \(75/100=0.75\) |
4 | 1.65 \(\vdash\) 1.70 | 28 | 0.28 | \(66+28=94\) | 0.94 | \(6+28=34\) | \(34/100=0.34\) |
5 | 1.70 \(\vdash\) 1.75 | 6 | 0.06 | \(94+6=100\) | 1 | 6 | \(6/100=0.06\) |
Total | - | 100 | 1 | - | - | - | - |
- \(f_{5}=6\), i.e., 6 mulheres têm entre 1.70m e 1.75m de altura
- \(f_{r_{5}}=0.06=6\%\), i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura
- \(F_{4}=94\), i.e., 94 mulheres têm até 1.70m de altura, ou de 1.50m a 1.70m
- \(F_{r_{2}}=0.25=25\%\), i.e., 25% das mulheres tem até 1.60m de altura, ou de 1.50m a 1.60m
- \(\Finv_{3}=75\), i.e., 75 mulheres têm pelo menos 1.60m de altura
- \(\Finv_{r_{4}}=0.34=34\%\), i.e., 34% das mulheres tem pelo menos 1.65m de altura \(\\\)
<- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)
hosp dim(hosp) # Dimensão: 100 linhas por 2 colunas
## [1] 100 2
head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)
## filhos altura
## 1 2 1.59
## 2 0 1.58
## 3 1 1.70
## 4 2 1.62
## 5 4 1.67
## 6 2 1.62
attach(hosp, warn=F) # Para deixar as colunas de 'hosp' disponíveis
pretty(nclass.Sturges(altura)) # Valores 'bonitos' para o número de classes
## [1] 5 10
hist(altura)$breaks # Quebras de valores gerados com a função 'hist'
## [1] 1.50 1.55 1.60 1.65 1.70 1.75
<- hist(altura)$counts) # Frequências das classes (f
## [1] 6 27 43 21 3
cumsum(f) # Frequência acumulada
## [1] 6 33 76 97 100
round(cumsum(f)/length(altura),2) # Frequência acumulada relativa
## [1] 0.06 0.33 0.76 0.97 1.00
cumsum(rev(f)) # Frequência acumulada inversa
## [1] 3 24 67 94 100
round(cumsum(rev(f))/length(altura),2) # Frequência acumulada inversa relativa
## [1] 0.03 0.24 0.67 0.94 1.00
2.3 Medidas de Posição (ou Localização)
2.3.1 Mínimo e Máximo
O mínimo de uma distribuição é o menor valor observado desta distribuição; de forma análoga, o máximo é o maior valor. São estatísticas de ordem, mais especificamente os extremos de um conjunto de dados ordenado (rol). Para uma distribuição de \(n\) elementos são denotadas por \(\min X = x_{(1)}\) e \(\max X = x_{(n)}\).
Apesar da simplicidade destas medidas, existem considerações teóricas sofisticadas a seu respeito. Para maiores detalhes, vide (Kotz and Nadarajah 2000).
attach(read.table('http://www.filipezabala.com/data/hospital.txt', head=T), warn=F)
min(altura) # Mínimo
## [1] 1.51
max(altura) # Máximo
## [1] 1.74
range(altura) # A função 'range' fornece o mínimo e o máximo
## [1] 1.51 1.74
2.3.2 Média (Aritmética Simples)
A média (aritmética simples) ou valor esperado é uma das medidas mais importantes da Estatística devido às suas propriedades e relativa facilidade de cálculo. A média da variável \(X\) é simbolizada genericamente por \(\mu\) quando refere-se à média universal, e por \(\bar{x}_{n}\) quando refere-se à média amostral. Pode-se utilizar a notação \(\bar{x}_{n}\) para indicar o tamanho da amostra. Suas expressões no universo a na amostra são dadas respectivamente pelas equações (2.8) e (2.9). Por distribuir a soma dos valores da distribuição pelo número de observações, a média é uma medida que indica centro de massa. \[\begin{equation} \mu = \frac {\sum_{i=1}^N x_i}{N} \tag{2.8} \end{equation}\]
\[\begin{equation} \bar{x}_{n} = \frac {\sum_{i=1}^n x_i}{n} \tag{2.9} \end{equation}\]
<- c(186,402,191,20,7,124) # Vetor de dados brutos
x mean(x) # Aplica as Equações (2.8) e (2.9). Veja ?mean
## [1] 155
2.3.3 Total
Total é a soma de todos os valores de uma variável. É expresso pelas equações (2.10) e (2.11).
\[\begin{equation} \tau = \sum_{i=1}^N x_i \tag{2.10} \end{equation}\]
\[\begin{equation} \hat{\tau} = \dfrac{N}{n} \sum_{i=1}^n x_i = N \bar{x}_{n}, \tag{2.11} \end{equation}\]
onde \(\bar{x}_{n}\) é a média amostral, apresentada na Equação (2.9).
<- 20 # Tamanho do universo
N <- c(186,402,191,20,7,124) # Vetor de dados brutos
x *mean(x) # Equação (2.11) N
## [1] 3100
2.3.4 Média Quadrática
A média quadrática é a média dos valores ao quadrado, utilizada no cálculo das variâncias. É expressa por
\[\begin{equation}
Q^2 = \frac{\sum_{i=1}^n x_{i}^{2}}{n}.
\tag{2.12}
\end{equation}\]
O valor quadrático médio é a raiz quadrada da média quadrática, denotado por \[\begin{equation} Q=\sqrt{Q^2}. \tag{2.13} \end{equation}\]
<- c(186,402,191,20,7,124) # Vetor de dados brutos
x <- mean(x^2)) # Eq. (2.12), compare com mean(x)^2 (mq
## [1] 41417.66667
sqrt(mq) # Eq. (2.13), valor quadrático médio
## [1] 203.5133083
2.3.5 Moda
A(s) moda(s) é (são) o(s) valor(es) mais frequente(s) de uma distribuição. Quando existe apenas uma moda, a distribuição é conhecida como unimodal. Se existirem duas modas, a distribuição é bimodal. Três modas configuram uma distribuição trimodal, e quatro ou mais modas indicam uma distribuição multimodal. Distribuições com frequências equivalentes para todos os valores são ditas amodais. Quando os dados estão agrupados deve-se indicar a classe modal, i.e., a classe de maior frequência. O esforço computacional para calcular a moda é realizar uma contagem.
No R existe a função Mode
do pacote pracma
, mas ela só funciona bem no caso unimodal. Por isso a seguir está apresentada a função Modes
, adaptada da sugestão de digEmAll nesta discussão do StackOverflow. Nos exemplos a seguir são comparadas as duas abordagens.
# Função Modes
<- function(x) {
Modes <- sort(unique(x))
ux <- tabulate(match(x, ux))
tab == max(tab)]
ux[tab }
<- c(4,7,1,3,3,9)
dat Modes(dat)
## [1] 3
::Mode(dat) pracma
## [1] 3
<- c(4,7,1,3,3,9,7)
dat Modes(dat)
## [1] 3 7
::Mode(dat) pracma
## [1] 3
<- c(4,7,1,3,9)
dat Modes(dat) # se todos são moda, ninguém é moda
## [1] 1 3 4 7 9
::Mode(dat) pracma
## [1] 1
2.3.6 Separatrizes
Separatrizes ou quantis14 são medidas que dividem um conjunto de dados ordenados em \(k\) partes iguais. O método básico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada) os valores que repartem a distribuição de acordo com o \(k\) desejado. O esforço computacional para calcular quaisquer separatrizes é, portanto, o de realizar a ordenação dos dados.
Mediana (\(k=2\))
A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade à sua direita, i.e., é a medida central em termos de ordenação. Sua posição é a média entre a primeira e última posições, dada por \[\begin{equation} Pos = \frac{1+n}{2} \tag{2.14} \end{equation}\]
<- c(10, -4, 11, 12, 1, 5, 15)
x <- length(x)) (n
## [1] 7
<- (n+1)/2) (pos
## [1] 4
sort(x)
## [1] -4 1 5 10 11 12 15
median(x)
## [1] 10
Quando o número de observações é par, basta tomar a média dos dois valores centrais do rol.
<- c(15, -4, 11, 12, 1, 5)
x <- length(x)) (n
## [1] 6
<- (n+1)/2) (pos
## [1] 3.5
sort(x)
## [1] -4 1 5 11 12 15
median(x)
## [1] 8
Separatrizes
Pode-se dividir um conjunto de dados em \(k\) setores, sendo os principais apresentados na tabela a seguir
\(k\) | Nome | Simbologia |
---|---|---|
2 | Mediana | Md |
3 | Tercil | \(T_1\), \(T_2\) |
4 | Quartil | \(Q_1\), \(Q_2\), \(Q_3\) |
10 | Decil | \(D_1\), \(D_2\), \(\ldots\), \(D_9\) |
100 | Percentil | \(P_1\), \(P_2\), \(\ldots\), \(P_{99}\) |
quantile
apresenta nove métodos para obtenção de separatrizes, portanto recomenda-se a leitura da documentação para maiores detalhes. Com ela pode-se facilmente obter os quantis desejados, bastando ajustar o argumento \(k\). Note que a função retorna as separatrizes expressas em percentis, onde \(0\%\) equivale ao mínimo e \(100\%\) ao máximo.
<- read.table('http://www.filipezabala.com/data/hospital.txt', header = T)
hosp options(digits = 3) # Para melhorar a apresentação
quantile(hosp$altura, probs = seq(0, 1, 1/2)) # Mediana
## 0% 50% 100%
## 1.51 1.62 1.74
quantile(hosp$altura, probs = seq(0, 1, 1/3)) # Tercis
## 0% 33.3% 66.7% 100%
## 1.51 1.61 1.65 1.74
quantile(hosp$altura, probs = seq(0, 1, 1/4)) # Quartis
## 0% 25% 50% 75% 100%
## 1.51 1.60 1.62 1.65 1.74
quantile(hosp$altura, probs = seq(0, 1, 1/10)) # Decis
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 1.51 1.57 1.59 1.60 1.62 1.62 1.64 1.65 1.66 1.68 1.74
a. Verifique que as separatrizes mediana (Md), segundo quartil (\(Q_2\)) são equivalentes.
b. Existem outras medidas equivalentes às do item (a)? Justifique.
c. Considere algum \(k\) diferente dos apresentados e atribua um nome e uma simbologia.
d. Se existem \(k\) ‘fatias,’ quantas são as separatrizes? \(\\\)
quantile
calcule as separatrizes discutidas nesta Seção com os dados da coluna filhos
disponível em http://www.filipezabala.com/data/hospital.txt.
2.4 Medidas de Dispersão (ou Variabilidade)
2.4.1 Amplitude
A amplitude é a medida de dispersão mais simples de ser calculada, e fornece uma informação rápida sobre a variabilidade do conjunto de dados. É calculada pela expressão \[\begin{equation} A = \max{X} - \min{X} \tag{2.15} \end{equation}\]
<- c(6,4,9,20,7,12) # dados
temp max(temp)-min(temp) # pela Eq. (2.15)
## [1] 16
<- range(temp) # a função 'range' retorna o mínimo e o máximo
A diff(A) # a função 'diff' calcula a diferença
## [1] 16
<- c(6,-4,9,20,7,12) # dados
temp diff(range(temp)) # funções aninhadas ('nested functions')
## [1] 24
2.4.2 Variância
A variância é a principal medida de dispersão da Estatística. É uma média quadrática em relação à média, i.e., avalia o quanto, em média, os dados variam ao quadrado em torno da média. A variância universal pode ser calculada pelas Equações (2.16) e (2.17).
\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \tag{2.16} \end{equation}\]
\[\begin{equation} \sigma^2 = \frac{\sum_{i=1}^N x_{i}^2}{N} - \mu^2 \tag{2.17} \end{equation}\]
Equação (2.16) \[\sigma^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6} = \frac{104356}{6} = 17392.\bar{6}\]
Equação (2.17) \[\sigma^2 = \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 = \frac{248506}{6} - 24025 = 17392.\bar{6}\]
<- var(c(186,402,191,20,7,124))*(5/6)) # variância amostral*(1/fator de correção) (var.p
## [1] 17393
A variância amostral pode ser calculada pelas Equações (2.18) e (2.19)
\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} \tag{2.18} \end{equation}\]
\[\begin{equation} \hat{\sigma}^2 = s_{n}^2 = \left( \frac{\sum_{i=1}^n x_{i}^2}{n} - \bar{x}^2 \right) \left( \frac{n}{n-1} \right) \tag{2.19} \end{equation}\]
Equação (2.18) \[s_{6}^2 = \frac{\sum_{i=1}^6 (x_i - 155)^2}{6-1} = \frac{(186-155)^2+(402-155)^2+ \cdots + (124-155)^2}{6-1} = \frac{104356}{5} = 20871.2\]
Equação (2.19) \[s_{6}^2 = \left( \frac{186^2+402^2+191^2+20^2+7^2+124^2}{6} - 155^2 \right) \left( \frac{6}{5} \right) = 17392.\bar{6} \times 1.2 = 20871.2\]
<- var(c(186,402,191,20,7,124))) # 'var' calcula a variância amostral (var.a
## [1] 20871
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer que a variância amostral é 20871.2 passos\(^2\). Dica: não tente interpretar este valor.
Note pela Equação (2.18) que a variância amostral é dividida por \(n-1\) e não por \(n\). Isto faz com que a variância amostral seja maior ou igual à variância universal para os mesmos dados. Intuitivamente pode-se pensar como uma espécie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Da mesma forma pode-se pensar na variância amostral como o produto entre a variância universal \(\sigma^2\) e o fator \(n/(n-1)\), descrito por
\[\begin{equation} s_{n}^2 = \sigma^2 \left( \frac{n}{n-1} \right) \tag{2.20} \end{equation}\]
2.4.3 Desvio Padrão
O desvio padrão é a raiz quadrada da variância. O motivo de calcular o desvio padrão é que a sua interpretação é mais intuitiva se comparada à da variância, uma vez que a unidade de medida do desvio padrão é a mesma da variável \(X\). As fórmulas do desvio padrão universal e amostral são dadas respectivamente pelas equações15 (2.21) e (2.22).
\[\begin{equation} \sigma = \sqrt{\sigma^2} \tag{2.21} \end{equation}\]
\[\begin{equation} s_{n} = \sqrt{s^{2}_{n}} \tag{2.22} \end{equation}\]
<- c(186,402,191,20,7,124) # dados
dat <- sd(dat) * sqrt(5/6)) # s_n * raiz(1/fator de correção) (dp.p
## [1] 132
all.equal(dp.p, sqrt(var.p)) # 'dp.p' é igual à raiz quadrada de 'var.p'
## [1] TRUE
all.equal(dp.p^2, var.p) # 'dp.p' ao quadrado é igual a 'var.p'
## [1] TRUE
<- c(186,402,191,20,7,124) # dados
dat <- sd(dat)) # 'sd' calcula o desvio padrão amostral (dp.a
## [1] 144
all.equal(dp.a, sqrt(var.a)) # 'dp.a' é igual à raiz quadrada de 'var.a'
## [1] TRUE
all.equal(dp.a^2, var.a) # 'dp.a' ao quadrado é igual a 'var.a'
## [1] TRUE
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer que o desvio padrão (amostral, claro) é de aproximadamente 144.5 passos. Pode-se pensar neste valor como uma oscilação média aproximada em torno da média aritmética.
2.4.4 Coeficiente de variação
O coeficiente de variação é uma medida de comparação de variabilidades, uma vez que ajusta o desvio padrão pela média. É preferível ao desvio padrão por ser um número adimensional, i.e., não possui unidade de medida, tornando quaisquer conjuntos de dados comparáveis em termos de variabilidade. É utilizado em diversas áreas da Estatística, mas é popularmente conhecido como medida de risco em carteiras de ativos.
As fórmulas do coeficiente de variação universal e amostral são dadas respectivamente pelas equações (2.23) e (2.24). \[\begin{equation} \gamma = \frac{\sigma}{\mu} \tag{2.23} \end{equation}\]
\[\begin{equation} \hat{\gamma} = g = \frac{s}{\bar{x}} \tag{2.24} \end{equation}\]
<- 0.0045
mx <- 0.0056
dx round(gx <- dx/mx, 2) # Coeficiente de variação de X
## [1] 1.24
<- 3549
my <- 419
dy round(gy <- dy/my, 2) # Coeficiente de variação de Y
## [1] 0.12
2.5 Outras medidas
2.5.1 Assimetria (ou Obliquidade)
Assimetria ou obliquidade é uma medida que avalia a assimetria de uma distribuição de frequência. Existem diversas definições na literatura, das quais apresentam-se três alternativas. \[\begin{equation} g_1 = \dfrac{m_3}{m_2^{3/2}} = \dfrac{\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^3}{\left[ \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^2 \right]^{3/2}} \tag{2.25} \end{equation}\]
\[\begin{equation} b_1 = g_{1} \left( \dfrac{n-1}{n} \right)^{3/2} = \dfrac{m_3}{s^3} = \dfrac{\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^3 }{\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^2 \right]^{3/2}} \tag{2.26} \end{equation}\]
\[\begin{eqnarray} G_1 = g_{1} \sqrt{\dfrac{n(n-1)}{n-2}} = b_{1} \dfrac{n^2}{(n-1)(n-2)} \tag{2.27} \end{eqnarray}\]
set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
::skewness(x, type = 1) # Definição clássica de assimetria, Equação (2.25) e1071
## [1] -0.0722
::skewness(x, type = 2) # Utilizada no SAS, SPSS e Excel, Equação (2.27) e1071
## [1] -0.0733
::skewness(x, type = 3) # Padrão do R, utilizada no MINITAB e BMDP, Equação (2.26) e1071
## [1] -0.0712
2.5.2 Curtose
A curtose é uma medida de achatamento de uma distribuição de frequência. Assim como na assimetria, das diversas definições de curtose apresentam-se três alternativas. \[\begin{eqnarray} g_2 = \dfrac{m_4}{m_2^{2}} - 3 = \dfrac{\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^4}{\left[ \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^2 \right]^{2}} - 3 \tag{2.28} \end{eqnarray}\]
\[\begin{eqnarray} b_2 = (g_2 + 3) \left( 1 - \dfrac{1}{n} \right)^{2} - 3 = \dfrac{m_4}{s^4} - 3 = \dfrac{\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^4 }{\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_{i} - \bar{x}_n)^2 \right]^{2}} - 3 \tag{2.29} \end{eqnarray}\]
\[\begin{eqnarray} G_2 = \dfrac{ \left[ (n+1) g_2 + 6 \right] (n-1)}{(n-2)(n-3)} \tag{2.30} \end{eqnarray}\]
set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
::kurtosis(x, type = 1) # Definição clássica de curtose, Equação (2.28) e1071
## [1] 0.00765
::kurtosis(x, type = 2) # Usada no SAS, SPSS e Excel, Equação (2.30) e1071
## [1] 0.0705
::kurtosis(x, type = 3) # Padrão do R, usada também no MINITAB e BMDP, Eq. (2.29) e1071
## [1] -0.0522
2.6 Visualização
Visualização é o processo de representar informações ou ideias através de diagramas, gráficos e outros métodos de apresentação visual. De um modo geral, as ferramentas de visualização devem ser claras para o leitor, devendo-se evitar detalhes desnecessários. Um bom visualizador transmite a informação desejada de forma clara, precisa e eficiente. Ao apresentar informação de maneira visual deve-se considerar que ‘o menos é mais.’ Edward Tufte, “o Leonardo da Vinci dos dados” segundo The New York Times, ou “o Galileu dos gráficos” de acordo com a Bloomberg, possui uma vasta obra sobre o tema. Em (Tufte and Graves-Morris 1983), (Tufte 1993), (Tufte et al. 1998) e (Tufte 2006) apresenta uma série de considerações e exemplos muito ricos e elegantes, algumas indicadas a seguir.
- o olho humano não diferencia muitas tonalidades de cor, por isso é interessante trabalhar com escalas em degradê, diferentes texturas e espessuras de linha
- para apresentar dados categóricos é interessante ordenar as categorias de forma intuitiva para melhor apresentação
- deve-se evitar o agrupamento de dados contínuos em categorias
- é importante manter a notação coerente com o texto
Referências
Um conjunto é aquele em que se pode listar e contar os elementos.↩︎
Passos Até a Bufunfa.↩︎
Um conjunto não enumerável possui infinitos elementos, sendo impossível listá-los segundo alguma regra.↩︎
Note que a simbologia 1.70 \(\vdash\) 1.75 indica a inclusão de 1.70 e a exclusão de 1.75, i.e., este é um intervalo fechado à esquerda e aberto à direita. Equivale às notações \(\left[ 1.70, 1.75 \right[\) (mais moderna) ou \(\left[ 1.70, 1.75 \right)\) (mais antiga).↩︎
Pronuncia-se quantís.↩︎
Se você ficou confuso com a notação, escreva \(\sigma^2= V\) e \(\sigma=D\) (bem como \(s^2=v\) e \(s=d\)) e repense o problema.↩︎