Capítulo 2 Estatística Descritiva
Fazendo umas médias se faz uma média. Filipe Zabala
A análise exploratória de dados, ou estatística descritiva, está diretamente ligada à organização e descrição dos dados. Reúne uma quantidade razoável de ferramentas que podem auxiliar no entendimento de valores observados. É utilizada, por exemplo, para avaliar como as observações se distribuem, onde estão posicionadas e como se apresentam em termos de dispersão e associação.
Neste capítulo serão introduzidos conceitos e métodos de exploração de dados, passo fundamental para análises estatísticas mais avançadas. Para uma discussão mais aprofundada recomenda-se (Tukey 1977), um marco na análise exploratória de dados.
Após a leitura deste capítulo o leitor deve ser capaz de interpretar o exemplo a seguir, adaptado de (Waring et al. 2022) por sugesão de João Brito. Mais detalhes neste link da Wiki R.
# Carrega pacotes
library(skimr)
library(tidyverse)
# Carrega base de dados
data(starwars)
# Uma alternativa a summary()
skimr::skim(starwars) # HTML e docx
Name | starwars |
Number of rows | 87 |
Number of columns | 14 |
_______________________ | |
Column type frequency: | |
character | 8 |
list | 3 |
numeric | 3 |
________________________ | |
Group variables | None |
Variable type: character
skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
---|---|---|---|---|---|---|---|
name | 0 | 1.00 | 3 | 21 | 0 | 87 | 0 |
hair_color | 5 | 0.94 | 4 | 13 | 0 | 11 | 0 |
skin_color | 0 | 1.00 | 3 | 19 | 0 | 31 | 0 |
eye_color | 0 | 1.00 | 3 | 13 | 0 | 15 | 0 |
sex | 4 | 0.95 | 4 | 14 | 0 | 4 | 0 |
gender | 4 | 0.95 | 8 | 9 | 0 | 2 | 0 |
homeworld | 10 | 0.89 | 4 | 14 | 0 | 48 | 0 |
species | 4 | 0.95 | 3 | 14 | 0 | 37 | 0 |
Variable type: list
skim_variable | n_missing | complete_rate | n_unique | min_length | max_length |
---|---|---|---|---|---|
films | 0 | 1 | 24 | 1 | 7 |
vehicles | 0 | 1 | 11 | 0 | 2 |
starships | 0 | 1 | 16 | 0 | 5 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
height | 6 | 0.93 | 174.60 | 34.77 | 66 | 167.0 | 180 | 191.0 | 264 | ▂▁▇▅▁ |
mass | 28 | 0.68 | 97.31 | 169.46 | 15 | 55.6 | 79 | 84.5 | 1358 | ▇▁▁▁▁ |
birth_year | 44 | 0.49 | 87.57 | 154.69 | 8 | 35.0 | 52 | 72.0 | 896 | ▇▁▁▁▁ |