2.1 Variáveis
São consideradas as definições de (Agresti and Franklin 2013, 25).
Definição 2.1 Variável é qualquer característica observada em um estudo.
Definição 2.2 Uma variável é chamada qualitativa ou categórica se cada observação pertencer a uma de um conjunto de categorias.
Definição 2.3 Uma variável é chamada quantitativa ou numérica se as observações assumem valores numéricos que representam diferentes magnitudes da variável.
2.1.1 Escala nominal
Variáveis qualitativas de escala nominal possuem o menor grau de informação dentre os quatro tipos propostos, permitindo apenas a avaliação de frequências e ordenações arbitrárias. Aplicam-se em avaliações de grupos não ordenados, tais como ‘sexo’, ‘religião’, ‘raça’, ‘cor preferida’, ‘bairro onde reside’, ‘time de futebol do coração’, etc.
2.1.2 Escala ordinal
Variáveis qualitativas de escala ordinal possuem grau de informação maior em relação às nominais pois são dotadas de uma ordenação prévia, permitindo comparações entre as observações. As variáveis de natureza ordinal avaliar grupos ordenados, tais como ‘colocação em um torneio esportivo’, ‘grau de escolaridade’, ‘classificação de um restaurante quanto à qualidade da comida’, etc.
Exemplo 2.1 (Colocação no vestibular) A variável ‘colocação geral no vestibular’ é classificada como ordinal pois indica a ordenação do vestibulando em comparação aos demais, mesmo que não se conheça a nota final de cada candidato. \(\\\)
Exemplo 2.2 (Escala de Likert) Quando deseja-se medir o grau de satisfação em relação a algum bem ou serviço, pode-se utilizar a Escala de Likert de \(k\) níveis proposta por (Likert 1932). Uma vantagem de utilizar \(k\) par, é que obriga-se o respondente a se posicionar a favor/contra, acima/abaixo.
Se \(k=4\),
1: Ruim, 2: Regular, 3: Bom, 4: Ótimo.
Se \(k=5\),
1: Péssimo, 2: Ruim, 3: Regular, 4: Bom, 5: Ótimo. \(\\\)
Exemplo 2.3 (Escala de Knuth) (Knuth 1968, xvii-xviii) sugere uma escala de 0 a 50 para classificar os exercícios pelo seu grau de dificuldade. Para isso ele considera o princípio estabelecido por Richard Bellmann:
If you can solve it, it is an exercise; otherwise it is a research problem.
Para isso propõe interpretações para alguns níveis de referência.
00 Um exercício extremamente fácil que pode ser respondido imediatamente se o material do texto foi compreendido, e que quase sempre pode ser trabalhado “em sua cabeça”.
10 Um problema simples, que faz uma pessoa pensar sobre o material que acabou de ler, mas que de forma alguma é difícil. Deve ser possível fazer isso em um minuto, no máximo; lápis e papel podem ser úteis na obtenção da solução.
20 Um problema mediano que testa a compreensão básica do material de texto mas que pode levar cerca de quinze a vinte minutos para ser respondido completamente.
30 Um problema de dificuldade moderada e/ou complexidade que pode envolver mais de duas horas de trabalho para ser resolvido satisfatoriamente.
40 Um problema bastante difícil ou demorado que talvez seja adequado para um projeto semestral em situações de sala de aula. Espera-se que um aluno seja capaz de resolver o problema em um período de tempo razoável, mas a solução não é trivial.
50 Um problema de pesquisa que (para o conhecimento do autor no momento da escrita) ainda não foi resolvido de forma satisfatória. Se o leitor encontrou uma resposta a esse problema, ele é instado a redigi-la para publicação. (Erdős and Spencer 1974) ofereciam prêmios na ordem de US$25 para soluções de problemas desta classe.
Resumindo variáveis ordinais
Dados ordinais informam a ordem das observações, e não sua magnitude. Desta forma, para o resumo de dados ordinais é recomendado utilizar mediana (Eq. (2.25)), amplitude interquartílica (Eq. (2.38)) e desvio absoluto mediano (Eq. (2.39)).
Exercício 2.1 (Rubio-Rivas et al. 2022) apresentam um estudo comparativo de escalas ordinais de gravidade propostas pela Organização Mundial da Saúde. Acesse o artigo disponível neste link e verifique como foi feito o resumo dos dados.
2.1.3 Discreta
Uma variável quantitativa discreta resumidamente assume apenas valores inteiros. Tecnicamente as variáveis discretas são caracterizadas por conjuntos contáveis.
Exemplo 2.4 (Número de filhos) Suponha que deseja-se observar o número de filhos de mulheres atendidas em um hospital. Para cada mulher entrevistada, o conjunto de possíveis respostas para a pergunta ‘quantos filhos a senhora tem?’ é \(F = \lbrace 0, 1, 2, \ldots, k \rbrace\), onde \(k\) é o número máximo de filhos que uma mulher possa ter ao longo de sua vida. Segundo o Livro Guinness dos Recordes o recorde mundial é \(k=69\), atribuído à russa Valentina Vassilyeva. Em quatro ocasiões ela deu a luz a quadrigêmeos (16), sete a trigêmeos (21) e dezesseis a gêmeos (32). Este é um conjunto contável finito. \(\\\)
Exemplo 2.5 (Pontos em um dado lançado \(k\) vezes) Suponha \(k\) lançamentos de um dado. Em cada lançamento é anotada a face resultante, somada aos valores obtidos nos \(k-1\) lançamentos anteriores. O conjunto de possíveis resultados deste experimento é \(S = \lbrace k, k+1, \ldots, 6k \rbrace\). Este é um conjunto contável finito. Como exercício, faça \(k=4\) e releia a sentença anterior substituindo os valores. \(\\\)
Exemplo 2.6 (Engrenagem eterna de consumo) Suponha uma engrenagem eterna de consumo, medida em passos. O conjunto do número possível de passos é \(S = \lbrace 1, 2, \ldots \rbrace\). Este é um conjunto contável infinito. \(\\\)
Exemplo 2.7 (Pilcher’s Squad) Norman Pilcher foi um oficial de polícia britânico que ganhou notoriedade nos anos 60 por utilizar métodos duvidosos na prisão de artistas como Mick Jagger e John Lennon. O conjunto de artistas que o Sargento Pilcher poderia prender é \(A = \lbrace a_{1}, a_{2}, \ldots, a_{k} \rbrace\), onde \(k\) representa o número de artistas disponíveis para serem presos. Este é um conjunto contável finito. \(\\\)
2.1.4 Contínua
A variável quantitativa contínuas é caracterizada por permitir a observação de qualquer subconjunto dos números reais como resultado. É utilizada para avaliar tempo, distâncias, áreas, volumes ou qualquer outra grandeza numérica de caráter não contável. Tal como nas variáveis discretas, é possível avaliar relações matemáticas entre os valores observados.
Exemplo 2.8 (Proporção de pessoas que usam óculos) Suponha que um grupo de pesquisadores esteja interessado em avaliar \(p\), a ‘proporção de pessoas que usam óculos em uma universidade’. Este valor está obrigatoriamente entre 0 e 1 (ou 0% e 100%), podendo ser representado pelo conjunto não contável \(\Omega = \lbrace p \in \mathbb{R} : 0 \le p \le 1 \rbrace\). \(\\\)
Exemplo 2.9 (Idade) A variável ‘idade’ é classificada como contínua por representar uma noção temporal. O conjunto dos possíveis tempos de vida de um ser humano é dado por \(\Omega = \lbrace t \in \mathbb{R} : 0 \le t \le T \rbrace\), onde \(T\) é a idade máxima em anos que um ser humano pode atingir. Segundo o Livro Guinness dos Recordes, o Gerontology Research Group e a Gerontology Wiki, \(T \approx 122.45015298055400876365\), alcançado pela francesa Jeanne Louise Calment. Calment nasceu em 21/02/1875 e faleceu em 04/08/1997. \(\Omega\) é dito não enumerável visto não ser possível contabilizar o seu número de elementos. \(\\\)
## Time difference of 44724 days
## [1] "122.45015298055400876365"
Exemplo 2.10 (Descendo o nível) Suponha que um grupo de pessoas foi avaliado em relação à variável ‘idade’ medida em anos, considerando-se a hora e minuto do nascimento. É possível transformá-la na variável ‘idade discreta’ simplesmente truncando os valores observados. Da mesma forma, pode-se tranformá-la na variável ‘idade ordinal’, classificando-a de acordo com a tabela a seguir.
i | Faixa etária | Grupo |
---|---|---|
1 | Até 10 anos | Criança |
2 | 10 \(\vdash\) 13 | Pré-adolescente |
3 | 13 \(\vdash\) 18 | Adolescente |
4 | 18 \(\vdash\) 35 | Adulto jovem |
5 | 35 \(\vdash\) 45 | Adulto |
6 | 45 \(\vdash\) 65 | Adulto maduro |
7 | 65 \(\vdash\) 75 | Idoso jovem |
8 | 75 + | Idoso |
Note que se uma pessoa tem 31.99 anos de idade (contínua), pode-se considerar a idade truncada de 31 anos (discreta) e classificá-la como um ‘adulto jovem’ (ordinal). Porém, dado que uma pessoa é classificada como adulto jovem, é possível apenas afirmar que ela tem idade entre 18 anos (completos) e 35 anos (incompletos) segundo a classificação proposta. \(\\\)
2.1.5 Considerações finais
Cada tipo de variável apresenta um nível de informação que deve ser respeitado. É possível ir de um nível maior de classificação para um nível menor, mas jamais ao contrário. É válido lembrar que perde-se informação ao descer o nível de classificação da variável. É bastante comum, porém, encontrar trabalhos utilizando níveis de classificação inapropriados, conduzindo a técnicas não adequadas que implicam em conclusões equivocadas.
Exercício 2.2 Classifique as variáveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contínua).
- Número de geladeiras em casa
- Temperaturas da água da piscina em um dia de verão
- Número de suicídios em uma cidade no decorrer do ano passado
- Concentração de chumbo em uma amostra de água
- Lista de editoras de livros
- Grau de satisfação dos clientes que frequentam uma rinha de galo
- Marcas de amaciantes para roupas
- Tempo que um paciente sobrevive após determinado diagnóstico
- Participação de mercado (market share)
- Classificação em uma corrida de banheiras
- Tempo final de cada corredor
- Lista dos nomes das banheiras participantes, tal como ‘Dick Vigarista’ e ‘Trollface’
- Distância de Estambul ao Rio de Janeiro
Sugestão: Capítulo 8