6.3 Regiões de Confiança
Regiões de confiança são os equivalentes multivariados aos intervalos de confiança univariados. Os intervalos de confiança são obtidos a partir de distribuições de probabilidade univariadas, e analogamente as regiões de confiança são derivadas de distribuições multivariadas. No caso bivariado geram-se elipses de confiança, enquanto no caso de dimensão 3 ou superior consideram-se elipsóides.
A estratégia é considerar a equivalência entre testes de hipóteses e intervalos de confiança. Assim, \[\begin{equation} Pr \left[ n (\bar{\boldsymbol{x}}-\boldsymbol{\mu})' \boldsymbol{S}^{-1} (\bar{\boldsymbol{x}}-\boldsymbol{\mu}) \le \dfrac{(n-1)p}{n-p}F_{p,n-p} \right] = 1-\alpha \tag{6.5} \end{equation}\]
6.3.1 Caso univariado, \(p=1\)
Exemplo 6.4 Novamente utilizando os dados do Exemplo de 6.2, pode-se calcular intervalos de confiança independentes.
## [1] 20
## sweat sodium potassium
## 4.640 45.400 9.965
## sweat sodium potassium
## 1.696870 14.134653 1.904641
## sweat sodium potassium
## 0.7941597 6.6152213 0.8913995
## sweat sodium potassium
## 3.845840 38.784779 9.073601
## sweat sodium potassium
## 5.43416 52.01522 10.85640
Exercício 6.3 Considere novamente as informações do Exercício 6.1.
(a) Construa o intervalo com 95% de confiança para o número médio de filhos.
(b) Construa o intervalo com 95% de confiança para a altura média das mulheres.
6.3.2 Caso bivariado, \(p=2\)
Exemplo 6.5 Novamente utilizando os dados do Exemplo 6.2, pode-se calcular regiões de confiança bivariadas para a média considerando a estrutura de dependência (matrizes de correlação/covariância) entre as variáveis.
## [1] 20
## sweat sodium potassium
## 4.640 45.400 9.965
## sweat sodium potassium
## sweat 1.0000000 0.4173499 -0.5597440
## sodium 0.4173499 1.0000000 -0.2094984
## potassium -0.5597440 -0.2094984 1.0000000
Exercício 6.4 Considere novamente as informações do Exercício 6.1.
(a) Construa a região com 95% de confiança para o vetor de médias \(\boldsymbol{\mu}` = \begin{bmatrix} \mu_{filhos} & \mu_{altura} \end{bmatrix}\).
(b) Quais diferenças você identifica entre esta região e os intervalos calculados no Exercício 6.2?
6.3.3 Caso multivariado, \(p>2\)
Exemplo 6.6 Ainda utilizando os dados do Exemplo 6.2, pode-se calcular regiões de confiança trivariadas para a média considerando a estrutura de dependência entre as variáveis.
## [1] 20
## [1] 3
## sweat sodium potassium
## 4.640 45.400 9.965
## sweat sodium potassium
## sweat 2.879368 10.0100 -1.809053
## sodium 10.010000 199.7884 -5.640000
## potassium -1.809053 -5.6400 3.627658
library(rgl)
plot3d(sweat, box = FALSE)
plot3d(ellipse3d(S, centre = m), col = 'green', alpha = 0.5, add = TRUE, aspect = TRUE)
Proporções
Quando trabalha-se com \(k\) proporções deve-se respeitar a condição de que a soma destas proporções deve ser igual a 1, i.e., \(\sum_{i=1}^k p_i = 1\). Isto nem sempre é feito na prática, e pode-se utilizar o método apresentado por (Zabala 2009), que leva em consideração a estrutura de dependência.
Exemplo 6.7 No caso de um cenário eleitoral com \(k=3\) candidatos, suponha que em uma amostra de \(n=100\) eleitores o candidato A tenha 60% das intenções de voto, B 30% e C 10%. Ao contrário do que sugerem os institutos de pesquisa, não é recomendado comparar intervalos de confiança independentes por violar a condição de que a soma das proporções deve ser igual a 1, levando a conclusões incoerentes conforme discutido na Seção 3.2.4 de (Zabala 2009). A função simplex3d
do pacote desempateTecnico
traz uma ferramenta para visualização da elipse de confiança desenhada sobre um 2-simplex, i.e., um triângulo no espaço tridimensional onde a soma das proporções é igual a 1. Podem-se definir algumas regiões relevantes dentro do simplex, onde as linhas verdes indicam as regiões onde as proporções são iguais a 50%, e as linhas vermelhas se interseccionam no ponto \(\left( \tfrac{1}{3},\tfrac{1}{3},\tfrac{1}{3} \right)\).
- \(A\) ganha no 1º turno, \(B\) em 2º lugar
- \(A\) ganha no 1º turno, \(C\) em 2º lugar
- \(B\) ganha no 1º turno, \(A\) em 2º lugar
- \(B\) ganha no 1º turno, \(C\) em 2º lugar
- \(C\) ganha no 1º turno, \(A\) em 2º lugar
- \(C\) ganha no 1º turno, \(B\) em 2º lugar
- \(A\) e \(B\) no 2º turno, \(A\) na frente
- \(A\) e \(B\) no 2º turno, \(B\) na frente
- \(A\) e \(C\) no 2º turno, \(A\) na frente
- \(A\) e \(C\) no 2º turno, \(C\) na frente
- \(B\) e \(C\) no 2º turno, \(B\) na frente
- \(B\) e \(C\) no 2º turno, \(C\) na frente
Considerando \(\alpha=5\%\) pode-se indicar pela elipse de confiança que 1 (\(A\) ganha no 1º turno, \(B\) em 2º lugar) e 7 (\(A\) e \(B\) no 2º turno, \(A\) na frente) são os cenários mais prováveis.
Exercício 6.5 Considere a função simplex3d
do pacote desempateTecnico
.
(a) Fixe \(\alpha=5\%\) e gere gráficos com tamanhos de amostra \(n\) iguais a 10, 50, 500 e 2000. O que você observa?
(b) Fixe \(n=100\) e gere gráficos com valores de significância \(\alpha\) iguais a \(0.5\%\), \(1\%\), \(5\%\) e \(10\%\). O que você observa?
(c) Se as linhas verdes indicam 50% dos votos, qual a sua opinião sobre um cenário eleitoral com \(p_a = 0.43\), \(p_b = 0.37\) e \(p_c = 0.2\), obtidos com uma amostra de tamanho 500 considerando \(\alpha=0.05\)?