7.3 Regiões de Confiança

Regiões de confiança são os equivalentes multivariados aos intervalos de confiança univariados. Os intervalos de confiança são obtidos a partir de distribuições de probabilidade univariadas, e analogamente as regiões de confiança são derivadas de distribuições multivariadas. No caso bivariado geram-se elipses de confiança, enquanto no caso de dimensão 3 ou superior consideram-se elipsóides.

A estratégia é considerar a equivalência entre testes de hipóteses e intervalos de confiança. Assim, \[\begin{equation} Pr \left[ n (\bar{\boldsymbol{x}}-\boldsymbol{\mu})' \boldsymbol{S}^{-1} (\bar{\boldsymbol{x}}-\boldsymbol{\mu}) \le \dfrac{(n-1)p}{n-p}F_{p,n-p} \right] = 1-\alpha \tag{7.5} \end{equation}\]

7.3.1 Caso univariado, \(p=1\)

Exemplo 7.4 Novamente utilizando os dados do Exemplo de 7.2, pode-se calcular intervalos de confiança independentes.

sweat <- read.table('https://filipezabala.com/data/sweat.txt', header = T)
(n <- nrow(sweat))        # n
## [1] 20
(m <- colMeans(sweat))    # vetor de médias (amostrais)
##     sweat    sodium potassium 
##     4.640    45.400     9.965
(d <- apply(sweat,2,sd))  # desvios padrão amostrais
##     sweat    sodium potassium 
##  1.696870 14.134653  1.904641
(e <- qt(.975,n-1)*d/sqrt(n))   # margens de erro 95%
##     sweat    sodium potassium 
## 0.7941597 6.6152213 0.8913995
m-e                       # limite inferior de confiança
##     sweat    sodium potassium 
##  3.845840 38.784779  9.073601
m+e                       # limite superior de confiança
##     sweat    sodium potassium 
##   5.43416  52.01522  10.85640

Exercício 7.3 Considere novamente as informações do Exercício 7.1.
(a) Construa o intervalo com 95% de confiança para o número médio de filhos.
(b) Construa o intervalo com 95% de confiança para a altura média das mulheres.

7.3.2 Caso bivariado, \(p=2\)

Exemplo 7.5 Novamente utilizando os dados do Exemplo 7.2, pode-se calcular regiões de confiança bivariadas para a média considerando a estrutura de dependência (matrizes de correlação/covariância) entre as variáveis.

sweat <- read.table('https://filipezabala.com/data/sweat.txt', header = T)
(n <- nrow(sweat))        # n
## [1] 20
(m <- colMeans(sweat))    # vetor de médias (amostrais)
##     sweat    sodium potassium 
##     4.640    45.400     9.965
(r <- cor(sweat))         # matriz de correlações (amostrais)
##                sweat     sodium  potassium
## sweat      1.0000000  0.4173499 -0.5597440
## sodium     0.4173499  1.0000000 -0.2094984
## potassium -0.5597440 -0.2094984  1.0000000
plot(ellipse::ellipse(r[c(1,2),c(1,2)], centre = m[c(1,2)]), type = 'l') # sweat x sodium

plot(ellipse::ellipse(r[c(1,3),c(1,3)], centre = m[c(1,3)]), type = 'l') # sweat x potassium

plot(ellipse::ellipse(r[c(2,3),c(2,3)], centre = m[c(2,3)]), type = 'l') # sodium x potassium

Exercício 7.4 Considere novamente as informações do Exercício 7.1.
(a) Construa a região com 95% de confiança para o vetor de médias \(\boldsymbol{\mu}` = \begin{bmatrix} \mu_{filhos} & \mu_{altura} \end{bmatrix}\).
(b) Quais diferenças você identifica entre esta região e os intervalos calculados no Exercício 7.2?

7.3.3 Caso multivariado, \(p>2\)

Exemplo 7.6 Ainda utilizando os dados do Exemplo 7.2, pode-se calcular regiões de confiança trivariadas para a média considerando a estrutura de dependência entre as variáveis.

sweat <- read.table('https://filipezabala.com/data/sweat.txt', header = T)
(n <- nrow(sweat))        # n
## [1] 20
(p <- ncol(sweat))        # p
## [1] 3
(m <- colMeans(sweat))    # vetor de médias (amostrais)
##     sweat    sodium potassium 
##     4.640    45.400     9.965
(S <- cov(sweat))         # matriz de covariâncias (amostrais)
##               sweat   sodium potassium
## sweat      2.879368  10.0100 -1.809053
## sodium    10.010000 199.7884 -5.640000
## potassium -1.809053  -5.6400  3.627658
library(rgl)
plot3d(sweat, box = FALSE)
plot3d(ellipse3d(S, centre = m), col = 'green', alpha = 0.5, add = TRUE, aspect = TRUE)

Proporções

Quando trabalha-se com \(k\) proporções deve-se respeitar a condição de que a soma destas proporções deve ser igual a 1, i.e., \(\sum_{i=1}^k p_i = 1\). Isto nem sempre é feito na prática, e pode-se utilizar o método apresentado por (Zabala 2009), que leva em consideração a estrutura de dependência.

Exemplo 7.7 No caso de um cenário eleitoral com \(k=3\) candidatos, suponha que em uma amostra de \(n=100\) eleitores o candidato A tenha 60% das intenções de voto, B 30% e C 10%. Ao contrário do que sugerem os institutos de pesquisa, não é recomendado comparar intervalos de confiança independentes por violar a condição de que a soma das proporções deve ser igual a 1, levando a conclusões incoerentes conforme discutido na Seção 3.2.4 de (Zabala 2009). A função simplex3d do pacote desempateTecnico traz uma ferramenta para visualização da elipse de confiança desenhada sobre um 2-simplex, i.e., um triângulo no espaço tridimensional onde a soma das proporções é igual a 1. Podem-se definir algumas regiões relevantes dentro do simplex, onde as linhas verdes indicam as regiões onde as proporções são iguais a 50%, e as linhas vermelhas se interseccionam no ponto \(\left( \tfrac{1}{3},\tfrac{1}{3},\tfrac{1}{3} \right)\).

  1. \(A\) ganha no 1º turno, \(B\) em 2º lugar
  2. \(A\) ganha no 1º turno, \(C\) em 2º lugar
  3. \(B\) ganha no 1º turno, \(A\) em 2º lugar
  4. \(B\) ganha no 1º turno, \(C\) em 2º lugar
  5. \(C\) ganha no 1º turno, \(A\) em 2º lugar
  6. \(C\) ganha no 1º turno, \(B\) em 2º lugar
  7. \(A\) e \(B\) no 2º turno, \(A\) na frente
  8. \(A\) e \(B\) no 2º turno, \(B\) na frente
  9. \(A\) e \(C\) no 2º turno, \(A\) na frente
  10. \(A\) e \(C\) no 2º turno, \(C\) na frente
  11. \(B\) e \(C\) no 2º turno, \(B\) na frente
  12. \(B\) e \(C\) no 2º turno, \(C\) na frente

Considerando \(\alpha=5\%\) pode-se indicar pela elipse de confiança que 1 (\(A\) ganha no 1º turno, \(B\) em 2º lugar) e 7 (\(A\) e \(B\) no 2º turno, \(A\) na frente) são os cenários mais prováveis.

Exercício 7.5 Considere a função simplex3d do pacote desempateTecnico.
(a) Fixe \(\alpha=5\%\) e gere gráficos com tamanhos de amostra \(n\) iguais a 10, 50, 500 e 2000. O que você observa?
(b) Fixe \(n=100\) e gere gráficos com valores de significância \(\alpha\) iguais a \(0.5\%\), \(1\%\), \(5\%\) e \(10\%\). O que você observa?
(c) Se as linhas verdes indicam 50% dos votos, qual a sua opinião sobre um cenário eleitoral com \(p_a = 0.43\), \(p_b = 0.37\) e \(p_c = 0.2\), obtidos com uma amostra de tamanho 500 considerando \(\alpha=0.05\)?

Referências

Zabala, F. J. 2009. “Desempate Técnico.” PhD thesis, USP - Universidade de São Paulo. https://www.teses.usp.br/teses/disponiveis/45/45133/tde-01032021-140004/.