6.3 Regiões de Confiança

Regiões de confiança são os equivalentes multivariados aos intervalos de confiança univariados. Os intervalos de confiança são obtidos a partir de distribuições de probabilidade univariadas, e analogamente as regiões de confiança são derivadas de distribuições multivariadas. No caso bivariado geram-se elipses de confiança, no caso de dimensão 3 consideram-se elipsóides e para dimensões superiores consideram-se hiperelipsóides.

6.3.1 Gráficos 2D

Exemplo 6.4 Considere novamente o Exemplo 6.2.

library(cluster)
(eh12 <- ellipsoidhull(as.matrix(sweat[,c(1,2)])))

## 'ellipsoid' in 2 dimensions:
##  center = (  4.771 43.754 ); squared ave.radius d^2 =  2 
##  and shape matrix =
##          sweat sodium
## sweat   7.1463  34.08
## sodium 34.0801 587.42
##   hence, area  =  346.23

plot(sweat[,c(1,2)])
lines(predict(eh12), col="blue")

(eh13 <- ellipsoidhull(as.matrix(sweat[,c(1,3)])))

## 'ellipsoid' in 2 dimensions:
##  center = (  4.1678 10.3985 ); squared ave.radius d^2 =  2 
##  and shape matrix =
##             sweat potassium
## sweat      9.5635   -6.4204
## potassium -6.4204    7.7782
##   hence, area  =  36.185

plot(sweat[,c(1,3)])
lines(predict(eh13), col="red")

(eh23 <- ellipsoidhull(as.matrix(sweat[,c(2,3)])))

## 'ellipsoid' in 2 dimensions:
##  center = ( 40.975 10.424 ); squared ave.radius d^2 =  2 
##  and shape matrix =
##            sodium potassium
## sodium    497.415   -23.149
## potassium -23.149     6.477
##   hence, area  =  325.63

plot(sweat[,c(2,3)])
lines(predict(eh23), col="green")

6.3.2 Gráficos 3D

Exemplo 6.5 Considere novamente o Exemplo 6.2.

library(rgl)
e3d <- ellipse3d(cov(sweat), colMeans(sweat))
if(type_book == 'bookdown::gitbook'){
  rgl::plot3d(e3d, alpha = 0.6)
}

6.3.3 `jocre`

(Pallmann and Jaki 2017) trazem uma visão geral e comparação de todos os métodos para intervalos e regiões de confiança implementados no pacote jocre (Pallmann 2017). O autor, porém, recomenda cuidado no uso, pois [s]ome of the functionality has not yet been thoroughly tested.

Método	Referência	Descrição
`standard.ind`		Região padrão ignorando correlação entre parâmetros.
`standard.cor`	(Chew 1966)	Região padrão incorporando correlação entre parâmetros.
`emp.bayes`	(Casella and Hwang 1983)	Região empírica de Bayes.
`tost`	(Schuirmann 1987)	Intervalos de teste de dois unilaterais (Two One-Sided Test - TOST).
`limacon.asy`	(L. D. Brown, Casella, and Hwang 1995)	Região de volume mínimo esperado em forma de limaçon.
`limacon.fin`	(Berger and Hsu 1996)	Variante de amostra finita da região de volume mínimo esperado.
`tseng.brown`	(Tseng and Brown 1997)	Região pseudo-empírica de Bayes.
`hotelling`	(W. Wang, Hwang, and Dasgupta 1999)	Região tipo Hotelling.
`tseng`	(Tseng 2002)	Região de comprimento de intervalo mínimo esperado.
`boot.kern`	(Pallmann and Jaki 2017)	Método de bootstrap não paramétrico usando estimativa de densidade do kernel.

Exemplo 6.6 Considere novamente o Exemplo 6.2.

library(jocre)
sweat <- read.table('https://filipezabala.com/data/sweat.txt', header = TRUE)
cset(sweat[,1:2], method = 'standard.ind')

## Parameter estimates and projected boundaries of the 2-dimensional
## 90% simultaneous confidence region:
## 
##        Estimate  Lower  Upper
## sweat      4.64 -6.919 16.199
## sodium    45.40 33.841 56.959

# cset(sweat[,1:2], method = 'standard.cor')
cset(sweat[,1:2], method = 'emp.bayes')

## Parameter estimates and projected boundaries of the 2-dimensional
## 90% simultaneous confidence region:
## 
##        Estimate  Lower  Upper
## sweat      4.64 -6.919 16.199
## sodium    45.40 33.841 56.959

cset(sweat, method = 'tost')

## Parameter estimates and 90% simultaneous confidence intervals:
## 
##           Estimate  Lower  Upper
## sweat        4.640  4.136  5.144
## sodium      45.400 41.204 49.596
## potassium    9.965  9.400 10.530

cset(sweat[,1:2], method = 'limacon.asy')

## Parameter estimates and projected boundaries of the 2-dimensional
## 90% simultaneous confidence region:
## 
##        Estimate  Lower  Upper
## sweat      4.64 -0.859  5.787
## sodium    45.40  0.333 50.618

cset(sweat, method = 'limacon.fin')

## Parameter estimates and projected boundaries of the 3-dimensional
## 90% simultaneous confidence region:
## 
##           Estimate   Lower  Upper
## sweat        4.640 -22.411 27.128
## sodium      45.400   0.424 48.985
## potassium    9.965 -19.367 29.194

cset(sweat[,1:2], method = 'tseng.brown')

## Parameter estimates and projected boundaries of the 2-dimensional
## 90% simultaneous confidence region:
## 
##        Estimate Lower Upper
## sweat      4.64   Inf   Inf
## sodium    45.40   Inf   Inf

# cset(sweat, method = 'hotelling')
(tseng <- cset(sweat, method = 'tseng'))

## Parameter estimates and projected boundaries of the 3-dimensional
## 90% simultaneous confidence region:
## 
##           Estimate   Lower  Upper
## sweat        4.640 -56.632 56.786
## sodium      45.400 -56.611 56.807
## potassium    9.965 -56.521 56.571

summary(tseng)

## Parameter estimates and projected boundaries of the 3-dimensional
## 90% simultaneous confidence region:
## 
##           Estimate   Lower  Upper
## sweat        4.640 -56.632 56.786
## sodium      45.400 -56.611 56.807
## potassium    9.965 -56.521 56.571

cset(sweat[,1:2], method = 'boot.kern')

## Parameter estimates and projected boundaries of the 2-dimensional
## 90% simultaneous confidence region:
## 
##        Estimate  Lower  Upper
## sweat      4.64  3.887  5.425
## sodium    45.40 39.045 51.741

Proporções

Quando trabalha-se com \(k\) proporções deve-se respeitar a condição de que a soma destas proporções deve ser igual a 1, i.e., \(\sum_{i=1}^k p_i = 1\). Isto nem sempre é feito na prática, e pode-se utilizar o método apresentado por (Zabala 2009), que leva em consideração a estrutura de dependência.

Exemplo 6.7 No caso de um cenário eleitoral com \(k=3\) candidatos, suponha que em uma amostra de \(n=100\) eleitores o candidato A tenha 60% das intenções de voto, B 30% e C 10%. Ao contrário do que sugerem os institutos de pesquisa, não é recomendado comparar intervalos de confiança independentes por violar a condição de que a soma das proporções deve ser igual a 1, levando a conclusões incoerentes conforme discutido na Seção 3.2.4 de (Zabala 2009). A função simplex3d do pacote desempateTecnico traz uma ferramenta para visualização da elipse de confiança desenhada sobre um 2-simplex, i.e., um triângulo no espaço tridimensional onde a soma das proporções é igual a 1. Podem-se definir algumas regiões relevantes dentro do simplex, onde as linhas verdes indicam as regiões onde as proporções são iguais a 50%, e as linhas vermelhas se interseccionam no ponto \(\left( \tfrac{1}{3},\tfrac{1}{3},\tfrac{1}{3} \right)\).

\(A\) ganha no 1º turno, \(B\) em 2º lugar
\(A\) ganha no 1º turno, \(C\) em 2º lugar
\(B\) ganha no 1º turno, \(A\) em 2º lugar
\(B\) ganha no 1º turno, \(C\) em 2º lugar
\(C\) ganha no 1º turno, \(A\) em 2º lugar
\(C\) ganha no 1º turno, \(B\) em 2º lugar
\(A\) e \(B\) no 2º turno, \(A\) na frente
\(A\) e \(B\) no 2º turno, \(B\) na frente
\(A\) e \(C\) no 2º turno, \(A\) na frente
\(A\) e \(C\) no 2º turno, \(C\) na frente
\(B\) e \(C\) no 2º turno, \(B\) na frente
\(B\) e \(C\) no 2º turno, \(C\) na frente

Considerando \(\alpha=5\%\) pode-se indicar pela elipse de confiança que 1 (\(A\) ganha no 1º turno, \(B\) em 2º lugar) e 7 (\(A\) e \(B\) no 2º turno, \(A\) na frente) são os cenários mais prováveis.

Exercício 6.3 Considere a função simplex3d do pacote desempateTecnico.
(a) Fixe \(\alpha=5\%\) e gere gráficos com tamanhos de amostra \(n\) iguais a 10, 50, 500 e 2000. O que você observa?
(b) Fixe \(n=100\) e gere gráficos com valores de significância \(\alpha\) iguais a \(0.5\%\), \(1\%\), \(5\%\) e \(10\%\). O que você observa?
(c) Se as linhas verdes indicam 50% dos votos, qual a sua opinião sobre um cenário eleitoral com \(p_a = 0.43\), \(p_b = 0.37\) e \(p_c = 0.2\), obtidos com uma amostra de tamanho 500 considerando \(\alpha=0.05\)?

References

Berger, Roger L, and Jason C Hsu. 1996. “Bioequivalence Trials, Intersection-Union Tests and Equivalence Confidence Sets.” Statistical Science, 283–302. https://repository.lib.ncsu.edu/server/api/core/bitstreams/8f7d352b-645c-4887-8734-f9e757d78308/content.

Brown, Lawrence D, George Casella, and Gene JT Hwang. 1995. “Optimal Confidence Sets, Bioequivalence, and the Limacon of Pascal.” Journal of the American Statistical Association 90 (431): 880–89. https://ecommons.cornell.edu/server/api/core/bitstreams/701b0d66-f0ea-4c99-86e1-f9ae3c39a88a/content.

Casella, George, and Jiunn Tzon Hwang. 1983. “Empirical Bayes Confidence Sets for the Mean of a Multivariate Normal Distribution.” Journal of the American Statistical Association 78 (383): 688–98. https://ecommons.cornell.edu/server/api/core/bitstreams/0e03953b-d2dc-4703-92d0-49ea93adfa30/content.

Chew, Victor. 1966. “Confidence, Prediction, and Tolerance Regions for the Multivariate Normal Distribution.” Journal of the American Statistical Association 61 (315): 605–17. https://www.tandfonline.com/doi/ref/10.1080/01621459.1966.10480892.

Pallmann, Philip. 2017. Jocre: Joint Confidence Regions. https://cran.r-project.org/package=jocre.

Pallmann, Philip, and Thomas Jaki. 2017. “Simultaneous Confidence Regions for Multivariate Bioequivalence.” Statistics in Medicine 36 (29): 4585–4603. https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.7446.

Schuirmann, Donald J. 1987. “A Comparison of the Two One-Sided Tests Procedure and the Power Approach for Assessing the Equivalence of Average Bioavailability.” Journal of Pharmacokinetics and Biopharmaceutics 15: 657–80. https://link.springer.com/content/pdf/10.1007/BF01068419.pdf.

Tseng, Yu-Ling. 2002. “Optimal Confidence Sets for Testing Average Bioequivalence.” Test 11 (1): 127–41. https://link.springer.com/content/pdf/10.1007/BF02595733.pdf.

Tseng, Yu-Ling, and Lawrence D Brown. 1997. “Good Exact Confidence Sets for a Multivariate Normal Mean.” The Annals of Statistics 25 (5): 2228–58. https://projecteuclid.org/journals/annals-of-statistics/volume-25/issue-5/Good-exact-confidence-sets-for-a-multivariate-normal-mean/10.1214/aos/1069362396.pdf.

Wang, Weizhen, Gene JT Hwang, and Anirban Dasgupta. 1999. “Statistical Tests for Multivariate Bioequivalence.” Biometrika 86 (2): 395–402. https://www.researchgate.net/profile/Weizhen-Wang-3/publication/235741846_Statistical_Tests_for_Multivariate_Bioequivalence/links/02bfe51305723c1292000000/Statistical-Tests-for-Multivariate-Bioequivalence.pdf.

Zabala, F. J. 2009. “Desempate Técnico.” PhD thesis, USP - Universidade de São Paulo. https://www.teses.usp.br/teses/disponiveis/45/45133/tde-01032021-140004/.