6.2 Intervalo de Confiança

Um intervalo de confiança é uma forma de estimar parâmetros por meio de um intervalo. Sua interpretação pode ser complicada, e para explicar essa ideia a probabilidade de cobertura nominal geralmente é considerada.

Exercício 6.5 Acesse o link https://seeing-theory.brown.edu/frequentist-inference/index.html#section2 e realize a simulação com diferentes distribuições, tamanhos de amostra (\(n\)) e confianças (\(1-\alpha\)).

6.2.1 Proporção (\(\pi\))

O IC (de Wald) para a proporção populacional \(\pi\) é dado pela expressão \[\begin{equation} IC \left[ \pi, 1-\alpha \right] = p \mp z \sqrt{\dfrac{p(1-p)}{n}} = \left[ p - z \sqrt{\dfrac{p(1-p)}{n}}, p + z \sqrt{\dfrac{p(1-p)}{n}} \right] \tag{6.8} \end{equation}\]

onde \(1-\alpha\) é a confiança do intervalo, \(p\) é a proporção amostral, \(n\) é o tamanho da amostra e \(z=z_{\frac{\alpha}{2}}\) é o quantil da distribuição normal padrão que acumula \(\frac{\alpha}{2}\) de probabilidade. Para uma discussão mais detalhada, veja (Agresti and Coull 1998).

Exemplo 6.9 (IC para \(\pi\)) Considere novamente os dados do Exemplo 6.4, onde deseja-se calcular o IC para a proporção de fumantes da PUCRS. Sabe-se que \(\hat{\pi} = p = 25/125 = 0.2\), \(n=125\) e \(z=1.96\). O IC de \(1-\alpha=95\%\) é \[ IC \left[ \pi, 95\% \right] = 0.2 \mp 1.96 \sqrt{\dfrac{0.2 \left( 1-0.2 \right) }{125}} \approx 0.2 \mp 0.07 = \left[ 0.13, 0.27 \right] = \left[ 13\%, 27\% \right]. \] A margem de erro é de aproximadamente \(0.07 = 7\%\), Note a diferença de precisão entre a tabela, consultando a probabilidade 0.0250 correspondente a \(z=-1.96\), e o valor calculado com a função qnorm.

n = 125
p = 25/n
z = abs(qnorm(0.025))         # |-1.959964|
(e = z*sqrt(p*(1-p)/n))       # Margem de erro

## [1] 0.0701218

(Lpi = p - e)                 # Limite inferior

## [1] 0.1298782

(Upi = p + e)                 # Limite superior

## [1] 0.2701218

# Princípio de relatório automático
cat('O IC 95% para a proporção é [',
    round(Lpi,2), ',',
    round(Upi,2), '].')

## O IC 95% para a proporção é [ 0.13 , 0.27 ].

Exercício 6.6 Acesse o material Estatística Clássica no RStudio e resolva os exercícios extras 1 ao 9 das páginas 99 e 100. Observe o Apêndice B com as respostas dos exercícios, mas só após tentar resolvê-los.

6.2.2 Média (\(\mu\))

O caso mais realista para o cálculo do IC para a média universal envolve desconhecer \(\sigma\). É dado pela expressão \[\begin{eqnarray} IC \left[ \mu, 1-\alpha \right] = \bar{x} \mp t \dfrac{s}{\sqrt{n}} = \left[ \bar{x} - t \dfrac{s}{\sqrt{n}}, \bar{x} + t \dfrac{s}{\sqrt{n}} \right], \tag{6.9} \end{eqnarray}\] onde \(1-\alpha\) é a confiança do intervalo, \(\bar{x}\) é a média amostral, \(s\) é o desvio padrão amostral, \(n\) é o tamanho da amostra e \(t=t_{n-1, \frac{\alpha}{2}}\) é o quantil da distribuição \(t\) com \(n-1\) graus de liberdade que acumula \(1-\frac{\alpha}{2}\) de probabilidade. No caso menos realista, utliza-se o \(\sigma\) conhecido no lugar de \(s\), implicando na utilização de uma normal padrão no lugar de uma \(t\) com \(n-1\) graus de liberdade.

Exemplo 6.10 (IC para \(\mu\) com \(\sigma\) desconhecido) Considere uma amostra de \(n=10\) mulheres das quais observou-se a variável \(X\): ‘altura’. Suponha que \(X \sim \mathcal{N}(\mu,\sigma)\), i.e., a variável ‘altura das mulheres’ tem distribuição normal com média \(\mu\) e desvio padrão universal \(\sigma\), ambos desconhecidos. Da tabela da distribuição \(t\) com \(10-1=9\) graus de liberdade, sabe-se que os quantis \(\pm 2.262\) limitam uma área de aproximadamente \(95\%\), portanto \(t=2.262\). Se da amostra calculou-se média de \(\bar{x}_{10} = 1.63\) e desvio padrão de \(s=0.05\), o IC de \(1-\alpha=95\%\) é \[ IC \left[ \mu, 95\% \right] = 1.63 \mp 2.262 \dfrac{0.05}{\sqrt{10}} \approx 1.63 \mp 0.04 \approx \left[ 1.59, 1.67 \right]. \] A margem de erro é de aproximadamente \(0.04\) ou 4 cm, maior que a margem de erro \(0.03\) quando assume-se \(\sigma\) conhecido pois \(z=1.96 < 2.262=t\).

n <- 10
m <- 1.63
s <- 0.05                     # desvio padrão amostral
t <- abs(qt(0.025, n-1))      # |-2.2621572|
(e <- t*s/sqrt(n))            # Margem de erro

## [1] 0.03576785

(Lmu <- m - e)                # Limite Inferior

## [1] 1.594232

(Umu <- m + e)                # Limite Superior

## [1] 1.665768

# Princípio de relatório automático
cat('O IC 95% para a média é [',
    round(Lmu,2), ',',
    round(Umu,2), '].')

## O IC 95% para a média é [ 1.59 , 1.67 ].

Exercício 6.7 (Carlini et al. 2002, 29) indicam que “[q]uando o intervalo de confiança apresentar sinal negativo, significa que a precisão da informação é muito baixa e devem-se ter cuidados com sua interpretação.” Os autores indicam um exemplo de observação de apenas quatro pacientes com certo tipo de comportamento, sendo que a expansão mostraria que, possivelmente, 25,000 teriam o mesmo tipo de comportamento na população. Os autores também afirmam que “o intervalo de confiança variou de -56,000 a 106,000 pessoas, ou seja, a confiança nessa informação é de baixíssima precisão.”

Comente sobre o termo “expansão”.
Comente sobre a afirmação sobre um intervalo de confiança para o número de pessoas variar entre -56,000 e 106,000.

\(\sigma\) conhecido

O IC para a média universal com \(\sigma\) conhecido é dado pela expressão \[\begin{equation} IC \left[ \mu, 1-\alpha \right] = \bar{x} \mp z \dfrac{\sigma}{\sqrt{n}} = \left[ \bar{x} - z \dfrac{\sigma}{\sqrt{n}}, \bar{x} + z \dfrac{\sigma}{\sqrt{n}} \right], \tag{6.10} \end{equation}\] onde \(1-\alpha\) é a confiança do intervalo, \(\bar{x}\) é a média amostral, \(\sigma\) é o desvio padrão universal conhecido, \(n\) é o tamanho da amostra e \(z=z_{\frac{\alpha}{2}}\) é o quantil da distribuição normal padrão que acumula \(\frac{\alpha}{2}\) de probabilidade.

Exemplo 6.11 (IC para \(\mu\) com \(\sigma\) conhecido) Considere uma amostra de \(n=10\) mulheres, das quais observou-se a variável \(X\): ‘altura’. Suponha que \(X \sim \mathcal{N}(\mu,0.05)\), i.e., a variável ‘altura das mulheres’ tem distribuição normal com média \(\mu\) desconhecida e desvio padrão universal conhecido \(\sigma = 0.05\). Da tabela da distribuição normal sabe-se que os quantis \(\pm 1.96\) limitam uma área de aproximadamente \(95\%\), portanto \(z=1.96\). Se a média da amostra é \(\bar{x}_{10} = 1.63\), o IC de \(1-\alpha=95\%\) é \[ IC \left[ \mu, 95\% \right] = 1.63 \mp 1.96 \dfrac{0.05}{\sqrt{10}} \approx 1.63 \mp 0.03 \approx \left[ 1.60, 1.66 \right]. \] A margem de erro é de aproximadamente \(0.03\) ou 3 cm.

n <- 10
m <- 1.63
sigma <- 0.05                   # 'sigma' universal
z <- abs(qnorm(0.025))          # |-1.959964|
(e <- z*sigma/sqrt(n))          # Margem de erro

## [1] 0.03098975

(LImusig <- m - e)              # Limite Inferior

## [1] 1.59901

(LSmusig <- m + e)              # Limite Superior

## [1] 1.66099

# Princípio de relatório automático
cat('O IC 95% para a média é [',
    round(LImusig,2), ',',
    round(LSmusig,2), '].')

## O IC 95% para a média é [ 1.6 , 1.66 ].

6.2.3 Variância (\(\sigma^2\))

O IC para a variância \(\sigma^2\) é dado pela expressão \[\begin{equation} IC \left[ \sigma^2, 1-\alpha \right] = \left[ \frac{(n-1)s^2}{\chi_{1-\frac{\alpha}{2}}}, \frac{(n-1)s^2}{\chi_{\frac{\alpha}{2}}} \right] \tag{6.11} \end{equation}\] onde \(1-\alpha\) é a confiança do intervalo, \(s^2\) é a variância amostral, \(n\) é o tamanho da amostra, \(\chi_{1-\frac{\alpha}{2}}\) é o quantil da distribuição qui-quadrado com \(\nu = n-1\) graus de liberdade que acumula \(1-\frac{\alpha}{2}\) de probabilidade e \(\chi_{\frac{\alpha}{2}}\) é o quantil da distribuição qui-quadrado com \(n-1\) graus de liberdade que acumula \(\frac{\alpha}{2}\) de probabilidade.

Exemplo 6.12 (IC para \(\sigma^2\)) Novamente utilizando as 10 primeiras observações da tabela do Exemplo 2.12, sabe-se que a variância amostral é \(s^2=0.05^2 = 0.0025\) e \(\nu = 10-1 = 9\). Pela tabela qui-quadrado \(\chi_{0.025}^2 = 2.70\) e \(\chi_{0.975}^2 = 19.02\). O IC de \(1-\alpha = 95\%\) para \(\sigma^2\) é \[ IC \left[ \sigma^2, 95\% \right] = \left[ \dfrac{(10-1) \times 0.0025}{19.02}, \dfrac{(10-1) \times 0.0025}{2.70} \right] \approx \left[ 0.0018, 0.0083 \right]. \]

s = 0.05
n = 10
gl = n-1
# quantis via qchisq (mais preciso)
qui.025.qchi = qchisq(.025, gl)
qui.975.qchi = qchisq(.975, gl)
# IC para a variância via qchisq
(Lvar.qchi <- gl*s^2/qui.975.qchi)  # Limite Inferior

## [1] 0.001182793

(Uvar.qchi <- gl*s^2/qui.025.qchi)  # Limite Superior

## [1] 0.008332131

6.2.4 Desvio padrão (\(\sigma\))

O IC para o desvio padrão \(\sigma\) é basicamente a raiz quadrada do IC para a variância. É dado pela expressão \[\begin{equation} IC \left[ \sigma, 1-\alpha \right] = \left[ \sqrt{\frac{(n-1)s^2}{\chi_{1-\frac{\alpha}{2}}}}, \sqrt{\frac{(n-1)s^2}{\chi_{\frac{\alpha}{2}}}} \right] \tag{6.12} \end{equation}\] onde \(1-\alpha\) é a confiança do intervalo, \(s^2\) é a variância amostral, \(n\) é o tamanho da amostra, \(\chi_{1-\frac{\alpha}{2}}\) é o quantil da distribuição qui-quadrado com \(\nu = n-1\) graus de liberdade que acumula \(1-\frac{\alpha}{2}\) de probabilidade e \(\chi_{\frac{\alpha}{2}}\) é o quantil da distribuição qui-quadrado com \(n-1\) graus de liberdade que acumula \(\frac{\alpha}{2}\) de probabilidade.

Exemplo 6.13 (IC para \(\sigma\)) Do Exemplo 6.12, \[ IC \left[ \sigma, 95\% \right] = \left[ \sqrt{\dfrac{(10-1) \times 0.0025}{19.02}}, \sqrt{\dfrac{(10-1) \times 0.0025}{2.70}} \right] \approx \left[ 0.0344, 0.0913 \right]. \]

# IC para o desvio padrão
(Lsd <- sqrt(Lvar.qchi))  # Limite Inferior

## [1] 0.03439176

(Usd <- sqrt(Uvar.qchi))  # Limite Superior

## [1] 0.09128051

Exercício 6.8 Acesse o material Estatística Clássica no RStudio e resolva os exercícios extras 1 ao 9 das páginas 99 e 100. Observe o Apêndice B com as respostas dos exercícios, mas só após tentar resolvê-los.

Referências

Agresti, Alan, and Brent A Coull. 1998. “Approximate Is Better Than ‘Exact’ for Interval Estimation of Binomial Proportions.” The American Statistician 52 (2): 119–26. https://www.tandfonline.com/doi/pdf/10.1080/00031305.1998.10480550.

Carlini, E. A., José Carlos F. Galduróz, Ana Regina Noto, and Solange A. Nappo. 2002. I Levantamento Domiciliar Sobre o Uso de Drogas Psicotrópicas No Brasil: Estudo Envolvendo as 107 Maiores Cidade Do Paı́s: 2001. CEBRID – Centro Brasileiro de Informações Sobre Drogas Psicotrópicas: UNIFESP – Universidade Federal de São Paulo. https://cetadobserva.ufba.br/sites/cetadobserva.ufba.br/files/colocarnohd1.pdf.