Capítulo 6 Inferência Bayesiana
O paradigma da inferência bayesiana tem suas origens no artigo póstumo de (Bayes 1763), comunicado por seu amigo Richard Price. As derivações das ideias de Bayes são extensas e profundas matemática e filosoficamente, discutidas por grandes nomes da Ciência em incontáveis livros, artigos e compilações ao longo destes mais de 250 anos. Desta forma entende-se que a melhor abordagem para este material é indicar o estado-da-arte da aplicação bayesiana considerando referências consagradas disponíveis online ou na bilbioteca da PUCRS.
Um dos principais motivos dos avanços recentes na pesquisa em estatística bayesiana é a crescente facilidade no acesso a recursos computacionais, tanto de hardware quanto de software. Na linguagem R existem muitas bibliotecas para aplicação bayesiana. O CRAN Task View30 de inferência bayesiana fornece um compêndio atualizado dos pacotes relacionados ao assunto.
6.1 Princípios de verossimilhança, suficiência e condicionalidade
- Seção 1.6 de (Paulino, Turkman, and Murteira 2003)
- Seções 3.3 e 3.4 de (Press 2003) (Princípio da verossimilhança)
- Os fundamentos são discutidos por (Birnbaum 1962), (Savage et al. 1962) e (Wechsler, Pereira, and Marques 2008)
Informalmente, o princípio da verossimilhança admite que se dois decisores possuem o mesmo grau de conhecimento e a mesma informação sobre \(\theta\), ambos devem decidir exatamente da mesma forma a respeito de \(\theta\). (Berger 1985, 28)31 define da seguinte forma:
Princípio da verossimilhança Ao fazer inferências ou decisões sobre \(\theta\) após observar \(x\), todas as informações experimentais relevantes estão contidas na função de verossimilhança para o \(x\) observado. Além disso, duas funções de verossimilhança contêm as mesmas informações sobre \(\theta\) se forem proporcionais entre si (como funções de \(\theta\)).
Exemplo 6.1 (Princípio da Verossimilhança 1, adaptado de (Paulino, Turkman, and Murteira 2003)) Considere uma sucessão de lançamentos de uma moeda, independentes e condicionados por \(\theta\), a probabilidade de sair ‘cara.’ Suponha que seja obtido o resultado \[x = \lbrace H,T,H,H,T,T,H,T,T,T \rbrace,\] onde \(H\): ‘cara’ e \(T\): ‘coroa’32. Este resultado poderia ser obtido de diversos processos experimentais ou regras de parada, como
- realizar 10 lançamentos, fixados a priori
- lançar a moeda até aparecerem 6 ‘coroas’
- lançar a moeda até aparecerem 3 ‘coroas’ consecutivas
- lançar a moeda até o jogador ficar saturado, tendo a saturação ocorrido no 10º lançamento
Exemplo 6.2 (Princípio da Verossimilhança 2, adaptado de (Lindley and Phillips 1976) por (Paulino, Turkman, and Murteira 2003)) Suponha que deseja-se testar a hipótese \(H_0 : \theta \le 1/2\) contra \(H_1 : \theta > 1/2\). São contemplados dois processos experimentais:
- \(E_1\): lançar a moeda \(n=12\) vezes;
- \(E_2\): lançar a moeda até que apareçam \(k=3\) ‘caras’
Admita que o resultado observado nas duas experiências foi \(x=9\) ‘coroas’ (portanto 3 ‘caras’), que é uma particular realização da variável aleatória \(X\), que designa o número total de ‘coroas’ dos experimentos \(E_1\) e \(E_2\). Para um clássico o nível crítico (ou valor-\(p\), a probabilidade de obter \(X \ge 9\)) da hipótese \(H_0 : \theta = 1/2\) difere nos dois casos.
No caso \(E_1\), \(X\) tem distribuição binomial – \(X \sim \mathcal{B} \left( 12, \theta \right)\) – cujo nível crítico é
\[\begin{equation} Pr\left( X \geq 9 \bigg\rvert \theta = \dfrac{1}{2} \right) = \binom {12}{9} \left( \frac{1}{2} \right) ^{12} + \binom {12}{10} \left( \frac{1}{2} \right) ^{12} + \binom {12}{11} \left( \frac{1}{2} \right) ^{12} + \binom {12}{12} \left( \frac{1}{2} \right) ^{12} \approx 0.0730. \nonumber \tag{6.1} \end{equation}\]
No caso \(E_2\), \(X\) tem distribuição binomial negativa – \(X \sim \mathcal{BN} \left( 3, 1-\theta \right)\) – que tem nível crítico
\[\begin{equation} Pr\left( X \geq 9 \bigg\rvert \theta = \dfrac{1}{2} \right) = \binom {11}{9} \left( \frac{1}{2} \right) ^{12} + \binom {12}{10} \left( \frac{1}{2} \right) ^{13} +\binom {13}{11} \left( \frac{1}{2} \right) ^{14} + \cdots \approx 0.0327. \nonumber \tag{6.2} \end{equation}\]
Logo, se for adotado um limiar de significância de \(5 \%\), \(H_0\) é rejeitada no caso \(E_2\) e não rejeitada em \(E_1\). Assumindo o princípio da verossimilhança, as conclusões devem ser idênticas nos dois casos. Em ambos a (função de) verossimilhança é proporcional a \(\theta^9 \left( 1 - \theta \right)^3\). De fato, as verossimilhanças em \(E_1\) e \(E_2\) são
\[L_1 \left( \theta \right| x = 9 ) = \binom {12}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 220 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]
\[L_2 \left( \theta \right| x = 9 ) = \binom {11}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 55 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]6.2 Distribuição a priori
- Fundamentos abordados no Capítulo 2 de (Paulino, Turkman, and Murteira 2003) e no Capítulo 5 de (Press 2003)
- (Morris, Oakley, and Crowe 2014) apresentam uma ferramenta baseada na web para obter distribuições de probabilidade de especialistas
6.3 Estimação Pontual
- Seções 8.2 e 8.3 de (Press 2003)
- Seção 3.2 de (Paulino, Turkman, and Murteira 2003)
6.4 (Estimação por) Intervalo/Regiões de Credibilidade
- Seção 8.4 de (Press 2003)
- Seção 3.3 de (Paulino, Turkman, and Murteira 2003)
6.5 (Estimação por) Teste de Hipóteses
- Capítulo 9 de (Press 2003)
- Seção 3.4 de (Paulino, Turkman, and Murteira 2003)
6.5.1 Fatores de Bayes
- (Kass and Raftery 1995)
- Seção 9.5.1 de (Press 2003)
- Seção 3.4.1 de (Paulino, Turkman, and Murteira 2003)
6.5.2 FBST - Full Bayesian Significance Test
- Proposta de (Carlos Alberto de Bragança Pereira and Stern 1999) para testar hipóteses precisas (sharp hypotheses)
- Amplamente revisado em (Carlos A. de B. Pereira et al. 2008) e (Carlos Alberto de Brgança Pereira and Stern 2020)
Referências
Segundo a documentação oficial do R, os CRAN Task Views (‘Visualizadores de Tarefa da Rede Abrangente de Arquivos R,’ em tradução livre) têm como objetivo fornecer alguma orientação sobre quais pacotes no CRAN são relevantes para tarefas relacionadas a um determinado tópico. Eles fornecem uma breve visão geral dos pacotes incluídos têm como objetivo ter um foco nítido para que seja suficientemente claro quais pacotes devem ser incluídos (ou excluídos) - e não têm a intenção de endossar os “melhores” pacotes para uma determinada tarefa.↩︎
“The Likelihood Principle. In making inferences or decisions about \(\theta\) after x is observed, all relevant experimental information is contained in the likelihood function for the observed x. Furthermore, two likelihood functions contain the same information about \(\theta\) if they are proportional to each other (as functions of \(\theta\)).” (Berger 1985, 28)↩︎
Do Inglês Head (cara) e Tail (coroa).↩︎