Capítulo 6 Inferência Bayesiana

O paradigma da inferência bayesiana tem suas origens no artigo póstumo de (Bayes 1763), comunicado por seu amigo Richard Price. As derivações das ideias de Bayes são extensas e profundas matemática e filosoficamente, discutidas por grandes nomes da Ciência em incontáveis livros, artigos e compilações ao longo destes mais de 250 anos. Desta forma entende-se que a melhor abordagem para este material é indicar o estado-da-arte da aplicação bayesiana considerando referências consagradas disponíveis online ou na bilbioteca da PUCRS.

Exercício 6.1 Assista aos vídeos The Bayesian Trap e Bayes theorem. Lembre que você pode ativar a legenda (botão CC) e alterar a língua nas configurações (ícone de engrenagem > legendas). \(\\\)

Um dos principais motivos dos avanços recentes na pesquisa em estatística bayesiana é a crescente facilidade no acesso a recursos computacionais, tanto de hardware quanto de software. Na linguagem R existem muitas bibliotecas para aplicação bayesiana. O CRAN Task View ³⁰ de inferência bayesiana fornece um compêndio atualizado dos pacotes relacionados ao assunto.

6.1 Princípios de verossimilhança, suficiência e condicionalidade

Seção 1.6 de (Paulino, Turkman, and Murteira 2003)
Seções 3.3 e 3.4 de (Press 2003) (Princípio da verossimilhança)
Os fundamentos são discutidos por (Birnbaum 1962), (Savage et al. 1962) e (Wechsler, Pereira, and Marques 2008)

Informalmente, o princípio da verossimilhança admite que se dois decisores possuem o mesmo grau de conhecimento e a mesma informação sobre \(\theta\), ambos devem decidir exatamente da mesma forma a respeito de \(\theta\). (Berger 1985, 28)³¹ define da seguinte forma:

Princípio da verossimilhança Ao fazer inferências ou decisões sobre \(\theta\) após observar \(x\), todas as informações experimentais relevantes estão contidas na função de verossimilhança para o \(x\) observado. Além disso, duas funções de verossimilhança contêm as mesmas informações sobre \(\theta\) se forem proporcionais entre si (como funções de \(\theta\)).

Exemplo 6.1 (Princípio da Verossimilhança 1, adaptado de (Paulino, Turkman, and Murteira 2003)) Considere uma sucessão de lançamentos de uma moeda, independentes e condicionados por \(\theta\), a probabilidade de sair ‘cara.’ Suponha que seja obtido o resultado \[x = \lbrace H,T,H,H,T,T,H,T,T,T \rbrace,\] onde \(H\): ‘cara’ e \(T\): ‘coroa’³². Este resultado poderia ser obtido de diversos processos experimentais ou regras de parada, como
- realizar 10 lançamentos, fixados a priori
- lançar a moeda até aparecerem 6 ‘coroas’
- lançar a moeda até aparecerem 3 ‘coroas’ consecutivas
- lançar a moeda até o jogador ficar saturado, tendo a saturação ocorrido no 10º lançamento

Em qualquer caso a (função de) verossimilhança é proporcional a \(\theta^4 \left( 1 - \theta \right)^6\), i.e., a amostra informa quatro sucessos (caras) e seis fracassos (coroas). Assim, adotando-se o princípio da verossimilhança, toda a informação que \(x\) pode fornecer sobre \(\theta\) encontra-se nesta expressão. Saber qual dos quatro processos experimentais foi utilizado (cada um com um espaço amostral diferente) ou saber qual foi a regra de parada adotada nada tem a acrescentar. Note que a possibilidade de o experimentador parar por seu arbítrio ao considerar o resultado \(x\) satisfatório, em nada altera a opinião sobre \(\theta\). \(\\\)

Exemplo 6.2 (Princípio da Verossimilhança 2, adaptado de (Lindley and Phillips 1976) por (Paulino, Turkman, and Murteira 2003)) Suponha que deseja-se testar a hipótese \(H_0 : \theta \le 1/2\) contra \(H_1 : \theta > 1/2\). São contemplados dois processos experimentais:

\(E_1\): lançar a moeda \(n=12\) vezes;
\(E_2\): lançar a moeda até que apareçam \(k=3\) ‘caras’

Admita que o resultado observado nas duas experiências foi \(x=9\) ‘coroas’ (portanto 3 ‘caras’), que é uma particular realização da variável aleatória \(X\), que designa o número total de ‘coroas’ dos experimentos \(E_1\) e \(E_2\). Para um clássico o nível crítico (ou valor-\(p\), a probabilidade de obter \(X \ge 9\)) da hipótese \(H_0 : \theta = 1/2\) difere nos dois casos.

No caso \(E_1\), \(X\) tem distribuição binomial – \(X \sim \mathcal{B} \left( 12, \theta \right)\) – cujo nível crítico é

\[\begin{equation} Pr\left( X \geq 9 \bigg\rvert \theta = \dfrac{1}{2} \right) = \binom {12}{9} \left( \frac{1}{2} \right) ^{12} + \binom {12}{10} \left( \frac{1}{2} \right) ^{12} + \binom {12}{11} \left( \frac{1}{2} \right) ^{12} + \binom {12}{12} \left( \frac{1}{2} \right) ^{12} \approx 0.0730. \nonumber \tag{6.1} \end{equation}\]

No caso \(E_2\), \(X\) tem distribuição binomial negativa – \(X \sim \mathcal{BN} \left( 3, 1-\theta \right)\) – que tem nível crítico

\[\begin{equation} Pr\left( X \geq 9 \bigg\rvert \theta = \dfrac{1}{2} \right) = \binom {11}{9} \left( \frac{1}{2} \right) ^{12} + \binom {12}{10} \left( \frac{1}{2} \right) ^{13} +\binom {13}{11} \left( \frac{1}{2} \right) ^{14} + \cdots \approx 0.0327. \nonumber \tag{6.2} \end{equation}\]

Logo, se for adotado um limiar de significância de \(5 \%\), \(H_0\) é rejeitada no caso \(E_2\) e não rejeitada em \(E_1\). Assumindo o princípio da verossimilhança, as conclusões devem ser idênticas nos dois casos. Em ambos a (função de) verossimilhança é proporcional a \(\theta^9 \left( 1 - \theta \right)^3\). De fato, as verossimilhanças em \(E_1\) e \(E_2\) são

\[L_1 \left( \theta \right| x = 9 ) = \binom {12}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 220 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]

\[L_2 \left( \theta \right| x = 9 ) = \binom {11}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 55 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]

6.2 Distribuição a priori

Fundamentos abordados no Capítulo 2 de (Paulino, Turkman, and Murteira 2003) e no Capítulo 5 de (Press 2003)
(Morris, Oakley, and Crowe 2014) apresentam uma ferramenta baseada na web para obter distribuições de probabilidade de especialistas

6.3 Estimação Pontual

Seções 8.2 e 8.3 de (Press 2003)
Seção 3.2 de (Paulino, Turkman, and Murteira 2003)

6.4 (Estimação por) Intervalo/Regiões de Credibilidade

Seção 8.4 de (Press 2003)
Seção 3.3 de (Paulino, Turkman, and Murteira 2003)

6.5 (Estimação por) Teste de Hipóteses

Capítulo 9 de (Press 2003)
Seção 3.4 de (Paulino, Turkman, and Murteira 2003)

6.5.1 Fatores de Bayes

(Kass and Raftery 1995)
Seção 9.5.1 de (Press 2003)
Seção 3.4.1 de (Paulino, Turkman, and Murteira 2003)

6.5.2 FBST - Full Bayesian Significance Test

Proposta de (Carlos Alberto de Bragança Pereira and Stern 1999) para testar hipóteses precisas (sharp hypotheses)
Amplamente revisado em (Carlos A. de B. Pereira et al. 2008) e (Carlos Alberto de Brgança Pereira and Stern 2020)

Referências

Bayes, Thomas. 1763. “An Essay Towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, FRS Communicated by Mr. Price, in a Letter to John Canton, AMFR S.” Philosophical Transactions of the Royal Society of London, no. 53: 370–418. https://www.ias.ac.in/article/fulltext/reso/008/04/0080-0088.

Berger, James O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd ed. Springer Science & Business Media. https://www.springer.com/gp/book/9780387960982.

Birnbaum, Allan. 1962. “On the Foundations of Statistical Inference.” Journal of the American Statistical Association 57 (298): 269–306. https://www.jstor.org/stable/2281640.

Kass, Robert E, and Adrian E Raftery. 1995. “Bayes Factors.” Journal of the American Statistical Association 90 (430): 773–95. http://xyala.cap.ed.ac.uk/teaching/tutorials/phylogenetics/Bayesian_Workshop/PDFs/Kass%20and%20Raftery%201995.pdf.

Lindley, Dennis V, and LD Phillips. 1976. “Inference for a Bernoulli Process (a Bayesian View).” The American Statistician 30 (3): 112–19. https://www.jstor.org/stable/2683855.

Morris, David E, Jeremy E Oakley, and John A Crowe. 2014. “A Web-Based Tool for Eliciting Probability Distributions from Experts.” Environmental Modelling & Software 52: 1–4. http://dx.doi.org/10.1016/j.envsoft.2013.10.010.

Paulino, Carlos Daniel Mimoso, Maria Antónia Amaral Turkman, and Bento Murteira. 2003. Estatı́stica Bayesiana. Fundação Calouste Gulbenkian, Lisboa. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:puc01000334509.

Pereira, Carlos A de B, Julio Michael Stern, Sergio Wechsler, and others. 2008. “Can a Significance Test Be Genuinely Bayesian?” Bayesian Analysis 3 (1): 79–100. https://projecteuclid.org/download/pdf_1/euclid.ba/1340370562.

Pereira, Carlos Alberto de Bragança, and Julio Michael Stern. 1999. “Evidence and Credibility: Full Bayesian Significance Test for Precise Hypotheses.” Entropy 1 (4): 99–110. https://www.mdpi.com/1099-4300/1/4/99.

Pereira, Carlos Alberto de Brgança, and Julio Michael Stern. 2020. “The e-Value: A Fully Bayesian Significance Measure for Precise Statistical Hypotheses and Its Research Program.” https://doi.org/10.1007/s40863-020-00171-7.

Press, S James. 2003. Subjective and Objective Bayesian Statistics: Principles, Models, and Applications, 2nd. Edition. John Wiley & Sons. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:oclc(OCoLC)587388980.

Savage, Leonard J, George Barnard, Jerome Cornfield, Irwin Bross, IJ Good, DV Lindley, CW Clunies-Ross, et al. 1962. “On the Foundations of Statistical Inference: Discussion.” Journal of the American Statistical Association 57 (298): 307–26. https://www.jstor.org/stable/2281641.

Wechsler, Sérgio, Carlos Alberto de Bragança Pereira, and P. C. F. Marques. 2008. “Birnbaum’s Theorem Redux.” https://www.ime.usp.br/ pmarques/papers/redux.pdf.

Segundo a documentação oficial do R, os CRAN Task Views (‘Visualizadores de Tarefa da Rede Abrangente de Arquivos R,’ em tradução livre) têm como objetivo fornecer alguma orientação sobre quais pacotes no CRAN são relevantes para tarefas relacionadas a um determinado tópico. Eles fornecem uma breve visão geral dos pacotes incluídos têm como objetivo ter um foco nítido para que seja suficientemente claro quais pacotes devem ser incluídos (ou excluídos) - e não têm a intenção de endossar os “melhores” pacotes para uma determinada tarefa.↩︎
“The Likelihood Principle. In making inferences or decisions about \(\theta\) after x is observed, all relevant experimental information is contained in the likelihood function for the observed x. Furthermore, two likelihood functions contain the same information about \(\theta\) if they are proportional to each other (as functions of \(\theta\)).” (Berger 1985, 28)↩︎
Do Inglês Head (cara) e Tail (coroa).↩︎