5.4 Distribuição a priori

All deductions are made a priori. (Wittgenstein 1921, 5.133)

5.4.1 Priori (não informativa) de Jeffreys

A law of chance is invariant for all transformations of the parameters when the law is differentiable with regard to all parameters. (Jeffreys 1946, 453)

(Jeffreys 1946) sugere uma forma invariante para a probabilidade a priori em problemas de estimação. É definida por

\[\begin{equation} \pi_J \propto \sqrt{\det I(\theta)} \tag{5.3} \end{equation}\]

\(I(\theta)\) é a informação de Fisher, e representa a curvatura da log-verossimilhança (Ly et al. 2017). É dada por

\[\begin{equation} I(\theta) = -E \left[ \frac{\partial^2 \log f(x|\theta)}{\partial \theta^2} \right] \tag{5.4} \end{equation}\]

Exemplo 5.7 Seja \(X|\theta \sim B(n,\theta)\) tal que \[p(x|\theta) = \dbinom{n}{x}\theta^{x}(1-\theta)^{n-x}, \;\; 0 \le \theta \le 1.\] Assim \[\begin{align*} \log p(x|\theta) &= x \log \theta + (n-x) \log (1-\theta) \\ \frac{\partial \log p(x|\theta)}{\partial \theta} &= \frac{x}{\theta} - \frac{n-x}{1-\theta} \\ \frac{\partial^2 \log p(x|\theta)}{\partial \theta^2} &= -\frac{x}{\theta^2} - \frac{n-x}{(1-\theta)^2} \\ \end{align*}\]

Como \(E(X|\theta) = n\theta\), \[\begin{align*} I(\theta) &= -E \left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta^2} \right] \\ &= -E \left[ -\frac{x}{\theta^2} - \frac{n-x}{(1-\theta)^2} \right] \\ &= \frac{n\theta}{\theta^2} + \frac{n-n\theta}{(1-\theta)^2} \\ &= \frac{n}{\theta} + \frac{n(1-\theta)}{(1-\theta)^2} \\ &= \frac{n}{\theta} + \frac{n}{(1-\theta)} \\ I(\theta) &= \frac{n}{\theta(1-\theta)} \end{align*}\]

Desta forma \[\pi_J = \sqrt{\frac{n}{\theta(1-\theta)}} \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}} \propto \theta^{\frac{1}{2}-1}(1-\theta)^{\frac{1}{2}-1},\] que é o núcleo de uma \(Beta\left(\frac{1}{2},\frac{1}{2}\right)\).

5.4.2 Prioris de máxima entropia

Frequently partial prior information is available, outside of which it is desired to use a prior that is as noninformative as possible. (…) A useful method of dealing with this problem is through the concept of entropy. (Berger 1985, 90–91)

Considere as Equações (5.9) e (5.11).

Exemplo 5.8 Seja \(X_1, \ldots, X_n\) uma amostra aleatória condicionalmente independente tal que \(X_i|n,\theta \sim Bin(n,\theta)\). Considere a priori \(\theta \sim Beta(\alpha,\beta)\), onde \(E(\theta)=\frac{\alpha}{\alpha+\beta}\) e \(V(\theta)=\frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\).

Se acredita-se que \(E(\theta)=0.4\) e \(V(\theta)=0.06\), obtém-se a priori de máxima entropia \(\theta \sim Beta(1.2,1.8)\) resolvendo o sistema de equações abaixo para \(\alpha\) e \(\beta\). \[ \left\{ \begin{array}{l l} \frac{\alpha}{\alpha+\beta}=0.4 \\ \frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)}=0.06\\ \end{array} \right. \;\; \therefore \;\; \left\{ \begin{array}{l l} \alpha=1.2 \\ \beta=1.8 \\ \end{array} \right. \]

5.4.3 Priori subjetiva

The diversity of man’s beliefs is as wide as the uncounted millions that have been or are now cluttered upon earth. (Lea 1909, 3)

Regra de Cromwell

Almost all thinking people agree that you should not have probability 1 (or 0) for any event, other than one demonstrable by logic, like \(2 \times 2 = 4\). The rule that denies probabilities of 1 or 0 is called Cromwell’s rule, named after Oliver Cromwell who said to the Church of Scotland, “think it possible you may be mistaken”. (Lindley 2006, 91)

Considerando o tratamento de Berger (1985), podem-se considerar algumas estratégias de elici(t)ação de prioris subjetivas.

5.4.3.1 Abordagem do histograma

Quando \(\Theta\) é um intervalo pertence à reta real, uma abordagem comum é usar histogramas.

  • Divide-se \(\Theta\) em subintervalos, atribui-se probabilidades subjetivas a cada um e plota-se um histograma de probabilidade.
  • A partir desse histograma, esboça-se uma densidade suave \(\pi(\theta)\).
  • Não há regra clara para definir o número ou tamanho dos intervalos.
  • Alguns problemas exigem histogramas mais simples, enquanto outros requerem detalhamento maior.
  • A robustez da análise determinará o nível de refinamento necessário.

Dificuldades do método

  • Manipulação: A densidade obtida pode ser complicada de trabalhar.
  • Falta de caudas: O histograma atribui probabilidade 1 a um conjunto limitado, sem caudas (probabilidade zero fora do intervalo).

5.4.3.2 A abordagem da verossimilhança relativa

Útil quando \(\Theta\) é um subconjunto da reta real. Envolve a comparação das probabilidades intuitivas de diversos pontos em \(\Theta\) para, então, construir diretamente uma densidade anterior.

Exemplo 5.9 (Adaptado de Berger (1985), 77-78) Assuma que \(\Theta = [0,1]\). Para construir uma distribuição a priori, é útil comparar as verossimilhanças relativas dos valores extremos do parâmetro. Suponha que \(\theta = 3/4\) seja considerado o mais provável, e \(\theta = 0\) o menos provável. Acredita-se que \(\theta = 3/4\) seja três vezes mais provável que \(\theta = 0\). Além disso, é suficiente estimar as verossimilhanças relativas de outros três pontos: \(1/4\), \(1/2\) e \(1\). Comparando todos com \(\theta = 0\), decide-se que \(\theta = 1/2\) e \(\theta = 1\) são duas vezes mais prováveis, e \(\theta = 1/4\) é 1,5 vez mais provável. A \(\theta = 0\) é atribuída a densidade a priori base igual a 1.

Dificuldades do método

  • Se \(\Theta\) é ilimitado e a verossimilhança relativa só pode ser determinada em uma região finita, é necessário decidir o que fazer fora dessa região.
  • Forma da densidade fora da região central: deve-se decidir como a densidade se comporta nas extremidades.
  • Normalização da densidade: é necessário garantir que a densidade tenha massa total igual a 1.
  • A parte central da densidade (já bem estimada) deve ter uma massa proporcional à das caudas.
  • Isso pode ser resolvido atribuindo subjetivamente probabilidades a regiões central e externa, e ajustando a densidade para refletir essas proporções.

5.4.3.3 Correspondência com uma dada forma funcional

A ideia é assumir que \(\pi(\theta)\) tem uma determinada forma funcional, e então escolher a densidade que mais se aproxima das crenças prévias. A maneira mais fácil de determinar os hiperparâmetros da priori é a partir dos momentos. Se assuminos que \(\theta \sim N(\mu,\sigma^2)\), deve-se definir qual a média e variância da densidade especificada. O mesmo vale para outras distribuições de probabilidade, com \(Gama(\alpha,\beta)\) ou \(Beta(\alpha,\beta)\).

Dificuldades do método

  • É útil apenas quando certas formas funcionais específicas assumidas (e frequentemente inadequadas) da priori.
  • As pessoas tendem a subestimar consideravelmente a quantidade de informação contida em uma amostra de tamanho \(n\).

5.4.3.4 Determinação da FDA

Pode-se realizar a elici(t)ação através da FDA (função distribuição acumulada).

Procedimento

  • Identificação de quantis
    • Selecionam-se subjetivamente quantis tais que \(P(\theta \le z(\alpha)) = \alpha\).
  • Plotagem e ajuste
    • Marcam-se os pontos \((z(\alpha),\alpha)\) em um gráfico
    • Conectam-se os pontos com uma curva suave

Exercício 5.7 Veja

  1. (Morris, Oakley, and Crowe 2014) apresentam MATCH, uma ferramenta web para obter distribuições de probabilidade de especialistas.
  2. (Oakley 2021) apresenta SHELF, uma ferramenta que implementa vários métodos de elici(t)ação de distribuições de probabilidade univariada para um ou mais peritos. Aplicações R Shiny estão incluídas para a maior parte dos métodos.
  3. (Icazatti et al. 2023) trazem PreliZ, um pacote Python que auxilia na escolha de distribuições prioris.
  4. Seção 6.5 de (Barnett 1999)
  5. Capítulo 2 de (Paulino, Turkman, and Murteira 2003)
  6. Capítulo 5 de (S. J. Press 2003)
  7. Capítulo 3 de (Alston et al. 2013)
  8. Jordan (2010) - Lecture 7: Jeffreys Priors and Reference Priors

References

Alston, Clair, Kerrie L Mengersen, Anthony N Pettitt, and John Wiley. 2013. Case Studies in Bayesian Statistical Modelling and Analysis. Wiley Online Library.
Barnett, Vic. 1999. Comparative Statistical Inference. John Wiley & Sons. https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316955.
Berger, James O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd ed. Springer Science & Business Media. https://www.springer.com/gp/book/9780387960982.
Icazatti, Alejandro, Oriol Abril-Pla, Arto Klami, and Osvaldo A Martin. 2023. PreliZ: A tool-box for prior elicitation.” Journal of Open Source Software 8 (89): 5499. https://doi.org/10.21105/joss.05499.
———. 1946. “An Invariant Form for the Prior Probability in Estimation Problems.” Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences 186 (1007): 453–61. https://royalsocietypublishing.org/doi/pdf/10.1098/rspa.1946.0056.
Lea, Homer. 1909. The Valor of Ignorance. Harper & brothers. https://archive.org/details/valorofignorance00leahuoft.
Lindley, Dennis V. 2006. “Understanding Uncertainty.” New Jersey. http://www.al-edu.com/wp-content/uploads/2014/05/Lindley-D.V.-Understanding-uncertainty-2006.pdf.
Ly, Alexander, Maarten Marsman, Josine Verhagen, Raoul Grasman, and Eric-Jan Wagenmakers. 2017. “A Tutorial on Fisher Information.” https://doi.org/10.48550/arXiv.1705.01064.
Morris, David E, Jeremy E Oakley, and John A Crowe. 2014. “A Web-Based Tool for Eliciting Probability Distributions from Experts.” Environmental Modelling & Software 52: 1–4. http://dx.doi.org/10.1016/j.envsoft.2013.10.010.
Oakley, Jeremy. 2021. SHELF: Tools to Support the Sheffield Elicitation Framework. https://CRAN.R-project.org/package=SHELF.
Paulino, Carlos Daniel Mimoso, Maria Antónia Amaral Turkman, and Bento Murteira. 2003. Estatı́stica Bayesiana. Fundação Calouste Gulbenkian, Lisboa. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:puc01000334509.
Press, S James. 2003. Subjective and objective Bayesian statistics: Principles, models, and applications, 2nd. edition. John Wiley & Sons. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:oclc(OCoLC)587388980.
Wittgenstein, Ludwig. 1921. Tractatus Logico-Philosophicus. Project Gutenberg. http://public-library.uk/pdfs/9/292.pdf.