5.4 Princípio da Verossimilhança

Informalmente, o princípio da verossimilhança admite que se dois decisores possuem o mesmo grau de conhecimento e a mesma informação sobre \(\theta\), ambos devem decidir exatamente da mesma forma a respeito de \(\theta\). Em outras palavras, toda a informação amostral deve vir exclusivamente através da função de verossimilhança. (Berger 1985) define da seguinte forma:

Ao fazer inferências ou decisões sobre \(\theta\) após observar \(x\), todas as informações experimentais relevantes estão contidas na função de verossimilhança para o \(x\) observado. Além disso, duas funções de verossimilhança contêm as mesmas informações sobre \(\theta\) se forem proporcionais entre si (como funções de \(\theta\)). (Berger 1985, 28) 25

(Birnbaum 1962) coloca da seguinte maneira:

O princípio da verossimilhança afirma que o “significado evidencial” dos resultados experimentais é caracterizado integralmente pela função de verossimilhança, sem outra referência à estrutura de um experimento, em contraste com os métodos padrão nos quais os níveis de significância e confiança são baseados no modelo experimental completo. (Birnbaum 1962, 269) 26

Exemplo 5.5 (Princípio da Verossimilhança 1, adaptado de (Paulino, Turkman, and Murteira 2003, 34)) Considere uma sucessão de lançamentos de uma moeda, independentes e condicionados por \(\theta\), a probabilidade de sair ‘cara’. Suponha que seja obtido o resultado \[x = \lbrace H,H,H,H,H,T,H,H,H,H,T,T \rbrace,\] onde \(H\): ‘cara’ e \(T\): ‘coroa’27. Este resultado poderia ser obtido por diversos processos experimentais ou regras de parada, como
- realizar 12 lançamentos, fixados a priori
- lançar a moeda até aparecerem 3 ‘coroas’
- lançar a moeda até aparecerem 2 ‘coroas’ consecutivas
- lançar a moeda até o jogador ficar saturado, tendo a saturação ocorrido no 12º lançamento

Em qualquer caso a (função de) verossimilhança é proporcional a \(\theta^9 \left( 1 - \theta \right)^3\), i.e., a amostra informa 9 sucessos (caras) e 3 fracassos (coroas). Assim, adotando-se o princípio da verossimilhança, toda a informação que \(x\) pode fornecer sobre \(\theta\) encontra-se nesta expressão. Saber qual dos quatro processos experimentais foi utilizado (cada um com um espaço amostral diferente) ou saber qual foi a regra de parada adotada nada tem a acrescentar. Note que a possibilidade de o experimentador parar por seu arbítrio ao considerar o resultado \(x\) satisfatório, em nada altera a opinião sobre \(\theta\).
\(\\\)

Exemplo 5.6 (Princípio da Verossimilhança 2, adaptado de (Lindley and Phillips 1976, 113–14), (Berger 1985, 28) e (Paulino, Turkman, and Murteira 2003, 34–35)) Suponha uma moeda com probabilidade \(\theta\) de face cara. Deseja-se testar a hipótese \(H_0 : \theta = 1/2\) contra \(H_1 : \theta > 1/2\). Admita que um experimento é realizado, no qual uma série de lançamentos é realizada, resultando em \(x=9\) ‘caras’ e \(n-x=k=3\) ‘coroas’. Pode-se considerar dois processos experimentais:

  • \(E_1\): lançar a moeda \(n=12\) vezes;
  • \(E_2\): lançar a moeda até que apareçam \(k=3\) ‘coroas’

Esta é uma particular realização da variável aleatória (1) binomial \(\mathcal{B}(12,\theta)\) (\(X\): número de caras em 12 lançamentos) ou (2) binomial negativa \(\mathcal{BN}(3,1-\theta)\) (\(X\): número de caras (fracassos) até a terceira coroa, conforme Eq. (3.52)). Note a conveniência da parametrização, com destaque para o parâmetro \(1-\theta\) da binomial negativa.

Sob o prisma clássico, o nível crítico (ou valor-\(p\), a probabilidade de se obter \(X \ge 9\)) da hipótese \(H_0 : \theta = 1/2\) difere nos dois casos.

No caso \(E_1\), \(X\) tem distribuição binomial – \(X \sim \mathcal{B} \left( 12, \theta \right)\) – cujo nível crítico é

\[Pr\left( X \ge 9 \bigg\rvert \theta = \frac{1}{2} \right) = \left[ \binom{12}{9} + \binom {12}{10} + \binom {12}{11} + \binom {12}{12} \right] \left[ \frac{1}{2} \right]^{12} \approx 0.0730.\]

1-pbinom(8, 12, 1/2)
## [1] 0.07299805

No caso \(E_2\), \(X\) tem distribuição binomial negativa – \(X \sim \mathcal{BN} \left( 3, 1-\theta \right)\) –, com nível crítico

\[Pr\left( X \ge 9 \bigg\rvert \theta = \frac{1}{2} \right) = \binom{11}{9} \left( \frac{1}{2} \right)^{9} \left( \frac{1}{2} \right)^{3} + \binom{12}{10} \left( \frac{1}{2} \right)^{10} \left( \frac{1}{2} \right)^{3} + \cdots \approx 0.0327\]

1-pnbinom(8, 3, 1/2)
## [1] 0.03271484

Logo, adotado um limiar de significância de 5%, \(H_0\) é rejeitada no caso \(E_2\) e não rejeitada em \(E_1\). Assumindo o princípio da verossimilhança, as conclusões devem ser idênticas nos dois casos. Em ambos a (função de) verossimilhança é proporcional a \(\theta^9 \left( 1 - \theta \right)^3\). De fato, as verossimilhanças em \(E_1\) e \(E_2\) são

\[L_1 \left( \theta \right| x = 9 ) = \binom {12}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 220 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]

\[L_2 \left( \theta \right| x = 9 ) = \binom {11}{9} \theta^{9} \left( 1-\theta \right) ^{3} = 55 \; \theta^{9} \left( 1-\theta \right)^{3} \propto \theta^{9} \left( 1-\theta \right)^{3}\]

Exercício 5.5 .
(a) Comente sobre o tweet https://twitter.com/agpatriota/status/1487877332627070983.
(b) Sobre a afirmação de que “a regra de parada dá informação sobre a variabilidade dos estimadores”, indique como e quando isso ocorre.
(c) Considerando o tweet https://twitter.com/agpatriota/status/1487888981329170442, comente como decidir em situações reais que não envolvam evetos raros. Usualmente na literatura considera-se raro o caso cuja proporção de ocorrência estimada da população é inferior a 1%.

\(\\\)

5.4.1 Veja também

Referências

Berger, James O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd ed. Springer Science & Business Media. https://www.springer.com/gp/book/9780387960982.
Birnbaum, Allan. 1962. “On the Foundations of Statistical Inference.” Journal of the American Statistical Association 57 (298): 269–306. https://www.jstor.org/stable/2281640.
Lindley, Dennis V., and Lawrence D. Phillips. 1976. “Inference for a Bernoulli Process (a Bayesian View).” The American Statistician 30 (3): 112–19. https://www.jstor.org/stable/2683855.
Paulino, Carlos Daniel Mimoso, Maria Antónia Amaral Turkman, and Bento Murteira. 2003. Estatı́stica Bayesiana. Fundação Calouste Gulbenkian, Lisboa. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:puc01000334509.
Press, S James. 2003. Subjective and Objective Bayesian Statistics: Principles, Models, and Applications, 2nd. Edition. John Wiley & Sons. http://primo-pmtna01.hosted.exlibrisgroup.com/PUC01:PUC01:oclc(OCoLC)587388980.
Savage, Leonard J, George Barnard, Jerome Cornfield, Irwin Bross, IJ Good, DV Lindley, CW Clunies-Ross, et al. 1962. “On the Foundations of Statistical Inference: Discussion.” Journal of the American Statistical Association 57 (298): 307–26. https://www.jstor.org/stable/2281641.
Wechsler, Sérgio, Carlos Alberto de B. Pereira, and Paulo C. F. Marques. 2008. “Birnbaum’s Theorem Redux.” https://www.ime.usp.br/~pmarques/papers/redux.pdf.

  1. The Likelihood Principle. In making inferences or decisions about \(\theta\) after x is observed, all relevant experimental information is contained in the likelihood function for the observed x. Furthermore, two likelihood functions contain the same information about \(\theta\) if they are proportional to each other (as functions of \(\theta\)).(Berger 1985, 28)↩︎

  2. The likelihood principle states that the ”evidential meaning” of experimental results is characterized fully by the likelihood function, without other reference to the structure of an experiment, in contrast with standard methods in which significance and confidence levels are based on the complete experimental model.↩︎

  3. Do Inglês Head (cara) e Tail (coroa).↩︎