5.5 … para dados de contagem

5.5.1 Binomial \(\cdot\) \(\mathcal{B}(n,p)\)

Veja https://filipezabala.com/fe/distr-discr-esp.html#binom.

5.5.2 Multinomial \(\cdot\) \(\mathcal{M}(n,p_1,\ldots,p_k)\)

A distribuição multinomial possui diversos resultados teóricos importantes, sendo utilizada em diversas frentes de trabalho. (N. L. Johnson, Kotz, and Balakrishnan 1997, 32) indicam que esta distribuição parece ter sido explicitamente introduzida na literatura em conexão com o clássico “problema de pontos para três jogadores de igual habilidade” por (Montmort 1708). Foi posteriormente usada por (Moivre 1730) em conexão com o mesmo problema.

Formalmente considera-se uma sequência de \(n\) ensaios independentes, dentre os quais apenas um dos \(k\) eventos mutuamente exclusivos \(E_1,E_2,\ldots,E_k\) deve ser observado. A probabilidade de ocorrência de um evento \(E_i\) em qualquer ensaio é igual a \(p_i\), garantindo-se \(p_1+\cdots+p_k=1\). Sejam \(X_1,X_2,\ldots,X_k\) variáveis aleatórias indicando respectivamente o número de ocorrências de \(E_1,E_2,\ldots,E_k\) nos \(n\) ensaios. Neste caso \(X_1,X_2,\ldots,X_k \sim \mathcal{M}(n,p_1,\ldots,p_k)\), e a função (massa) de probabilidade é dada por

\[\begin{equation} p(x_1,\ldots,x_k|p_1,\ldots,p_k) = {n \choose x_1,\ldots,x_k} p_1^{x_1} \cdots p_k^{x_k} \tag{5.5} \end{equation}\]

onde \(n = \sum_{i=1}^k x_i\), \(\; p_i \in \left[ 0,1 \right]\), \(\; x_i \in \left\lbrace 0, \ldots, n \right\rbrace\), \(\; i \in \{1,\ldots,k\}\) e o coeficiente multinomial é dado por \[\begin{equation} {n \choose x_1,\ldots,x_k} = \frac{n!}{x_1! \cdots x_k!} \tag{5.6} \end{equation}\]

As esperanças e variâncias são dadas por

\[\begin{equation} E(X_i)=np_i \tag{5.7} \end{equation}\]

\[\begin{equation} V(X_i)=np_i(1-p_i) \tag{5.8} \end{equation}\]

Exemplo 5.9 (Adaptado de (Meyer 1970, 177–78)) Uma haste de comprimento especificado é fabricada. Assuma que \(C\): ‘comprimento da haste em centímetros’ é uma variável aleatória uniformemente distribuída em [26,30]. Suponha que se deseja saber apenas se um dos três eventos a seguir ocorreu: \[E_1 = \{C<27\}, \;\; E_2 = \{27 \le C \le 29.6\}, \;\; E_3 = \{C>29.6\}.\] Seja \[Pr(E_1) = 0.25, \;\; Pr(E_2) = 0.65, \;\; Pr(E_3) = 0.10.\]

Assim, se \(n=10\) dessas hastes forem fabricadas, a probabilidade de obter exatamente \(x_1=5\) hastes de comprimento menor que 27 centímetros e exatamente \(x_3=2\) de comprimento maior que 29.5 centímetros é dada por \[Pr(X_1=5, X_2=3, X_3=2)=\frac{10!}{5!3!2!}(0.25)^{5}(0.65)^{3}(0.10)^{2}=0.00675835\]

# na mão
factorial(10)/(factorial(5)*factorial(3)*factorial(2)) * (.25)^(5)*(.65)^(3)*(0.10)^(2)

## [1] 0.00675835

# via função
dmultinom(c(5,3,2), prob = c(.25,.65,.10))

## [1] 0.00675835

Exercício 5.5 Considere o Exemplo 5.9. Calcule:

\(Pr(X_1=7, X_2=3, X_3=0)\).
\(Pr(X_1=9)\).

5.5.3 Poisson \(\cdot \; \mathcal{P}(\lambda)\)

Veja https://filipezabala.com/fe/distr-discr-esp.html#poisson.

5.5.4 Poisson bivariada

(Holgate 1964) discute a estimativa do parâmetro de covariância da distribuição Poisson bivariada. Considerando a notação de (Karlis and Ntzoufras 2003), \((X_1,X_2)\) tem distribuição Poisson bivariada de parâmetros \(\lambda_1,\lambda_2,\lambda_3\) – anotada por \(\mathcal{PB}(\lambda_1,\lambda_2,\lambda_3)\) – com função (massa) de probabilidade dada por \[\begin{equation} Pr(X_1=x_1, X_2=x_2) = e^{-(\lambda_1+\lambda_2+\lambda_3)} \frac{\lambda_{1}^{x_1}}{x_1!} \frac{\lambda_{2}^{x_2}}{x_2!} \sum_{k=0}^{\min{\{x_1,x_2\}}} {x_1 \choose k} {x_2 \choose k} k! \left( \frac{\lambda_3}{\lambda_1 \lambda_2} \right)^k \tag{5.9} \end{equation}\]

As distribuições marginais são \(X_1 \sim \mathcal{P}(\lambda_1+\lambda_3)\) e \(X_2 \sim \mathcal{P}(\lambda_2+\lambda_3)\) com \(Cov(X_1,X_2)=\lambda_3\), caracterizadas por \(X_1=Y_1+Y_3\) e \(X_2=Y_2+Y_3\) onde \(Y_1,Y_2,Y_3\) são três variáveis aleatórias independentes tais que \(Y_1 \sim \mathcal{P}(\lambda_1)\), \(Y_2 \sim \mathcal{P}(\lambda_2)\) e \(Y_3 \sim \mathcal{P}(\lambda_3)\).

(Kawamura 1984) sugere que as estimativas de máxima verossimilhança podem ser dadas por \[\begin{equation} \hat{\lambda}_3 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n-1} \tag{5.10} \end{equation}\]

\[\begin{equation} \hat{\lambda}_1=\bar{x}-\hat{\lambda}_3 \tag{5.11} \end{equation}\]

\[\begin{equation} \hat{\lambda}_2=\bar{y}-\hat{\lambda}_3 \tag{5.12} \end{equation}\]

Exemplo 5.10 Pode-se simular uma poisson bivariada utilizando extraDistr::rbvpois. São gerados 5000 valores de uma \(\mathcal{PB}(2,10,5)\), onde \(\lambda_1+\lambda_3=2+5=7\) e \(\lambda_2+\lambda_3=10+5=15\).

library(extraDistr)
set.seed(1); x <- rbvpois(5000, 2, 10, 5)
prob <- prop.table(table(x[,1], x[,2]))
x1 <- as.numeric(dimnames(prob)[[1]])
x2 <- as.numeric(dimnames(prob)[[2]])
graphics::image(x1, x2, prob)

if(type_book == 'bookdown::gitbook'){
  rgl::clear3d()
  rgl::persp3d(x1, x2, prob, col = rainbow(1000))
}

colMeans(x)

## [1]  6.9982 15.0516

cov(x)

##          [,1]     [,2]
## [1,] 7.023201  5.23314
## [2,] 5.233140 15.35681

Exercício 5.6 Considere o Exemplo 5.10.

Investigue o objeto table(x[,1], x[,2]).
Obtenha \(\hat{\lambda}_1\), \(\hat{\lambda}_2\) e \(\hat{\lambda}_3\).
Calcule \(Pr(X_1=11, X_2=13)\). Dica: considere extraDistr::dbvpois.

Exercício 5.7 (Campbell 1934, 24) apresenta resultados experimentais de uma variável binária, disponíveis em https://filipezabala.com/data/campbell1934poisson.csv.

Obtenha a tabela bivariada dos dados.
Obtenha \(\hat{\lambda}_1\), \(\hat{\lambda}_2\) e \(\hat{\lambda}_3\).
Calcule \(Pr(X_1=2, X_2=1)\).

5.5.5 Hipergeométrica \(\cdot \; \mathcal{H}(N,R,n)\)

Veja https://filipezabala.com/fe/distr-discr-esp.html#hipergeom.

5.5.6 Hipergeométrica multivariada \(\cdot \; \mathcal{HM}(N,R_1,\ldots,R_k,n)\)

Suponha uma urna com \(N\) bolinhas das quais \(R_i\) são marcadas com \(i\), de onde retira-se uma amostra de \(n\) bolinhas. Seja \(X_i\) o número de bolinhas marcadas com \(i\) das \(n\) sorteadas. \((X_1,\ldots,X_k)\) tem distribuição hipergeométrica multivariada, denotada por \[ (X_1,\ldots,X_k) \sim \mathcal{HM}(N,R_1,\ldots,R_k,n) \] onde \(N \in \{1,2,\ldots\}\), \(R_i \in \{1,2,\ldots,N\}\), \(n \in \{1,2,\ldots,N\}\), \(k \in \{1,2,\ldots,N\}\) e \(i \in \{1,2,\ldots,k\}\). Sua função (massa) de probabilidade é definida por

\[\begin{equation} p(x_1,\ldots,x_k|N,R_1,\ldots,R_k,n) = \frac{\prod_{i=1}^k {R_i \choose x_i}}{{N \choose n}} \tag{5.13} \end{equation}\]

onde \(x_i \in \{0,1,\ldots,n\}\), \(n=\sum_{i=1}^k x_i\) e \(N=\sum_{i=1}^k R_i\).

As esperanças e variâncias são dadas por \[\begin{equation} E(X_i) = n \frac{R_i}{N} \tag{5.14} \end{equation}\]

\[\begin{equation} V(X_i) = n \frac{N-n}{N-1} \frac{R_i}{N} \left( 1-\frac{R_i}{N} \right) \tag{5.15} \end{equation}\]

Exemplo 5.11 Em um baralho de \(N=52\) cartas com \(R_i=13\) cartas de \(k=4\) naipes, \(i \in \{1,2,3,4\}\), retiram-se \(n=10\) cartas ao acaso sem reposição. A probabilidade de se obter \(x_1=2\) cartas de copas, \(x_2=3\) cartas de ouros, \(x_3=1\) carta de paus e \(x_4=4\) cartas de espadas é \[p(2,3,1,4|52,13,13,13,13,10) = \frac{{13 \choose 2}{13 \choose 3}{13 \choose 1}{13 \choose 4}}{{52 \choose 10}} \approx 0.01310699\]

choose(13,2)*choose(13,3)*choose(13,1)*choose(13,4)/choose(52,10)

## [1] 0.01310699

extraDistr::dmvhyper(c(2,3,1,4), c(13,13,13,13), 10)

## [1] 0.01310699

choose(13,2)*choose(13,3)*choose(13,1)*choose(13,4)/choose(52,10)

## [1] 0.01310699

?extraDistr::dmvhyper(c(2,3,1,4), c(13,13,13,13), 10)

References

Campbell, JT. 1934. “The Poisson Correlation Function.” Proceedings of the Edinburgh Mathematical Society 4 (1): 18–26. https://www.cambridge.org/core/services/aop-cambridge-core/content/view/S0013091500024135.

Holgate, Philip. 1964. “Estimation for the Bivariate Poisson Distribution.” Biometrika 51 (1-2): 241–87. https://www.jstor.org/stable/pdf/2334210.pdf.

Johnson, Norman Lloyd, Samuel Kotz, and Narayanaswamy Balakrishnan. 1997. Discrete Multivariate Distributions. John Wiley & Sons, Inc.

Karlis, Dimitris, and Ioannis Ntzoufras. 2003. “Analysis of Sports Data by Using Bivariate Poisson Models.” Journal of the Royal Statistical Society: Series D (The Statistician) 52 (3): 381–93. https://rss.onlinelibrary.wiley.com/doi/pdf/10.1111/1467-9884.00366.

Kawamura, Kazutomo. 1984. “Direct Calculation of Maximum Likelihood Estimator for the Bivariate Poisson Distribution.” Kodai Mathematical Journal 7 (2): 211–21. https://www.jstage.jst.go.jp/article/kodaimath1978/7/2/7_2_211/_pdf.

Meyer, Paul L. 1970. Introductory Probability and Statistical Applications. 2nd ed. Addison-Wesley Publishing Company.

Moivre, Abraham de. 1730. Miscellanea Analytica de Seriebus Et Quadraturis. J. Tonson & J. Watts. https://archive.org/details/bub_gb_TFX1165yEc4C.

Montmort, Pierre Rémond de. 1708. Essay d’analyse Sur Les Jeux de Hazard. J. Quillau. https://archive.org/details/ldpd_6444894_000/mode/2up.