6.5 … para dados de contagem
6.5.1 Binomial \(\cdot\) \(\mathcal{B}(n,p)\)
Veja https://filipezabala.com/eb/distr-discr-esp.html#binom.
6.5.2 Multinomial \(\cdot\) \(\mathcal{M}(n,p_1,\ldots,p_k)\)
A distribuição multinomial possui diversos resultados teóricos importantes, sendo utilizada em diversas frentes de trabalho. (N. L. Johnson, Kotz, and Balakrishnan 1997, 32) indicam que esta distribuição parece ter sido explicitamente introduzida na literatura em conexão com o clássico “problema de pontos para três jogadores de igual habilidade” por (Montmort 1708). Foi posteriormente usada por (Moivre 1730) em conexão com o mesmo problema.
Formalmente considera-se uma sequência de \(n\) ensaios independentes, dentre os quais apenas um dos \(k\) eventos mutuamente exclusivos \(E_1,E_2,\ldots,E_k\) deve ser observado. A probabilidade de ocorrência de um evento \(E_i\) em qualquer ensaio é igual a \(p_i\), garantindo-se \(p_1+\cdots+p_k=1\). Sejam \(X_1,X_2,\ldots,X_k\) variáveis aleatórias indicando respectivamente o número de ocorrências de \(E_1,E_2,\ldots,E_k\) nos \(n\) ensaios. Neste caso \(X_1,X_2,\ldots,X_k \sim \mathcal{M}(n,p_1,\ldots,p_k)\), e a função (massa) de probabilidade é dada por
\[\begin{equation} p(x_1,\ldots,x_k|p_1,\ldots,p_k) = {n \choose x_1,\ldots,x_k} p_1^{x_1} \cdots p_k^{x_k} \tag{6.5} \end{equation}\]
onde \(n = \sum_{i=1}^k x_i\), \(\; p_i \in \left[ 0,1 \right]\), \(\; x_i \in \left\lbrace 0, \ldots, n \right\rbrace\), \(\; i \in \{1,\ldots,k\}\) e o coeficiente multinomial é dado por \[\begin{equation} {n \choose x_1,\ldots,x_k} = \frac{n!}{x_1! \cdots x_k!} \tag{6.6} \end{equation}\]
As esperanças e variâncias são dadas por
\[\begin{equation} E(X_i)=np_i \tag{6.7} \end{equation}\]
\[\begin{equation} V(X_i)=np_i(1-p_i) \tag{6.8} \end{equation}\]
Exemplo 6.9 (Adaptado de (Meyer 1970, 177–78)) Uma haste de comprimento especificado é fabricada. Assuma que \(C\): ‘comprimento da haste em centímetros’ é uma variável aleatória uniformemente distribuída em [26,30]. Suponha que se deseja saber apenas se um dos três eventos a seguir ocorreu: \[E_1 = \{C<27\}, \;\; E_2 = \{27 \le C \le 29.6\}, \;\; E_3 = \{C>29.6\}.\] Seja \[Pr(E_1) = 0.25, \;\; Pr(E_2) = 0.65, \;\; Pr(E_3) = 0.10.\]
Assim, se \(n=10\) dessas hastes forem fabricadas, a probabilidade de obter exatamente \(x_1=5\) hastes de comprimento menor que 27 centímetros e exatamente \(x_3=2\) de comprimento maior que 29.5 centímetros é dada por \[Pr(X_1=5, X_2=3, X_3=2)=\frac{10!}{5!3!2!}(0.25)^{5}(0.65)^{3}(0.10)^{2}=0.00675835\]
## [1] 0.00675835
## [1] 0.00675835
Exercício 6.5 Considere o Exemplo 6.9. Calcule:
- \(Pr(X_1=7, X_2=3, X_3=0)\).
- \(Pr(X_1=9)\).
6.5.3 Poisson \(\cdot \; \mathcal{P}(\lambda)\)
Veja https://filipezabala.com/eb/distr-discr-esp.html#poisson.
6.5.4 Poisson bivariada
(Holgate 1964) discute a estimativa do parâmetro de covariância da distribuição Poisson bivariada. Considerando a notação de (Karlis and Ntzoufras 2003), \((X_1,X_2)\) tem distribuição Poisson bivariada de parâmetros \(\lambda_1,\lambda_2,\lambda_3\) – anotada por \(\mathcal{PB}(\lambda_1,\lambda_2,\lambda_3)\) – com função (massa) de probabilidade dada por \[\begin{equation} Pr(X_1=x_1, X_2=x_2) = e^{-(\lambda_1+\lambda_2+\lambda_3)} \frac{\lambda_{1}^{x_1}}{x_1!} \frac{\lambda_{2}^{x_2}}{x_2!} \sum_{k=0}^{\min{\{x_1,x_2\}}} {x_1 \choose k} {x_2 \choose k} k! \left( \frac{\lambda_3}{\lambda_1 \lambda_2} \right)^k \tag{6.9} \end{equation}\]
As distribuições marginais são \(X_1 \sim \mathcal{P}(\lambda_1+\lambda_3)\) e \(X_2 \sim \mathcal{P}(\lambda_2+\lambda_3)\) com \(Cov(X_1,X_2)=\lambda_3\), caracterizadas por \(X_1=Y_1+Y_3\) e \(X_2=Y_2+Y_3\) onde \(Y_1,Y_2,Y_3\) são três variáveis aleatórias independentes tais que \(Y_1 \sim \mathcal{P}(\lambda_1)\), \(Y_2 \sim \mathcal{P}(\lambda_2)\) e \(Y_3 \sim \mathcal{P}(\lambda_3)\).
(Kawamura 1984) sugere que as estimativas de máxima verossimilhança podem ser dadas por \[\begin{equation} \hat{\lambda}_3 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n-1} \tag{6.10} \end{equation}\]
\[\begin{equation} \hat{\lambda}_1=\bar{x}-\hat{\lambda}_3 \tag{6.11} \end{equation}\]
\[\begin{equation} \hat{\lambda}_2=\bar{y}-\hat{\lambda}_3 \tag{6.12} \end{equation}\]
Exemplo 6.10 Pode-se simular uma poisson bivariada utilizando extraDistr::rbvpois
. São gerados 5000 valores de uma \(\mathcal{PB}(2,10,5)\), onde \(\lambda_1+\lambda_3=2+5=7\) e \(\lambda_2+\lambda_3=10+5=15\).
library(extraDistr)
set.seed(1); x <- rbvpois(5000, 2, 10, 5)
prob <- prop.table(table(x[,1], x[,2]))
x1 <- as.numeric(dimnames(prob)[[1]])
x2 <- as.numeric(dimnames(prob)[[2]])
graphics::image(x1, x2, prob)
## [1] 6.9982 15.0516
## [,1] [,2]
## [1,] 7.023201 5.23314
## [2,] 5.233140 15.35681
Exercício 6.6 Considere o Exemplo 6.10.
- Investigue o objeto
table(x[,1], x[,2])
. - Obtenha \(\hat{\lambda}_1\), \(\hat{\lambda}_2\) e \(\hat{\lambda}_3\).
- Calcule \(Pr(X_1=11, X_2=13)\). Dica: considere
extraDistr::dbvpois
.
Exercício 6.7 (Campbell 1934, 24) apresenta resultados experimentais de uma variável binária, disponíveis em https://filipezabala.com/data/campbell1934poisson.csv.
- Obtenha a tabela bivariada dos dados.
- Obtenha \(\hat{\lambda}_1\), \(\hat{\lambda}_2\) e \(\hat{\lambda}_3\).
- Calcule \(Pr(X_1=2, X_2=1)\).
6.5.5 Hipergeométrica \(\cdot \; \mathcal{H}(N,R,n)\)
Veja https://filipezabala.com/eb/distr-discr-esp.html#hipergeom.
6.5.6 Hipergeométrica multivariada \(\cdot \; \mathcal{HM}(N,R_1,\ldots,R_k,n)\)
Suponha uma urna com \(N\) bolinhas das quais \(R_i\) são marcadas com \(i\), de onde retira-se uma amostra de \(n\) bolinhas. Seja \(X_i\) o número de bolinhas marcadas com \(i\) das \(n\) sorteadas. \((X_1,\ldots,X_k)\) tem distribuição hipergeométrica multivariada, denotada por \[ (X_1,\ldots,X_k) \sim \mathcal{HM}(N,R_1,\ldots,R_k,n) \] onde \(N \in \{1,2,\ldots\}\), \(R_i \in \{1,2,\ldots,N\}\), \(n \in \{1,2,\ldots,N\}\), \(k \in \{1,2,\ldots,N\}\) e \(i \in \{1,2,\ldots,k\}\). Sua função (massa) de probabilidade é definida por
\[\begin{equation} p(x_1,\ldots,x_k|N,R_1,\ldots,R_k,n) = \frac{\prod_{i=1}^k {R_i \choose x_i}}{{N \choose n}} \tag{6.13} \end{equation}\]
onde \(x_i \in \{0,1,\ldots,n\}\), \(n=\sum_{i=1}^k x_i\) e \(N=\sum_{i=1}^k R_i\).
As esperanças e variâncias são dadas por \[\begin{equation} E(X_i) = n \frac{R_i}{N} \tag{6.14} \end{equation}\]
\[\begin{equation} V(X_i) = n \frac{N-n}{N-1} \frac{R_i}{N} \left( 1-\frac{R_i}{N} \right) \tag{6.15} \end{equation}\]
Exemplo 6.11 Em um baralho de \(N=52\) cartas com \(R_i=13\) cartas de \(k=4\) naipes, \(i \in \{1,2,3,4\}\), retiram-se \(n=10\) cartas ao acaso sem reposição. A probabilidade de se obter \(x_1=2\) cartas de copas, \(x_2=3\) cartas de ouros, \(x_3=1\) carta de paus e \(x_4=4\) cartas de espadas é \[p(2,3,1,4|52,13,13,13,13,10) = \frac{{13 \choose 2}{13 \choose 3}{13 \choose 1}{13 \choose 4}}{{52 \choose 10}} \approx 0.01310699\]
## [1] 0.01310699
## [1] 0.01310699
## [1] 0.01310699