3.9 Distr. Contínuas Especiais
Para maiores detalhes recomenda-se (Johnson, Kotz, and Balakrishnan 1994) e (Johnson, Kotz, and Balakrishnan 1995). McLaughlin (2016) traz um compêndio de distribuições de probabilidade.
3.9.1 Uniforme Contínua \(\cdot \; \mathcal{U}(a,b)\)
A distribuição uniforme no intervalo \(\left[ a,b \right]\) tem sua (função) densidade (de probabilidade) definida por
\[\begin{equation} f(x|a,b) = \dfrac{1}{b-a} \tag{3.72} \end{equation}\]
onde \(a \le x \le b\), \(-\infty < a,b < \infty\) com \(b>a\). Função distribuição acumulada
\[\begin{equation} F(x|a,b) = Pr(X<x) = \dfrac{x-a}{b-a} \tag{3.73} \end{equation}\]
Esperança \[\begin{equation} E(X) = \dfrac{a+b}{2} \tag{3.74} \end{equation}\]
Variância \[\begin{equation} V(X) = \dfrac{(b-a)^2}{12} \tag{3.75} \end{equation}\]
3.9.2 Normal \(\cdot \; \mathcal{N}(\mu,\sigma)\)
A distribuição normal ou gaussiana (em homenagem a Johann Carl Friedrich Gauss) é anotada por \(\mathcal{N}(\mu,\sigma)\). Sua fdp e dada por \[\begin{equation} f(x|\mu,\sigma) = \dfrac{1}{\sqrt{2\pi} \sigma} \exp \bigg\{ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right) ^2 \bigg\} \tag{3.78} \end{equation}\]
para \(-\infty < x < \infty\), \(-\infty < \mu < \infty\), \(\sigma > 0\). Os parâmetros \(\mu\) e \(\sigma\) podem ser calculados respectivamente pelas Equações (2.8) e (2.26). A notação \(\exp\{...\}\) representa o número de Euler elevado à expressão delimitada pelos colchetes.
A distribuição normal padrão é dada pela expressão \[\begin{equation} f(z|\mu=0, \sigma=1) = \dfrac{1}{\sqrt{2\pi}} \exp \bigg\{ -\frac{z^2}{2} \bigg\} \tag{3.79} \end{equation}\]
para \(-\infty < z < \infty\).
Exemplo 3.36 A distribuição normal pode ser operada com as funções dnorm
(densidade), pnorm
(probabilidade acumulada), qnorm
(quantil) e rnorm
(aleatório/random) da biblioteca stats
.
## [1] 0.9772499
## [1] -1.959964
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3.073370 -0.705544 -0.009566 -0.032516 0.636537 3.061137
# densidade de uma N(0,1), sobrepondo valores simulados
hist(x, freq = F,main = 'N(0,1)')
curve(dnorm(x), add = T, col = 'red')
Exercício 3.22 Assita ao vídeo But what is the Central Limit Theorem? do canal 3Blue1Brown. Agradeço ao Vitor Luiz Cavagnolli Machado pela sugestão.
Exercício 3.23 Leia o artigo https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule.
Para saber mais
(Patel and Read 1982) trazem uma coleção de resultados e propriedades relacionados à distribuição normal. (Tong 1990) fornece um tratamento abrangente de resultados relacionados à distribuição normal multivariada. Os temas principais são dependência, desigualdades de probabilidade e seus papéis na teoria e aplicações.
3.9.3 Exponencial \(\cdot \; \mathcal{E}(\lambda)\)
Considere novamente o pedágio descrito na Seção 3.7.4, onde passam em média \(\lambda\) veículos por minuto. Pode-se inverter a leitura, colocando o tempo entre cada carro como a nova variável de interesse. Assim, neste pedágio passa 1 carro a cada \(\frac{1}{\lambda}\) minutos. A variável aleatória contínua \(X\): ‘tempo entre veículos’ tem distribuição exponencial de parâmetro \(\lambda\), denotada por \[ X \sim \mathcal{E}(\lambda), \] onde \(x > 0\) e \(\lambda > 0\) indica a taxa. A função densidade exponencial é dada por \[\begin{equation} f(x|\lambda) = \lambda e^{-\lambda x} \tag{3.80} \end{equation}\] onde \(e\) é o número de Euler. Sua função distribuição acumulada é dada por \[\begin{equation} F(x|\lambda) = Pr(X \le x) = 1 - e^{-\lambda x} \tag{3.81} \end{equation}\] A esperança e variância são dadas por \[\begin{equation} E(X)= \frac{1}{\lambda} = \lambda^{-1} \tag{3.82} \end{equation}\] \[\begin{equation} V(X)=\frac{1}{\lambda^2} = \lambda^{-2} \tag{3.83} \end{equation}\]
Exemplo 3.37 A distribuição exponencial pode ser operada com as funções dexp
(densidade), pexp
(probabilidade acumulada), qexp
(quantil) e rexp
(aleatório/random) da biblioteca stats
.
## [1] 0.8646647
## [1] 0.02531781
# simulando 1000 valores pseudo aleatórios de uma exponencial de taxa 1
set.seed(999); x <- rexp(1000, 1)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00011 0.29347 0.69805 1.00508 1.41511 5.42528
# densidade de uma exponencial de taxa 1, sobrepondo valores simulados
hist(x, freq = F, ylim = c(0,1), main = 'Exp(1)')
curve(dexp(x,1), add = T, col = 'red')
Exemplo 3.38 Considere um pedágio onde passam em média \(\lambda = 2\) veículos por minuto. Assim, \[ X \sim \mathcal{E}(2),\] \[ f(x) = 2 e^{-2 x}, \] \[ E(X)=\dfrac{1}{2}=0.5, \] \[ V(X)=\dfrac{1}{2^2}=0.25, \] \[ D(X) = \sqrt{0.25} = 0.5. \]
Exercício 3.24 Considerando os dados do Exemplo 3.38:
a. Defina \(F(x)\).
b. Obtenha \(Pr(X<1)\).
c. Obteha \(Pr(X>2)\).
d. Faça o esboço do gráfico de \(f(x)\).
\(\\\)
3.9.4 \(t\) de Student \(\cdot \; \mathcal{t_\nu}\)
Se \(X \sim t_\nu\), então sua fdp é dada por
\[\begin{equation} f(x|\nu) = \frac{\Gamma \left( \frac{\nu+1}{2} \right)}{\Gamma \left( \frac{\nu}{2} \right) \sqrt{\nu \pi}} \left( 1+\frac{x^2}{\nu} \right)^{-\frac{\nu + 1}{2}} \tag{3.84} \end{equation}\]
onde \(-\infty < x < \infty\), \(\nu > 0\) indica os graus de liberdade e \(\Gamma\) indica a função gama tal que
\[\begin{equation} \Gamma(x) = \int_{0}^{\infty} t^{x-1} e^{-t} dt \tag{3.85} \end{equation}\]
De forma equivalente pode-se anotar \(X \sim t(\nu)\).
Exemplo 3.39 A distribuição \(t\) pode ser operada com as funções dt
(densidade), pt
(probabilidade acumulada), qt
(quantil) e rt
(aleatório/random) da biblioteca stats
.
## [1] 0.8524164
## [1] -12.7062
# simulando 1000 valores pseudo aleatórios de uma t com 1 gl
set.seed(246); x <- rt(1000, 1)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -305.1952 -1.1336 -0.0891 0.3420 1.0430 1294.5135
# densidade de uma t com 1 grau de liberdade, sobrepondo valores simulados
hist(x, 3000, freq = F, xlim = c(-15,15), main = expression(italic('t')(1)))
curve(dt(x,1), add = T, col = 'red')
3.9.5 Qui-quadrado \(\cdot \; \mathcal{\chi}^2_\nu\)
Se \(X \sim \chi^2_\nu\), então sua fdp é dada por
\[\begin{equation} f(x|\nu) = \frac{1}{\Gamma \left( \frac{\nu}{2} \right) 2^{\nu/2}} x^{\frac{\nu}{2}-1} e^{-\frac{x}{2}} \tag{3.86} \end{equation}\]
onde \(x > 0\), \(\nu > 0\) indica os graus de liberdade e \(\Gamma\) é a função gama conforme Eq. (3.85). De forma equivalente pode-se anotar \(X \sim \chi^2(\nu)\).
Exemplo 3.40 A distribuição \(\chi^2\) pode ser operada com as funções dchisq
(densidade), pchisq
(probabilidade acumulada), qchisq
(quantil) e rchisq
(aleatório/random) da biblioteca stats
.
## [1] 0.8427008
## [1] 0.0009820691
# simulando 1000 valores pseudo aleatórios de uma \chi^2 com 1 gl
set.seed(135); x <- rchisq(1000, gl)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.08634 0.42728 0.98606 1.30768 8.91451
# densidade de uma \chi^2 com 1 grau de liberdade, sobrepondo valores simulados
hist(x, 50, freq = F, main = bquote(chi^2~ (.(gl))))
curve(dchisq(x,1), 0, 10, add = T, col = 'red')
Caracterização
\(Q \sim \chi^2_\nu\) se
\[\begin{equation} Q = \sum_{i=1}^\nu Z_i^2 \tag{3.87} \end{equation}\]
onde \(Z_i^2 \sim \mathcal{N}(0,1)\), \(i \in \{1,\ldots,\nu\}\).
Exemplo 3.41 É possível simular uma qui-quadrado com 1 grau de liberdade.
# via normal padrão ao quadrado
set.seed(1234); q1 <- rnorm(1000)^2
# via base::rchisq
set.seed(5678); q2 <- rchisq(1000,1)
par(mfrow=c(1,2))
h1 <- hist(q1, 30, freq = FALSE, main = 'Via normal padrão ao quadrado')
curve(dchisq(x, 1), range(h1$breaks), add = TRUE, col = 'red')
h2 <- hist(q2, 30, freq = FALSE, main = 'Via base::rchisq')
curve(dchisq(x, 1), range(h2$breaks), add = TRUE, col = 'red')
##
## Asymptotic two-sample Kolmogorov-Smirnov test
##
## data: q1 and q2
## D = 0.026, p-value = 0.8879
## alternative hypothesis: two-sided
Exercício 3.26 Simule uma qui-quadrado com 3 graus de liberdadade via Eq. (3.87). Compare com a simulação obtida via rchisq
.
3.9.6 Fisher-Snedecor \(\cdot \; \mathcal{F}_\nu\)
Se \(X \sim \mathcal{F}_{\nu_1,\nu_2}\), então sua fdp é dada por
\[\begin{equation} f(x|\nu_1,\nu_2) = \frac{\sqrt{\frac{(\nu_1 x)^{\nu_1} \nu_2^{\nu_2}}{(\nu_1 x+\nu_2)^{\nu_1 + \nu_2}}}}{x B\left( \frac{\nu_1}{2}, \frac{\nu_2}{2} \right)} \tag{3.88} \end{equation}\]
onde \(x > 0\), \(\nu_1 > 0\) indica os graus de liberdade do numerador, \(\nu_2 > 0\) indica os graus de liberdade do denominador e \(B\) indica a função beta, tal que
\[\begin{equation} B(x_1,x_2) = \int_{0}^{1} t^{x_1 - 1} (1-t)^{x_2 - 1} dt = \frac{\Gamma(x_1) \Gamma(x_2)}{\Gamma(x_1+x_2)} \tag{3.89} \end{equation}\]
Exemplo 3.42 A distribuição \(\mathcal{F}\) pode ser operada com as funções df
(densidade), pf
(probabilidade acumulada), qf
(quantil) e rf
(aleatório/random) da biblioteca stats
.
## [1] 0.7477845
## [1] 0.001157189
# simulando 1000 valores pseudo aleatórios de uma F(1,3)
set.seed(1010); x <- rf(1000, gl1, gl2)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.1073 0.5564 2.3601 1.9758 120.0880
# densidade de uma F(1,3), sobrepondo valores simulados
hist(x, 500, freq = F, xlim = c(0,10), main = bquote(F(.(gl1),.(gl2))))
curve(df(x, gl1, gl2), 0, 10, add = TRUE, col = 'red')
Caracterização
\(X \sim \mathcal{F}_{\nu_1,\nu_2}\) se
\[\begin{equation} X = \frac{Q_1/\nu_1}{Q_2/\nu_2} \tag{3.90} \end{equation}\]
onde \(Q_1 \sim \chi^2_{\nu_1}\) e \(Q_2 \sim \chi^2_{\nu_2}\).
Exemplo 3.43 É possível simular uma \(\mathcal{F}\) com \(\nu_1=1\) grau de liberdade no numerador e \(\nu_2=3\) graus de liberdade no denominador.
set.seed(1234); q1 <- rchisq(1000, 1)
set.seed(5678); q2 <- rchisq(1000, 3)
x1 <- (q1/1)/(q2/3)
x2 <- rf(1000, 1, 3)
par(mfrow=c(1,2))
hist(x1, 50, xlim = c(0,20))
hist(x2, 100, xlim = c(0,20))
##
## Asymptotic two-sample Kolmogorov-Smirnov test
##
## data: x1 and x2
## D = 0.023, p-value = 0.9541
## alternative hypothesis: two-sided
3.9.7 Beta \(\cdot \; \mathcal{Beta}(\alpha,\beta)\)
A função densidade beta é dada por \[\begin{equation} f(x|\alpha,\beta) = \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1} (1-x)^{\beta-1} \tag{3.91} \end{equation}\] onde \(0 \le x \le 1\), \(\alpha,\beta > 0\) e \(\Gamma\) é a função gama conforme Eq. (3.85). A esperança e variância são dadas por \[\begin{equation} E(X) = \frac{\alpha}{\alpha+\beta} \tag{3.92} \end{equation}\] \[\begin{equation} V(X) = \frac{\alpha\beta}{(\alpha+\beta)^2 (\alpha+\beta+1)} \tag{3.93} \end{equation}\]
A mediana e moda são dadas por \[\begin{equation} Md(X) \approx \frac{\alpha-1/3}{\alpha+\beta-2/3} \tag{3.94} \end{equation}\] \[\begin{equation} Mo(X) = \frac{\alpha-1}{\alpha+\beta-2}, \; \alpha,\beta>1 \tag{3.95} \end{equation}\] \[\begin{equation} Mo(X) \; \text{algum valor entre 0 e 1}, \; \alpha=\beta=1 \tag{3.96} \end{equation}\] \[\begin{equation} Mo(X) = \{0,1\}, \; \alpha,\beta<1 \tag{3.97} \end{equation}\] \[\begin{equation} Mo(X) = 0, \; \alpha \le 1,\beta>1 \tag{3.98} \end{equation}\] \[\begin{equation} Mo(X) = 1, \; \alpha>1,\beta \le 1 \tag{3.99} \end{equation}\]
Exemplo 3.44 A distribuição Beta pode ser operada com as funções dbeta
(densidade), pbeta
(probabilidade acumulada), qbeta
(quantil) e rbeta
(aleatório/random) da biblioteca stats
.
## [1] 0.875
## [1] 0.008403759
# simulando 1000 valores pseudo aleatórios de uma Beta(1,3)
set.seed(1010); x <- rbeta(1000, 1, 3)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000842 0.0905449 0.2126896 0.2502407 0.3621014 0.9394182
# densidade de uma Beta(1,3), sobrepondo valores simulados
hist(x, 30, freq = F, ylim = c(0, 3), main = 'Beta(1,3)')
curve(dbeta(x,1,3), add = T, col = 'red')
3.9.8 Gama \(\cdot \; \mathcal{Gama}(k,g)\)
A função densidade gama pode ser dada por \[\begin{equation} f(x|k,g) = \frac{1}{\Gamma(k) g^k} x^{k-1} e^{-\frac{x}{g}} \tag{3.100} \end{equation}\] onde \(x>0\), \(k>0\) (forma/shape), \(g>0\) (escala/scale) e \(\Gamma\) é a função gama conforme Eq. (3.85). A esperança e variância são dadas por \[\begin{equation} E(X) = kg \tag{3.101} \end{equation}\] \[\begin{equation} V(X) = kg^2 \tag{3.102} \end{equation}\]
A mediana não tem forma fechada, e a moda é dada por \[\begin{equation} Mo(X) = (k-1)g, \;\; k \ge 1 \tag{3.103} \end{equation}\] \[\begin{equation} Mo(X) = 0, \;\; k < 1 \tag{3.103} \end{equation}\]
Exemplo 3.45 A distribuição Gama pode ser operada com as funções dgamma
(densidade), pgamma
(probabilidade acumulada), qgamma
(quantil) e rgamma
(aleatório/random) da biblioteca stats
.
## [1] 0.9975212
## [1] 0.008439269
# simulando 1000 valores pseudo aleatórios de uma Gama(1,3)
set.seed(1010); x <- rgamma(1000, 1, 3)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0003625 0.0914895 0.2279837 0.3381387 0.4639010 2.6271045
# densidade de uma Gama(1,3), sobrepondo valores simulados
hist(x, 30, freq = F, ylim = c(0, 3), main = 'Gama(1,3)')
curve(dgamma(x,1,3), add = T, col = 'red')
Exercício 3.27 Considere a seguinte parametrização da distribuição Gama: \[\begin{equation} f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} \tag{3.104} \end{equation}\] onde \(x>0\), \(\alpha>0\) (forma/shape) e \(\beta>0\) (taxa/rate).
3.9.9 Triangular \(\cdot \; \mathcal{Tri}(a,m,b)\)
(Samuel Kotz and Van Dorp 2004) definem a função densidade triangular no intervalo \([a,b]\) com moda \(m\) por \[\begin{equation} f(x|a,b,m) = \left\{ \begin{array}{l} \frac{2}{b-a} \frac{x-a}{m-a}, \;\; a \le x \le m \\ \frac{2}{b-a} \frac{b-x}{b-m}, \;\; m < x \le b \\ \end{array} \right. \tag{3.105} \end{equation}\]
onde \(a \le x \le b\) e \(a \le m \le b\), \(-\infty < a,b < \infty\) com \(b>a\).
Sua função distribuição acumulada é dada por \[\begin{equation} F(x|a,b,m) = Pr(X \le x) = \left\{ \begin{array}{l} \frac{m-a}{b-a} \left( \frac{x-a}{m-a} \right)^2, \;\; a \le x \le m \\ 1 - \frac{b-m}{b-a} \left( \frac{b-x}{b-m} \right)^2, \;\; m < x \le b \\ \end{array} \right. \tag{3.106} \end{equation}\]
Sua função distribuição acumulada inversa é dada por \[\begin{equation} F^{-1}(u|a,b,m) = \left\{ \begin{array}{l} a + \sqrt{u(m-a)(b-a)}, \;\; 0 \le u \le \frac{m-a}{b-a} \\ b - \sqrt{(1-u)(b-m)(b-a)}, \;\; \frac{m-a}{b-a} < u \le 1 \\ \end{array} \right. \tag{3.107} \end{equation}\]
(Millard 2013) apresenta o pacote EnvStats
, que possui funções variadas para Estatística Ambiental que contemplam a distribuição triangular.
library(EnvStats)
set.seed(2); hist(rtri(10000), 40, freq = FALSE, main = 'Tri(0,1/2,1)')
curve(dtri(x), col = 'red', add = TRUE)
Exercício 3.28 Veja a documentação de ?EnvStats::dtri
.
3.9.10 Gompertz \(\cdot \; \mathcal{Gompertz}(\alpha,\beta)\)
(Gompertz 1825) define a função densidade de Gompertz de parâmetro de forma \(\alpha>0\) e de escala \(\beta>0\) para \(x>0\) por \[\begin{equation} f(x|\alpha,\beta) = \alpha \beta \exp \left\{ \beta x + \alpha - \alpha e^{\beta x} \right\} \tag{3.108} \end{equation}\]
Sua função distribuição acumulada é dada por \[\begin{equation} F(x|\alpha,\beta) = 1 - \exp \left\{ - \alpha(e^{\beta x}-1) \right\} \tag{3.109} \end{equation}\]
(Yee 2010) apresenta funções para a distribuição Gompertz.
library(VGAM)
curve(dgompertz(x, scale = 1, shape = .1), xlim = c(0,5), ylim = c(0,1.2),
col = 'red')
curve(dgompertz(x, scale = 1, shape = 2), xlim = c(0,5), ylim = c(0,1.2),
col = 'black', add = TRUE)
curve(dgompertz(x, scale = 1, shape = 3), xlim = c(0,5), ylim = c(0,1.2),
col = 'blue', add = TRUE)
curve(dgompertz(x, scale = 2, shape = 1), xlim = c(0,5), ylim = c(0,1.2),
col = 'green', add = TRUE)
3.9.11 Gompertz unitária \(\cdot \; \mathcal{GU}(\alpha,\beta)\)
(Mazucheli, Menezes, and Dey 2019) definem a distribuição de Gompertz unitária a partir da transformação do tipo \[X=e^{-Y}\]
onde \(Y\) tem distribuição de Gompertz. Sua função densidade de parâmetro de forma \(\alpha>0\) e de escala \(\beta>0\) para \(0<x<1\) por \[\begin{equation} f(x|\alpha,\beta) = \alpha \beta x^{-(\beta+1)} \exp \left\{ -\alpha(x^{-\beta}-1) \right\} \tag{3.110} \end{equation}\]
Sua função distribuição acumulada é dada por \[\begin{equation} F(x|\alpha,\beta) = \exp \left\{ -\alpha(x^{-\beta}-1) \right\} \tag{3.111} \end{equation}\]
(Menezes and Mazucheli 2021) apresentam o pacote unitquantreg
, que fornece uma coleção de modelos de regressão quantílica paramétrica para dados delimitados. Os autores também apresentam funções para a distribuição unitária de Gompertz reparametrizada em termos do \(\tau\)-ésimo quantil, \(\tau \in (0,1)\).
library(unitquantreg)
set.seed(123)
x <- rugompertz(n = 5000, mu = 0.5, theta = 2, tau = 0.5)
R <- range(x)
S <- seq(from = R[1], to = R[2], by = 0.01)
hist(x, prob = TRUE, main = 'Gompertz unit')
lines(S, dugompertz(x = S, mu = 0.5, theta = 2, tau = 0.5), col = 2)
plot(quantile(x, probs = S), type = "l")
lines(qugompertz(p = S, mu = 0.5, theta = 2, tau = 0.5), col = 2)
3.9.12 Poisson contínua
(Ilienko 2013) apresenta e discute contrapartes contínuas das distribuições de Poisson e binomial.