4.3 Amostras

Definição 4.8 Considere o universo \(\mathcal{U} = \lbrace 1, 2, \ldots, N \rbrace\). Uma amostra é qualquer sequência de \(n\) unidades de \(\mathcal{U}\), formalmente denotada por \[\boldsymbol{a} = (a_1,\ldots,a_n),\] onde o \(i\)-ésimo compomente de \(\boldsymbol{a}\) é tal que \(a_i \in \mathcal{U}\). \(\\\)

Exemplo 4.12 Seja \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\). Os vetores \(\boldsymbol{a}_A = (2,3)\), \(\boldsymbol{a}_B = (3,3,1)\), \(\boldsymbol{a}_C = (2)\), \(\boldsymbol{a}_D = (2,2,3,3,1)\) são possíveis amostras de \(\mathcal{U}\). \(\\\)

Exemplo 4.13 No Exemplo 4.12, note os tamanhos de amostra \(n_A = n(\boldsymbol{a}_A) = 2\), \(n_B = n(\boldsymbol{a}_B) = 3\), \(n_C = n(\boldsymbol{a}_C) = 1\) e \(n_D = n(\boldsymbol{a}_D) = 5\). \(\\\)

Definição 4.9 Seja \(\mathcal{A}(\mathcal{U})\) ou simplesmente \(\mathcal{A}\) o conjunto de todas as amostras de \(\mathcal{U}\), de qualquer tamanho, e \(\mathcal{A}_{n}(\mathcal{U})\) ou simplesmente \(\mathcal{A}_{n}\) a subclasse das as amostras de tamanho \(n\). \(\\\)

Exemplo 4.14 Se \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\), \[\mathcal{A}(\mathcal{U}) = \lbrace (1),(2),(3),(1,1),(1,2),(1,3),(2,1),\ldots,(3,1,2,2,1),\ldots \rbrace,\] \[\mathcal{A}_{1}(\mathcal{U}) = \lbrace (1),(2),(3) \rbrace, \] \[\mathcal{A}_{2}(\mathcal{U}) = \lbrace (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3) \rbrace. \] Simplificadamente \[\mathcal{A} = \lbrace 1,2,3,11,12,13,21,\ldots,31221,\ldots \rbrace,\] \[\mathcal{A}_{1} = \lbrace 1,2,3 \rbrace, \] \[\mathcal{A}_{2} = \lbrace 11,12,13,21,22,23,31,32,33 \rbrace. \]

Exemplo 4.15 No exemplo anterior, note o número de elementos (cardinalidade) de cada conjunto: \[|\mathcal{U}|=3\] \[|\mathcal{A}(\mathcal{U})| = \infty\] \[|\mathcal{A}_{1}(\mathcal{U})| = 3^1 = 3\] \[|\mathcal{A}_{2}(\mathcal{U})| = 3^2 = 9\] \[\vdots\] \[|\mathcal{A}_{n}(\mathcal{U})| = |\mathcal{U}|^n.\]

4.3.1 Plano Amostral

Definição 4.10 Um plano amostral (ordenado) é uma função \(P(\boldsymbol{a})\) definida em \(\mathcal{A}(\mathcal{U})\) satisfazendo \[P(\boldsymbol{a}) \ge 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}),\] tal que \[\sum_{\boldsymbol{a} \in \mathcal{A}} P(\boldsymbol{a}) = 1.\] \(\\\)

Exemplo 4.16 Considere \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\) e \(\mathcal{A}(\mathcal{U})\) conforme Exemplo 4.14. É possivel criar infinitos planos amostrais, tais como:

  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc) \[P(11)=P(12)=P(13)=1/9 \\ P(21)=P(22)=P(23)=1/9 \\ P(31)=P(32)=P(33)=1/9 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \notin \mathcal{A}_{2}(\mathcal{U}).\]

  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs) \[P(12)=P(13)=1/6 \\ P(21)=P(23)=1/6 \\ P(31)=P(32)=1/6 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \notin \mathcal{A}_{2}(\mathcal{U}).\]

  • Plano C \(\cdot\) Combinações \[P(12)=P(13)=P(23)=1/3 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \notin \mathcal{A}_{2}(\mathcal{U}).\]

  • Plano D \[P(3)=9/27 \\ P(12)=P(23)=3/27 \\ P(111)=P(112)=P(113)=P(123)=1/27 \\ P(221)=P(222)=P(223)=P(231)=1/27 \\ P(331)=P(332)=P(333)=P(312)=1/27 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \notin \mathcal{A}(\mathcal{U}).\]

Exemplo 4.17 Considere a amostra \(\boldsymbol{a} = (1,2)\) obtida do universo descrito Exemplo 4.4 a partir de algum plano amostral válido. Se o sujeito 1 tem 24 anos de idade e 1.66m de altura, e o sujeito 2 tem 32 anos de idade altura de 1.81m, \[\boldsymbol{x} = (\boldsymbol{x}_1,\boldsymbol{x}_2) = \left( \begin{bmatrix} 24 \\ 1.66 \end{bmatrix}, \begin{bmatrix} 32 \\ 1.81 \end{bmatrix} \right) = \left( \begin{array}{cc} 24 & 32 \\ 1.66 & 1.81 \end{array} \right).\]

Definição 4.11 Uma estatística é uma função dos dados amostra \(\boldsymbol{a}\) anotada por \(h(\boldsymbol{x})\), i.e., qualquer medida numérica calculada a partir dos valores observados na amostra. \(\\\)

Exemplo 4.18 Considere \(\boldsymbol{x}\), a matriz dos dados da amostra \(\boldsymbol{a} = (1,2)\). São exemplos de estatísticas: \[h_1 = \frac{24+32}{2} = 28 \;\;\;\;\; \textrm{(média das idades)}\] \[h_2 = \frac{1.66+1.81}{2} = 1.735 \;\;\;\;\; \textrm{(média das alturas)}\] \[h_3 = 32-24 = 8 \;\;\;\;\; \textrm{(amplitude das idades)}\] \[h_4 = \sqrt{24^2+32^2} = \sqrt{1600} = 40 \;\;\;\;\; \textrm{(norma das idades)}\]

Exercício 4.4 Calcule as estatísticas do Exemplo 4.18 considerando as amostras \(\boldsymbol{a} = (1,3)\) e \(\boldsymbol{a} = (2,3)\).

4.3.2 Distribuições amostrais

Definição 4.12 A distribuição amostral de uma estatística \(h(\boldsymbol{x})\) segundo um plano amostral \(\lambda\), é a distribuição de probabilidades \(H(\boldsymbol{x})\) definida sobre \(\mathcal{A}_\lambda\), com função de probabilidade \[p_h = P_\lambda(H(\boldsymbol{x})=h) = P(h) = \frac{f_h}{|\mathcal{A}_\lambda|}.\] \(\\\)

Exemplo 4.19 Considere a variável idade do Exemplo 4.4 e as estatísticas \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\) e \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\) aplicadas sobre o plano amostral A do Exemplo 4.16. Note que \(h_1(\boldsymbol{x})\) e \(h_2(\boldsymbol{x})\) são respectivamente a média e a variância amostrais. \(\\\)

  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc)
\(i\) 1 2 3 4 5 6 7 8 9
\(\boldsymbol{a}\) 11 12 13 21 22 23 31 32 33
\(P(\boldsymbol{a})\) 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
\(\boldsymbol{x}\) (24,24) (24,32) (24,49) (32,24) (32,32) (32,49) (49,24) (49,32) (49,49)
\(h_1(\boldsymbol{x})\) 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
\(h_2(\boldsymbol{x})\) 0.0 32.0 312.5 32.0 0.0 144.5 312.5 144.5 0.0
\(h_1\) 24.0 28.0 32.0 36.5 40.5 49.0 Total
\(f_{h1}\) 1 2 1 2 2 1 9
\(p_{h1}\) 1/9 2/9 1/9 2/9 2/9 1/9 1
\(h_2\) 0.0 32.0 144.5 312.5 Total
\(f_{h2}\) 3 2 2 2 9
\(p_{h2}\) 3/9 2/9 2/9 2/9 1

\(\\\)

Exemplo 4.20 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral B do Exemplo 4.16. \(\\\)

  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs)
\(i\) 1 2 3 4 5 6
\(\boldsymbol{a}\) 12 13 21 23 31 32
\(P(\boldsymbol{a})\) 1/6 1/6 1/6 1/6 1/6 1/6
\(\boldsymbol{x}\) (24,32) (24,49) (32,24) (32,49) (49,24) (49,32)
\(h_1(\boldsymbol{x})\) 28.0 36.5 28.0 40.5 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 2 2 2 6
\(p_{h1}\) 2/6 2/6 2/6 1

\(\\\)

Exemplo 4.21 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral C do Exemplo 4.16. \(\\\)

  • Plano C \(\cdot\) Combinações
\(i\) 1 2 3
\(\boldsymbol{a}\) 12 13 23
\(P(\boldsymbol{a})\) 1/3 1/3 1/3
\(\boldsymbol{x}\) (24,32) (24,49) (32,49)
\(h_1(\boldsymbol{x})\) 28.0 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 1 1 1 3
\(p_{h1}\) 1/3 1/3 1/3 1

\(\\\)

Exercício 4.5 Refaça os Exemplos 4.19, 4.20 e 4.21 considerando a variável altura. Para os Exemplos 4.20 e 4.21, calcule também a estatística \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\). \(\\\)

Exemplo 4.22 A seguir são implementadas em R as resoluções dos Exemplos 4.19 e 4.20.

U <- 1:3                    # universo
(aasc <- expand.grid(U,U))  # AASc de tamanho n=2
##   Var1 Var2
## 1    1    1
## 2    2    1
## 3    3    1
## 4    1    2
## 5    2    2
## 6    3    2
## 7    1    3
## 8    2    3
## 9    3    3
(aasc <- cbind(aasc[,2],aasc[,1])) # trocando as colunas para melhor leitura
##       [,1] [,2]
##  [1,]    1    1
##  [2,]    1    2
##  [3,]    1    3
##  [4,]    2    1
##  [5,]    2    2
##  [6,]    2    3
##  [7,]    3    1
##  [8,]    3    2
##  [9,]    3    3
(aass <- aasc[-c(1,5,9),])  # AASs de tamanho n=2
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
x1 <- c(24,32,49)           # dados de idade
n <- ncol(aasc)
# AASc
(xc <- cbind(x1[aasc[,1]], x1[aasc[,2]])) # dados amostrais de idade com reposição
##       [,1] [,2]
##  [1,]   24   24
##  [2,]   24   32
##  [3,]   24   49
##  [4,]   32   24
##  [5,]   32   32
##  [6,]   32   49
##  [7,]   49   24
##  [8,]   49   32
##  [9,]   49   49
(mxc <- rowMeans(xc))       # estatística h1(x) aplicada na AASc
## [1] 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
(tabc <- table(mxc))        # frequência amostral de h1(y) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##    1    2    1    2    2    1
MASS::fractions(prop.table(tabc)) # distribuição amostral de h1(x) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##  1/9  2/9  1/9  2/9  2/9  1/9
# vyc <- (rowMeans(xc^2)-mxc^2)*(n/(n-1))
# AASs
(xs <- cbind(x1[aass[,1]], x1[aass[,2]])) # dados amostrais de idade sem reposição
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
(mxs <- rowMeans(xs))       # estatística h(x) aplicada na AASs
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
(tabs <- table(mxs))        # frequência amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##    2    2    2
MASS::fractions(prop.table(tabs)) # distribuição amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##  1/3  1/3  1/3

Exemplo 4.23 As resoluçãos dos Exemplos 4.20 e 4.21 podem ser implementadas no pacote arrangements do R. Note que são obtidas as amostras via AASs através da função permutations e as amostras por combinação, sem qualquer tipo de repetição, pela função combinations.

library(arrangements)
x1 <- c(24,32,49)  # dados de idade
# AASs
npermutations(3,2) # número de amostras via AASs
## [1] 6
(aass <- permutations(3,2)) # gerando as AASs
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
(maass <- matrix(x1[t(aass)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
rowMeans(maass)
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
mean(rowMeans(maass)) # plano amostral não viesado
## [1] 35
# Combinações
ncombinations(3,2) # número de amostras via combinação
## [1] 3
(comb <- combinations(3,2)) # gerando as amostras via combinação
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    3
(mcomb <- matrix(x1[t(comb)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   49
rowMeans(mcomb)
## [1] 28.0 36.5 40.5
mean(rowMeans(mcomb)) # plano amostral não viesado
## [1] 35

Exercício 4.6 Generalize os Exemplos 4.22 e 4.21 para qualquer tamanho de amostra, parametrizando as opções com e sem reposição, bem como para combinações. Por fim, adicione um argumento que permita calcular qualquer estatística.

Teorema Central do Limite

O Teorema Central do Limite (TCL) é um dos principais resultados da Probabilidade. Ele mostra que, sob certas condições razoavelmente alcançadas na prática, a soma ou média de uma sequência de variáveis aleatórias independentes e identicamente distribuídas (iid)18 têm distribuição aproximadamente normal. Este resultado permite a resolução aproximada de problemas que envolvam muitos cálculos, usualmente impraticáveis dado o volume de operações necessárias.

Teorema 4.1 (Teorema Central do Limite de Lindeberg-Lévy) Seja \(X_{1}, X_{2}, \ldots, X_{n}\) uma sequência de variáveis aleatórias iid com \(E(X_{i}) = \mu\) e \(V(X_{i}) = \sigma^2\). Considerando \(S=X_{1}+X_{2}+\ldots+X_{n}\), \(M=S/n\) e se \(n \longrightarrow \infty\), então \[\begin{equation} Z = \frac{S - n\mu}{\sigma \sqrt{n}} = \dfrac{M - \mu}{\sigma / \sqrt{n}} \xrightarrow{D} \mathcal{N}(0,1). \tag{4.4} \end{equation}\]

A correção de continuidade ocorre quando soma-se 0.5 no numerador da Equação (4.4). (James 2010) sugere o uso da expressão ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central’, pois central é o teorema, não o limite. A origem da expressão é atribuída ao matemático húngaro George Pólya, ao se referir a der zentrale Grenzwertsatz, i.e., o ‘central’ refere-se ao ‘teorema do limite’.

Distribuição amostral da proporção

A proporção é uma média no caso de a variável admitir apenas os valores 0 e 1, portanto o TCL se aplica diretamente a este tipo de estrutura.

Exemplo 4.24 (Aproximação da binomial pela normal) Se considerarmos \(n=420\) lançamentos de uma moeda com \(p=0.5\), temos que a v.a. \(X\): número de caras é tal que \(X \sim \mathcal{B}(420,0.5)\). A probabilidade de obtermos até 200 caras pode ser aproximada pelo pelo TCL. \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9759) \approx 0.164557. \] Utilizando a correção de continuidade, \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200+0.5-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9271) \approx 0.176936. \] Com um computador é possível calcular a probabilidade exata, perceba a proximidade dos resultados. \[ Pr(X \le 200) = \left[ {420 \choose 0} + {420 \choose 1} + \cdots + {420 \choose 200} \right] 0.5^{420} = 0.1769429. \]

n <- 420
p <- 0.5
S <- 200
mS <- n*p  # 210
sS <- sqrt(n*p*(1-p))  # 10.24695
# Aproximação da binomial pela normal SEM correção de continuidade
(z <- (S-mS)/sS)
## [1] -0.9759001
pnorm(z)
## [1] 0.164557
# Aproximação da binomial pela normal COM correção de continuidade
(zc <- (S+0.5-mS)/sS)
## [1] -0.9271051
pnorm(zc)
## [1] 0.176936
# Probabilidade exata
pbinom(S,n,p)
## [1] 0.1769429

Distribuição amostral da média

Com base no Teorema Central do Limite sabe-se que a distribuição das médias amostrais de qualquer variável \(X\) que satisfaça as condições do teorema converge para a distribuição normal. Considere que \(X\) tem uma distribuição \(\mathcal{D}\) qualquer, com média \(\mu\) e desvio padrão \(\sigma\), simbolizada por \[X \sim \mathcal{D}(\mu,\sigma).\] Pelo TCL, a distribuição das médias amostrais de qualqer tamanho \(n_0\) é tal que \[\bar{X}_{n_0} \sim \mathcal{N} \left( \mu,\frac{\sigma}{\sqrt{n_0}} \right).\] A medida \(\sigma/\sqrt{n_0}\) é conhecida como erro padrão (da média). O TCL é um resultado assintótico19, portanto quanto mais próxima \(\mathcal{D}\) estiver de \(\mathcal{N}\), mais rápida deve ser a convergência de \(\bar{X}_{n_0}\) para a distribuição normal.

Exemplo 4.25 Considere a variável aleatória \(X\): QI da população mundial, admitida com distribuição normal de média \(\mu=100\) e desvio padrão de \(\sigma=15\), anotada por \(X \sim \mathcal{N}(100,15)\).

mu <- 100 # média de X
sigma <- 15  # desvio padrão de X
curve(dnorm(x, mean=mu, sd=sigma), from=mu-3*sigma, to=mu+3*sigma) # X ~ N(100,15)

n0 <- 25 # tamanho das amostras
n <- 200 # número de amostras
set.seed(1234) # fixando semente pseudo-aleatória para garantir replicação
a <- MASS::mvrnorm(n0, mu = rep(mu,n), Sigma = sigma^2*diag(n)) # amostras
ma <- colMeans(a) # médias das n amostras
hist(ma) # histograma das médias

mean(ma) # média das médias amostrais, próxima de mu
## [1] 99.90468
sd(ma) # desvio padrão das médias, próximo de sigma/raiz(n0)
## [1] 2.817847
sigma/sqrt(n0) # sigma/raiz(n0)
## [1] 3

Exercício 4.7 Refaça o Exemplo 4.25 alterando os valores de n0 e n, verificando o que ocorre no histograma, média e desvio padrão de ma. Atente para o fato de que valores de n maiores que 1000 podem tornar o processo custoso computacionalmente.

4.3.3 Amostra representativa

Ouve-se frequentemente o argumento de que uma boa amostra é aquela que é representativa. Indagado sobre a definição de uma amostra representativa, a resposta mais comum é algo como: “aquela que é uma micro representação do universo”. Mas para se ter certeza de que uma amostra seja uma micro representação do universo para uma dada característica de interesse, deve-se conhecer o comportamento dessa mesma característica da população. Então, o conhecimento da população seria tão grande que tonar-se-ia desnecessária a coleta da amostra.
(Bolfarine and Bussab 2005, 14)

Neste material o termo “representativo” será condicional. Por exemplo, “representativo considerando as proporções populacionais aproximadas das variáveis \(X_1, \ldots, X_n\)”.

4.3.4 Tipos de amostras

Tipos de amostras segundo (Bolfarine and Bussab 2005) e (Jessen 1978).
Tipos de amostras segundo (Bolfarine and Bussab 2005) e (Jessen 1978).

Procedimentos probabilísticos objetivos são mais bem aceitos academicamente, ainda que na prática nem sempre possam ser executados. Quando isso ocorre, podem-se considerar procedimentos que sejam possíveis de serem executados.

References

Bolfarine, Heleno, and Wilton de Oliveira Bussab. 2005. Elementos de Amostragem. Editora Blucher. https://www.blucher.com.br/livro/detalhes/elementos-de-amostragem-331.
James, B. R. 2010. “Probabilidade: Um Curso Em Nível Intermediário, Coleção Euclides.” Rio de Janeiro. IMPA, 3a. Edição. https://loja.sbm.org.br/index.php/colecoes/impa/colecao-projeto-euclides/probabilidade-um-curso-em-nivel-intermediario.html.
Jessen, Raymond James. 1978. Statistical Survey Techniques. Wiley New York.

  1. Variáveis que apresentam mesma distribuição de probabilidade com os mesmos parâmetros.↩︎

  2. Um resultado assintótico é aquele que depende de uma ou mais variávies sendo observadas próximas a certos limites de referência.↩︎