Capítulo 4 Amostragem

Definição 4.1 Amostragem é o processo de obtenção de uma amostra. \(\\\)

Inicia com o plano amostral, uma avaliação que leva em conta as medidas a serem avaliadas e os recursos disponíveis. Da mesma forma que os laboratórios retiram amostras de sangue para exames de saúde, cozinheiros experimentam parte da comida para provar os temperos e fábricas realizam testes destrutivos em parte da sua produção para avaliar a qualidade do que está sendo produzido. Será feita uma breve revisão dos principais conceitos de amostragem baseada em (Bolfarine and Bussab 2005).

4.1 Definições básicas

4.1.1 Unidade Elementar

Definição 4.2 A unidade elementar, unidade populacional ou simplesmente elemento é a entidade portadora das informações que pretende-se coletar. \(\\\)

A unidade elementar pode ser um objeto, animal ou pessoa. Em certos casos existe mais de uma maneira de definir a unidade elementar, onde se faz necessário o entendimento dos especialistas envolvidos. A unidade elementar é uma das definições mais importantes do campo científico, pois é base de toda a construção das hipóteses de pesquisa.

Exemplo 4.1 (Pesquisa eleitoral I) Em uma pesquisa eleitoral, classifica-se o eleitor como unidade elementar.

4.1.2 Unidade Amostral

Definição 4.3 A unidade amostral é uma composição de uma ou mais unidades elementares. \(\\\)
Exemplo 4.2 (Pesquisa eleitoral II) Em uma pesquisa eleitoral na rua, o eleitor é também unidade amostral. Caso as entrevistas sejam feitas de casa em casa, o domicílio passa a ser unidade amostral, i.e., um conjunto de unidades elementares (eleitores).

4.1.3 Sistema de referências

Em relação às informações de um estudo, deve-se fazer inicialmente uma avaliação das bases de dados já disponíveis para então proceder com a avaliação da viabilidade de um levantamento de dados mais específico. Este levantamento envolve se montar um plano amostral, contratar, treinar e manter pessoas para a coleta, criar os protocolos de resposta bem como gerar e analisar os bancos de dados. Caso decida-se realizar tal levantamento, serão necessárias listas relacionando as unidades populacionais e amostrais. Na falta de tais listas, utilizam-se sistemas de referências, que são fontes que descrevem o universo a ser investigado. Podem ser informações razoavelmente atualizadas, como mapas, censos ou listas reunidas.

4.2 Universo \(\mathcal{U}\)

Definição 4.4 Universo ou população é o conjunto de todas as unidades elementares de interesse. \(\\\)

Usualmente o universo possui tamanho \(N\) elevado, até mesmo infinito, mas em alguns casos pode ser relativamente pequeno. É denotado formalmente por \[\mathcal{U} = \lbrace 1,2 \ldots, N \rbrace.\]

Exemplo 4.3 (Pesquisa eleitoral III) Em 2018 o universo de eleitores do município de Porto Alegre compreendia 1,100,163 eleitores22, i.e., \(N=1\,100\,163\). Formalmente \[\mathcal{U} = \lbrace 1, 2 \ldots, 1\,100\,163 \rbrace.\]
Definição 4.5 Elemento universal, elemento populacional ou unidade elementar denota um elemento \(i \in \mathcal{U}\).
Definição 4.6 Característica(s) de interesse denota(m) a variável ou o conjunto de \(k\) variáveis associada(o) a cada elemento do universo, anotado por \(\boldsymbol{X} = (\boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_N) = \left( \begin{bmatrix} x_{11} \\ x_{12} \\ \vdots \\ x_{1k} \end{bmatrix}, \begin{bmatrix} x_{21} \\ x_{22} \\ \vdots \\ x_{2k} \end{bmatrix}, \cdots , \begin{bmatrix} x_{N1} \\ x_{N2} \\ \vdots \\ x_{Nk} \end{bmatrix} \right) = \left( \begin{array}{cccc} x_{11} & x_{21} & \cdots & x_{N1} \\ x_{12} & x_{22} & \cdots & x_{N2} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1k} & x_{2k} & \cdots & x_{Nk} \end{array} \right).\) \(\\\)
Exemplo 4.4 Considere que no universo \(\mathcal{U} = \lbrace 1,2,3 \rbrace\) de tamanho \(N=3\) o sujeito 1 seja do sexo feminino com 24 anos de idade e 1.66m de altura, o sujeito 2 do sexo masculino com idade de 32 anos e 1.81m de altura, e o sujeito 3 do sexo masculino com 49 anos com altura de 1.73m. Assim, \[\boldsymbol{X} = (\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3) = \left( \begin{bmatrix} 24 \\ 1.66 \\ F \end{bmatrix}, \begin{bmatrix} 32 \\ 1.81 \\ M \end{bmatrix}, \begin{bmatrix} 49 \\ 1.73 \\ M \end{bmatrix} \right) = \left( \begin{array}{ccc} 24 & 32 & 49 \\ 1.66 & 1.81 & 1.73 \\ M & F & M \end{array} \right).\]

4.2.1 Parâmetros

Definição 4.7 Parâmetro universal ou parâmetro populacional denota uma função ou medida que depende de todas as características de interesse. \(\\\)
Exemplo 4.5 O parâmetro total universal é dado pela Eq. (2.10).
Exemplo 4.6 O parâmetro média universal é dado por pela Eq. (2.8).
Exemplo 4.7 Uma variável é chamada dicotômica quando assume apenas dois possíveis valores tais como sim/não, verdadeiro/falso, ligado/desligado, etc. A característica de interesse é chamada sucesso e a outra característica de fracasso. Por conveniência associa-se o sucesso ao valor \(x=1\) e fracasso a \(x=0\). Desta forma simboliza-se \(\sum_{i=1}^N x_i\) como o total de sucessos observados no universo. Nesta situação o parâmetro proporção universal é dado por \[\begin{equation} \pi = \frac{1}{N} \sum_{i=1}^N x_i. \tag{4.1} \end{equation}\]
Exemplo 4.8 O parâmetro variância universal é dado pelas Equações (2.16) e (2.17).
Exemplo 4.9 O parâmetro desvio padrão universal é a raiz quadrada da variância universal, dado pela Equação (2.21).
Exemplo 4.10 O parâmetro covariância universal é dado por \[\begin{equation} \sigma_{XY} = Cov[X,Y] = \frac{1}{N} \sum_{i=1}^N (x_i - \mu_X)(y_i - \mu_Y). \tag{4.2} \end{equation}\]
Exemplo 4.11 O parâmetro correlaçao universal é dado por \[\begin{equation} \rho_{XY} = Cor[X,Y] = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}. \tag{4.3} \end{equation}\]
Exercício 4.1 Utilizando os dados do Exemplo 4.4, calcule os parâmetros dos Exemplos 4.5 a 4.11. \(\\\)
Exercício 4.2 Mostre que as Equações (2.16) e (2.17) são equivalentes.

4.3 Amostras

Definição 4.8 Considere o universo \(\mathcal{U} = \lbrace 1, 2, \ldots, N \rbrace\). Uma amostra é qualquer sequência de \(n\) unidades de \(\mathcal{U}\), formalmente denotada por \[\boldsymbol{a} = (a_1,\ldots,a_n),\] onde o \(i\)-ésimo compomente de \(\boldsymbol{a}\) é tal que \(a_i \in \mathcal{U}\). \(\\\)
Exemplo 4.12 Seja \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\). Os vetores \(\boldsymbol{a}_A = (2,3)\), \(\boldsymbol{a}_B = (3,3,1)\), \(\boldsymbol{a}_C = (2)\), \(\boldsymbol{a}_D = (2,2,3,3,1)\) são possíveis amostras de \(\mathcal{U}\). \(\\\)
Exemplo 4.13 No Exemplo 4.12, note os tamanhos de amostra \(n_A = n(\boldsymbol{a}_A) = 2\), \(n_B = n(\boldsymbol{a}_B) = 3\), \(n_C = n(\boldsymbol{a}_C) = 1\) e \(n_D = n(\boldsymbol{a}_D) = 5\). \(\\\)
Definição 4.9 Seja \(\mathcal{A}(\mathcal{U})\) ou simplesmente \(\mathcal{A}\) o conjunto de todas as amostras de \(\mathcal{U}\), de qualquer tamanho, e \(\mathcal{A}_{n}(\mathcal{U})\) ou simplesmente \(\mathcal{A}_{n}\) a subclasse das as amostras de tamanho \(n\). \(\\\)
Exemplo 4.14 Se \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\), \[\mathcal{A}(\mathcal{U}) = \lbrace (1),(2),(3),(1,1),(1,2),(1,3),(2,1),\ldots,(3,1,2,2,1),\ldots \rbrace,\] \[\mathcal{A}_{1}(\mathcal{U}) = \lbrace (1),(2),(3) \rbrace, \] \[\mathcal{A}_{2}(\mathcal{U}) = \lbrace (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3) \rbrace. \] Simplificadamente \[\mathcal{A} = \lbrace 1,2,3,11,12,13,21,\ldots,31221,\ldots \rbrace,\] \[\mathcal{A}_{1} = \lbrace 1,2,3 \rbrace, \] \[\mathcal{A}_{2} = \lbrace 11,12,13,21,22,23,31,32,33 \rbrace. \]
Exemplo 4.15 No exemplo anterior, note o número de elementos (cardinalidade) de cada conjunto: \[|\mathcal{U}|=3\] \[|\mathcal{A}(\mathcal{U})| = \infty\] \[|\mathcal{A}_{1}(\mathcal{U})| = 3^1 = 3\] \[|\mathcal{A}_{2}(\mathcal{U})| = 3^2 = 9\] \[\vdots\] \[|\mathcal{A}_{n}(\mathcal{U})| = |\mathcal{U}|^n.\]

4.3.1 Plano Amostral

Definição 4.10 Um plano amostral (ordenado) é uma função \(P(\boldsymbol{a})\) definida em \(\mathcal{A}(\mathcal{U})\) satisfazendo \[P(\boldsymbol{a}) \ge 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}),\] tal que \[\sum_{\boldsymbol{a} \in \mathcal{A}} P(\boldsymbol{a}) = 1.\] \(\\\)
Exemplo 4.16 Considere \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\) e \(\mathcal{A}(\mathcal{U})\) conforme Exemplo 4.14. É possivel criar infinitos planos amostrais, tais como:
  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc) \[P(11)=P(12)=P(13)=1/9 \\ P(21)=P(22)=P(23)=1/9 \\ P(31)=P(32)=P(33)=1/9 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs) \[P(12)=P(13)=1/6 \\ P(21)=P(23)=1/6 \\ P(31)=P(32)=1/6 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano C \(\cdot\) Combinações \[P(12)=P(13)=P(23)=1/3 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano D \[P(3)=9/27 \\ P(12)=P(23)=3/27 \\ P(111)=P(112)=P(113)=P(123)=1/27 \\ P(221)=P(222)=P(223)=P(231)=1/27 \\ P(331)=P(332)=P(333)=P(312)=1/27 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

Exemplo 4.17 Considere a amostra \(\boldsymbol{a} = (1,2)\) obtida do universo descrito Exemplo 4.4 a partir de algum plano amostral válido. Se o sujeito 1 tem 24 anos de idade e 1.66m de altura, e o sujeito 2 tem 32 anos de idade altura de 1.81m, \[\boldsymbol{x} = (\boldsymbol{x}_1,\boldsymbol{x}_2) = \left( \begin{bmatrix} 24 \\ 1.66 \end{bmatrix}, \begin{bmatrix} 32 \\ 1.81 \end{bmatrix} \right) = \left( \begin{array}{cc} 24 & 32 \\ 1.66 & 1.81 \end{array} \right).\]
Definição 4.11 Uma estatística é uma função dos dados amostra \(\boldsymbol{a}\) anotada por \(h(\boldsymbol{x})\), i.e., qualquer medida numérica calculada a partir dos valores observados na amostra. \(\\\)
Exemplo 4.18 Considere \(\boldsymbol{x}\), a matriz dos dados da amostra \(\boldsymbol{a} = (1,2)\). São exemplos de estatísticas: \[h_1 = \frac{24+32}{2} = 28 \;\;\;\;\; \textrm{(média das idades)}\] \[h_2 = \frac{1.66+1.81}{2} = 1.735 \;\;\;\;\; \textrm{(média das alturas)}\] \[h_3 = 32-24 = 8 \;\;\;\;\; \textrm{(amplitude das idades)}\] \[h_4 = \sqrt{24^2+32^2} = \sqrt{1600} = 40 \;\;\;\;\; \textrm{(norma das idades)}\]
Exercício 4.3 Calcule as estatísticas do Exemplo 4.18 considerando as amostras \(\boldsymbol{a} = (1,3)\) e \(\boldsymbol{a} = (2,3)\).

4.3.2 Distribuições amostrais

Definição 4.12 A distribuição amostral de uma estatística \(h(\boldsymbol{x})\) segundo um plano amostral \(\lambda\), é a distribuição de probabilidades \(H(\boldsymbol{x})\) definida sobre \(\mathcal{A}_\lambda\), com função de probabilidade \[p_h = P_\lambda(H(\boldsymbol{x})=h) = P(h) = \frac{f_h}{|\mathcal{A}_\lambda|}. \] \(\\\)
Exemplo 4.19 Considere a variável idade do Exemplo 4.4 e as estatísticas \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\) e \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\) aplicadas sobre o plano amostral A do Exemplo 4.16. Note que \(h_1(\boldsymbol{x})\) e \(h_2(\boldsymbol{x})\) são respectivamente a média e a variância amostrais. \(\\\)
  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc)
\(i\) 1 2 3 4 5 6 7 8 9
\(\boldsymbol{a}\) 11 12 13 21 22 23 31 32 33
\(P(\boldsymbol{a})\) 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
\(\boldsymbol{x}\) (24,24) (24,32) (24,49) (32,24) (32,32) (32,49) (49,24) (49,32) (49,49)
\(h_1(\boldsymbol{x})\) 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
\(h_2(\boldsymbol{x})\) 0.0 32.0 312.5 32.0 0.0 144.5 312.5 144.5 0.0
\(h_1\) 24.0 28.0 32.0 36.5 40.5 49.0 Total
\(f_{h1}\) 1 2 1 2 2 1 9
\(p_{h1}\) 1/9 2/9 1/9 2/9 2/9 1/9 1
\(h_2\) 0.0 32.0 144.5 312.5 Total
\(f_{h2}\) 3 2 2 2 9
\(p_{h2}\) 3/9 2/9 2/9 2/9 1
\(\\\)
Exemplo 4.20 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral B do Exemplo 4.16. \(\\\)
  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs)
\(i\) 1 2 3 4 5 6
\(\boldsymbol{a}\) 12 13 21 23 31 32
\(P(\boldsymbol{a})\) 1/6 1/6 1/6 1/6 1/6 1/6
\(\boldsymbol{x}\) (24,32) (24,49) (32,24) (32,49) (49,24) (49,32)
\(h_1(\boldsymbol{x})\) 28.0 36.5 28.0 40.5 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 2 2 2 6
\(p_{h1}\) 2/6 2/6 2/6 1
\(\\\)
Exemplo 4.21 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral C do Exemplo 4.16. \(\\\)
  • Plano C \(\cdot\) Combinações
\(i\) 1 2 3
\(\boldsymbol{a}\) 12 13 23
\(P(\boldsymbol{a})\) 1/3 1/3 1/3
\(\boldsymbol{x}\) (24,32) (24,49) (32,49)
\(h_1(\boldsymbol{x})\) 28.0 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 1 1 1 3
\(p_{h1}\) 1/3 1/3 1/3 1
\(\\\)
Exercício 4.4 Refaça os Exemplos 4.19, 4.20 e 4.21 considerando a variável altura. Para os Exemplos 4.20 e 4.21, calcule também a estatística \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\). \(\\\)
Exemplo 4.22 A seguir são implementadas em R as resoluções dos Exemplos 4.19 e 4.20.
U <- 1:3                    # universo
(aasc <- expand.grid(U,U))  # AASc de tamanho n=2
##   Var1 Var2
## 1    1    1
## 2    2    1
## 3    3    1
## 4    1    2
## 5    2    2
## 6    3    2
## 7    1    3
## 8    2    3
## 9    3    3
(aasc <- cbind(aasc[,2],aasc[,1])) # trocando as colunas para melhor leitura
##       [,1] [,2]
##  [1,]    1    1
##  [2,]    1    2
##  [3,]    1    3
##  [4,]    2    1
##  [5,]    2    2
##  [6,]    2    3
##  [7,]    3    1
##  [8,]    3    2
##  [9,]    3    3
(aass <- aasc[-c(1,5,9),]) # AASs de tamanho n=2
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
x1 <- c(24,32,49)           # dados de idade
n <- ncol(aasc)
# AASc
(xc <- cbind(x1[aasc[,1]], x1[aasc[,2]])) # dados amostrais de idade com reposição
##       [,1] [,2]
##  [1,]   24   24
##  [2,]   24   32
##  [3,]   24   49
##  [4,]   32   24
##  [5,]   32   32
##  [6,]   32   49
##  [7,]   49   24
##  [8,]   49   32
##  [9,]   49   49
(mxc <- rowMeans(xc))       # estatística h1(x) aplicada na AASc
## [1] 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
(tabc <- table(mxc))        # frequência amostral de h1(y) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##    1    2    1    2    2    1
MASS::fractions(prop.table(tabc)) # distribuição amostral de h1(x) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##  1/9  2/9  1/9  2/9  2/9  1/9
# vyc <- (rowMeans(xc^2)-mxc^2)*(n/(n-1))
# AASs
(xs <- cbind(x1[aass[,1]], x1[aass[,2]])) # dados amostrais de idade sem reposição
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
(mxs <- rowMeans(xs))       # estatística h(x) aplicada na AASs
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
(tabs <- table(mxs))        # frequência amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##    2    2    2
MASS::fractions(prop.table(tabs)) # distribuição amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##  1/3  1/3  1/3
Exemplo 4.23 As resoluções dos Exemplos 4.20 e 4.21 podem ser implementadas no pacote arrangements do R. Note que são obtidas as amostras via AASs através da função permutations e as amostras por combinação, sem qualquer tipo de repetição, pela função combinations.
library(arrangements)
x1 <- c(24,32,49)  # dados de idade
# AASs
npermutations(3,2) # número de AASs
## [1] 6
(aass <- permutations(3,2)) # gerando as AASs
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
(maass <- matrix(x1[t(aass)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
rowMeans(maass)
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
mean(rowMeans(maass)) # plano amostral não viesado
## [1] 35
# Combinações
ncombinations(3,2) # número de amostras via combinação
## [1] 3
(comb <- combinations(3,2)) # gerando as amostras via combinação
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    3
(mcomb <- matrix(x1[t(comb)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   49
rowMeans(mcomb)
## [1] 28.0 36.5 40.5
mean(rowMeans(mcomb)) # plano amostral não viesado
## [1] 35
Desafio 4.1 Generalize os Exemplos 4.22 e 4.21 para qualquer tamanho de amostra, parametrizando as opções com e sem reposição, bem como para combinações. Por fim, adicione um argumento que permita calcular qualquer estatística.

Teorema Central do Limite

O Teorema Central do Limite (TCL) é um dos principais resultados da Probabilidade. Ele mostra que, sob certas condições razoavelmente alcançadas na prática, a soma ou média de uma sequência de variáveis aleatórias independentes e identicamente distribuídas (iid)23 têm distribuição aproximadamente normal. Este resultado permite a resolução aproximada de problemas que envolvam muitos cálculos, usualmente impraticáveis dado o volume de operações necessárias.

Teorema 4.1 (Teorema Central do Limite de Lindeberg-Lévy) Seja \(X_{1}, X_{2}, \ldots, X_{n}\) uma sequência de variáveis aleatórias iid com \(E(X_{i}) = \mu\) e \(V(X_{i}) = \sigma^2\). Considerando \(S=X_{1}+X_{2}+\ldots+X_{n}\), \(M=S/n\) e se \(n \longrightarrow \infty\), então \[\begin{equation} Z = \frac{S - n\mu}{\sigma \sqrt{n}} = \dfrac{M - \mu}{\sigma / \sqrt{n}} \xrightarrow{D} \mathcal{N}(0,1). \tag{4.4} \end{equation}\]

A correção de continuidade ocorre quando soma-se 0.5 no numerador da Equação (4.4). (James 2010) sugere o uso da expressão ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central,’ pois central é o teorema, não o limite. A origem da expressão é atribuída ao matemático húngaro George Pólya, ao se referir a der zentrale Grenzwertsatz, i.e., o ‘central’ refere-se ao ‘teorema do limite.’

Distribuição amostral da proporção

A proporção é uma média no caso de a variável admitir apenas os valores 0 e 1, portanto o TCL se aplica diretamente a este tipo de estrutura.

Exemplo 4.24 (Aproximação da binomial pela normal) Se considerarmos \(n=420\) lançamentos de uma moeda com \(p=0.5\), temos que a v.a. \(X\): número de caras é tal que \(X \sim \mathcal{B}(420,0.5)\). A probabilidade de obtermos até 200 caras pode ser aproximada pelo pelo TCL. \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9759) \approx 0.164557. \] Utilizando a correção de continuidade, \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200+0.5-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9271) \approx 0.176936. \] Com um computador é possível calcular a probabilidade exata, perceba a proximidade dos resultados. \[ Pr(X \le 200) = \left[ {420 \choose 0} + {420 \choose 1} + \cdots + {420 \choose 200} \right] 0.5^{420} = 0.1769429. \]
n <- 420
p <- 0.5
S <- 200
mS <- n*p  # 210
sS <- sqrt(n*p*(1-p))  # 10.24695
# Aproximação da binomial pela normal SEM correção de continuidade
(z <- (S-mS)/sS)
## [1] -0.976
pnorm(z)
## [1] 0.165
# Aproximação da binomial pela normal COM correção de continuidade
(zc <- (S+0.5-mS)/sS)
## [1] -0.927
pnorm(zc)
## [1] 0.177
# Probabilidade exata
pbinom(S,n,p)
## [1] 0.177

Distribuição amostral da média

Com base no Teorema Central do Limite sabe-se que a distribuição das médias amostrais de qualquer variável \(X\) que satisfaça as condições do teorema converge para a distribuição normal. Considere que \(X\) tem uma distribuição \(\mathcal{D}\) qualquer, com média \(\mu\) e desvio padrão \(\sigma\), simbolizada por \[X \sim \mathcal{D}(\mu,\sigma).\] Pelo TCL, a distribuição das médias amostrais de qualqer tamanho \(n_0\) é tal que \[\bar{X}_{n_0} \sim \mathcal{N} \left( \mu,\frac{\sigma}{\sqrt{n_0}} \right).\] A medida \(\sigma/\sqrt{n_0}\) é conhecida como erro padrão (da média). O TCL é um resultado assintótico24, portanto quanto mais próxima \(\mathcal{D}\) estiver de \(\mathcal{N}\), mais rápida deve ser a convergência de \(\bar{X}_{n_0}\) para a distribuição normal.

Exemplo 4.25 Considere a variável aleatória \(X\): QI da população mundial, admitida com distribuição normal de média \(\mu=100\) e desvio padrão de \(\sigma=15\), anotada por \(X \sim \mathcal{N}(100,15)\).
mu <- 100 # média de X
sigma <- 15  # desvio padrão de X
curve(dnorm(x, mean=mu, sd=sigma), from=mu-3*sigma, to=mu+3*sigma) # X ~ N(100,15)

n0 <- 25 # tamanho das amostras
n <- 200 # número de amostras
set.seed(1234) # fixando semente pseudo-aleatória para garantir replicação
a <- MASS::mvrnorm(n0, mu = rep(mu,n), Sigma = sigma^2*diag(n)) # amostras
ma <- colMeans(a) # médias das n amostras
hist(ma) # histograma das médias

mean(ma) # média das médias amostrais, próxima de mu
## [1] 99.9
sd(ma) # desvio padrão das médias, próximo de sigma/raiz(n0)
## [1] 2.82
sigma/sqrt(n0) # sigma/raiz(n0)
## [1] 3
Exercício 4.5 Refaça o Exemplo 4.25 alterando os valores de n0 e n, verificando o que ocorre no histograma, média e desvio padrão de ma. Atente para o fato de que valores de n maiores que 1000 podem tornar o processo custoso computacionalmente.

4.3.3 Amostra representativa

Ouve-se frequentemente o argumento de que uma boa amostra é aquela que é representativa. Indagado sobre a definição de uma amostra representativa, a resposta mais comum é algo como: “aquela que é uma micro representação do universo.” Mas para se ter certeza de que uma amostra seja uma micro representação do universo para uma dada característica de interesse, deve-se conhecer o comportamento dessa mesma característica da população. Então, o conhecimento da população seria tão grande que tonar-se-ia desnecessária a coleta da amostra.
(Bolfarine and Bussab 2005, 14)

4.3.4 Tipos de amostras

Tipos de amostras segundo (Bolfarine and Bussab 2005) e (Jessen 1978).

Procedimentos probabilísticos objetivos são mais bem aceitos academicamente, ainda que na prática nem sempre possam ser executados. Quando isso ocorre, podem-se considerar procedimentos que sejam possíveis de serem executados.

4.4 Principais técnicas de amostragem

4.4.1 Amostragem Aleatória Simples

Amostragem Aleatória Simples (AAS) é o método mais básico de seleção de amostras, sendo referência para todos os demais planos amostrais. A partir de uma lista completa das \(N\) unidades elementares da população seleciona-se cada unidade amostral com igual probabilidade, de tal forma que a cada sorteio os elementos tenham a mesma chance de serem escolhidos. A necessidade de uma lista completa da população para realizar uma AAS pode eventualmente ser um limitante na aplicação deste tipo de metodologia, pois na prática nem sempre é possível obter tal listagem. Os planos amostrais A e B discutidos nos Exemplos 4.16, 4.19 e 4.20 são caracterizados como AAS.

AAS sem reposição - AASs

Caso a unidade sorteada seja retirada da população e seja realizado um novo sorteio, é dito que procedeu-se com uma AAS restrita ou sem reposição, indicado por AASs.

Exemplo 4.26 (AASs) De uma urna com \(N\) cartões numerados de \(1\) a \(N\) sorteia-se um ao acaso, com probabilidade \(1/N\). O cartão sorteado é deixado de fora da urna e realiza-se um novo sorteio, onde cada um dos \(N-1\) cartões restantes tem probabilidade \(1/(N-1)\) de ser retirado. Este procedimento é repetido até que se concluam todos os \(n\) sorteios desejados. Este é um processo de AAS sem reposição. \(\\\)
Exercício 4.6 Defina as probabilidades de sorteio do Exemplo 4.26 considerando \(n=3\) sorteios. \(\\\)
Exercício 4.7 Calcule as probabilidades de sorteio do Exemplo 4.26 considerando \(n=3\) sorteios e \(N=10\). \(\\\)
Exemplo 4.27 (Mega-Sena da Caixa Econômica Federal) No R pode-se sortear uma amostra sem reposição para tentar a sorte no jogo da Caixa Econômica Federal. Note que \(N=60\), \(n=6\).
set.seed(1234) # Fixando a geração pseudo-aleatória
sort(sample(1:60, size = 6, replace = F)) # Apostando na Mega-Sena da CEF via AASs
## [1] 16 22 28 37 44 58
Exercício 4.8 Leia a documentação das funções utilizadas no Exemplo 4.27 fazendo ?set.seed,
?sort e ?sample.

AAS com reposição - AASc

Caso a unidade sorteada tenha a chance de participar novamente da amostra, o procedimento é chamado AAS irrestrita ou com reposição, indicado por AASc.

Exemplo 4.28 (AASc) De uma urna com \(N\) cartões numerados de \(1\) a \(N\) sorteia-se um ao acaso, com probabilidade \(1/N\). O cartão sorteado é recolocado na urna e realiza-se um novo sorteio. Este procedimento é repetido até que se concluam todos os \(n\) sorteios desejados. Este é um processo de AAS com reposição. \(\\\)
Exercício 4.9 Defina as probabilidades de sorteio do Exemplo 4.28 considerando \(n=3\) sorteios. \(\\\)
Exercício 4.10 Calcule as probabilidades de sorteio do Exemplo 4.28 considerando \(n=3\) sorteios com \(N=10\). \(\\\)

4.4.2 Amostragem Sistemática

Considere uma população de \(N\) unidades elementares numeradas de 1 a \(N\). Para selecionar uma amostra de \(n\) observações sorteia-se aleatoriamente uma das primeiras \(k=N/n\) unidades, digamos \(a\), com probabilidade \(1/k\) selecionando sistematicamente as próximas observações a cada \(k\) unidades. Matematicamente, \[a, a+k, a+2k, \ldots, a+(n-1)k.\]

Exemplo 4.29 Seja uma população com \(N=100\), da qual deseja-se retirar uma amostra sistemática de tamanho \(n=5\). Neste caso \(k=100/5=20\), então sortearmos aleatoriamente um número entre 1 e 20 com probabilidade \(1/20\). Se o número sorteado for \(a=4\), a amostra sistemática então é definida como \[4, 4+20, 4+2 \times 20, 4+3 \times 20, 4+4 \times 20 = 4,24,44,64,84.\]
N <- 100 # Tamanho da população
n <- 5 # Tamanho da amostra
(k <- N/n) # Tamanho do salto
## [1] 20
set.seed(1) # Fixando a geração pseudo-aleatória
(a <- sample(1:k, size = 1)) # Amostra de tamanho 1 com probabilidade 1/k
## [1] 4
for(i in 1:n){print(a+(i-1)*k)} # Apresentando a amostra de tamanho n
## [1] 4
## [1] 24
## [1] 44
## [1] 64
## [1] 84
Exercício 4.11 Considere o código do Exemplo 4.29.
(a) Rode o código repetidas vezes retirando a linha set.seed(1). O que você observa?
(b) Refaça o exercício considerando outros valores de \(N\) e \(n\), tais que \(n<N\).

4.4.3 Amostragem Estratificada

Segundo (Bolfarine and Bussab 2005, 93),

Amostragem estratificada consiste na divisão de uma população em grupos (estratos) segundo alguma(s) característica(s) conhecida(s) na populaçãao sob estudo, e de cada um desses estratos são selecionadas amostras em proporções convenientes.

O objetivo deste tipo de amostragem é que o pesquisador possa se valer de estruturas pré-existentes de maneira a melhorar as inferências, reduzindo sua variabilidade.

4.5 Cálculo do tamanho da amostra

O cálculo do tamanho de amostra é baseado em uma série de premissas assumidas pelo pesquisador. Os valores sugeridos pelos diversos métodos de cálculo de tamanho de amostra devem ser considerados apenas como uma referência, dada a arbitrariedade das medidas utilizadas em sua obtenção. Tempo e custo são dois limitantes que devem ser levados em conta, podendo se sobrepor aos cálculos de tamanho de amostra.
A seguir serão apresentados casos bastante simples, mas suficientes para ilustrar os princípios utilizados. Para mais funcionalidades recomenda-se o pacote pwr (Champely 2020) do R e o software G*Power (A.-G. L. Franz Faul Edgard Erdfelder and Buchner 2007), (A. B. Franz Faul Edgard Erdfelder and Lang 2009). Para uma abordagem mais teórica recomenda-se (Chow, Wang, and Shao 2007).

4.5.1 Média

Uma forma de estimar o tamanho da amostra no caso da inferência para a media universal \(\mu\) é considerar a margem de erro da Equação (5.4) e isolar \(n\) na forma \[\begin{equation} n = \left \lceil{ \left( \frac{z \sigma}{\varepsilon} \right)^2 }\right \rceil. \tag{4.5} \end{equation}\]

O operador \(\left \lceil{ x }\right \rceil\) indica a função teto de \(x\), i.e., indica o primeiro inteiro acima de \(x\).

Exercício 4.12 Obtenha o resultado da Equação (4.5) a partir da margem de erro da Equação (5.4). \(\\\)
Exemplo 4.30 (Tamanho da amostra para a média) Deseja-se obter o tamanho de amostra para estimar a média de altura dos alunos da PUCRS. Considera-se um intervalo de confiança de \(1-\alpha = 95\%\), com margem de erro de \(\varepsilon = 3\) cm. De estudos anteriores, admite-se \(\sigma = 15\) cm. Considerando a Equação (4.5), sabe-se da tabela da distribuição normal padrão que \(z = 1.96\), assim \[\begin{equation} n = \left \lceil{ \left( \frac{1.96 \times 15}{3} \right)^2 }\right \rceil = \left \lceil{ 96.04 }\right \rceil = 97. \tag{4.6} \end{equation}\]
# Equação (3.8)
n_m <- function(z,sigma,e) {
  exato <- (z*sigma/e)^2     
  teto <- ceiling(exato)
  return(list(exato=exato, 
              teto=teto))
}      
n_m(1.96,15,3)
## $exato
## [1] 96
## 
## $teto
## [1] 97
n_m(1.96,15,3)$exato
## [1] 96
n_m(1.96,15,3)$teto
## [1] 97

4.5.2 Proporção

Uma forma de estimar o tamanho da amostra no caso da inferência para a proporção universal \(\pi\) é considerar a margem de erro da Equação (5.6) e isolar \(n\) na forma \[\begin{equation} n = \left \lceil{ \frac{z^2 p (1-p)}{\varepsilon^2} }\right \rceil. \tag{4.7} \end{equation}\]

Em certos casos existe informação disponível sobre a proporção, mas quando não há qualquer conhecimento a respeito desta medida considera-se \(p=\frac{1}{2}\), ponto no qual \(p(1-p)\) atinge seu máximo.

Exercício 4.13 Obtenha o resultado da Equação (4.7) a partir da margem de erro da Equação (5.6). \(\\\)
Exercício 4.14 Verifique que \(p(1-p)\) atinge seu máximo quando \(p=\frac{1}{2}\). \(\\\)

Exemplo 4.31 (Tamanho da amostra para a proporção) Em uma pesquisa eleitoral deseja-se calcular o tamanho de amostra aproximado para que a margem de erro seja de \(\varepsilon = 2\%\) com confiança de \(1-\alpha = 95\%\). Considerando a Equação (4.7), sabe-se da tabela da distribuição normal padrão que \(z = 1.96 \approx 2\), e que \(p(1-p)\) atinge seu máximo quando \(p=\frac{1}{2}\). Assim, \[\begin{equation} n \approx \left \lceil{ \frac{2^2 \times \frac{1}{2} \times (1-\frac{1}{2})}{\varepsilon^2} }\right \rceil = \left \lceil{ \frac{1}{\varepsilon^2} }\right \rceil \tag{4.8} \end{equation}\]

Logo, um IC para a proporção com \(\alpha = 5\%\) para uma margem de erro de \(\varepsilon = 2\%\) pode ser calculado com um tamanho de amostra de aproximadamente \[ n \approx \left \lceil{ \frac{1}{0.02^2} }\right \rceil = 2500. \]
# Equação (3.11)
n_p <- function(e) {
  exato <- 1/e^2
  teto <- ceiling(exato)
  return(list(exato=exato, 
              teto=teto))
}      
n_p(0.02)
## $exato
## [1] 2500
## 
## $teto
## [1] 2500
n_p(0.02)$exato
## [1] 2500
n_p(0.02)$teto
## [1] 2500
Exercício 4.15 Teste a função n_p do Exemplo 4.31 com diferentes valores de margem de erro. Faça um gráfico para analisar a variação do tamanho da amostra à medida que \(\varepsilon\) aumenta. \(\\\)

4.6 Para saber mais

O material Amostragem: Teoria e Prática Usando R, gentilmente disponibilizado pelos professores Pedro Luis do Nascimento Silva, Zélia Magalhães Bianchini e Antonio José Ribeiro Dias, é uma fonte muito rica para informações adicionais sobre este tópico. Está disponível ainda o livro Análise de Dados Amostrais Complexos, também do professor Pedro Silva em parceria com o professor Djalma Pessoa.
O professor Pedro também compartilhou o vídeo e os slides da apresentação Combinando amostras para aprimorar estimativas – aventuras na amostragem não probabilística, apresentado em 18 de outubro de 2020 no VII Encontro Baiano de Estatística.

Há ainda o curso de análise de dados amostrais usando R, preparado pelo Prof. Marcel Vieira para a International Association of Survey Statisticians (IASS). É um curso auto instrucional em inglês, com vídeos, apresentações sobre a teoria e material para prática individual, que inclui códigos em R e os dados necessários. O curso é gratuito e livre, e está disponível neste link.

Por fim, há também o pacote samplics escrito em Python, que realiza ponderação e análise de amostras complexas. Um tutorial do pacote está disponível neste link.

Referências

Bolfarine, Heleno, and Wilton de Oliveira Bussab. 2005. Elementos de Amostragem. Editora Blucher. https://www.blucher.com.br/livro/detalhes/elementos-de-amostragem-331.
Champely, Stephane. 2020. Pwr: Basic Functions for Power Analysis. https://CRAN.R-project.org/package=pwr.
Chow, Shein-Chung, Hansheng Wang, and Jun Shao. 2007. Sample Size Calculations in Clinical Rsesearch, Second Edition. CRC press. https://books.google.com.br/books?id=ju-sojS3sa0C&printsec=frontcover&hl=pt-BR#v=onepage&q&f=false.
Franz Faul, Albert-Geroge Lang, Edgard Erdfelder, and Axel Buchner. 2007. “G*Power 3: A Flexible Statistical Power Analysis Program for the Social, Behavioral, and Biomedical Sciences.” Behavior Research Methods, 39, 175-191. https://www.psychologie.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPower3-BRM-Paper.pdf.
Franz Faul, Axel Buchner, Edgard Erdfelder, and Albert-Geroge Lang. 2009. “Statistical Power Analyses Using G*Power 3.1: Tests for Correlation and Regression Analyses.” Behavior Research Methods, 41, 1149-1160. https://www.psychologie.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPower31-BRM-Paper.pdf.
James, B. R. 2010. “Probabilidade: Um Curso Em Nível Intermediário, Coleção Euclides.” Rio de Janeiro. IMPA, 3a. Edição. https://loja.sbm.org.br/index.php/colecoes/impa/colecao-projeto-euclides/probabilidade-um-curso-em-nivel-intermediario.html.
Jessen, Raymond James. 1978. Statistical Survey Techniques. Wiley New York.

  1. Fonte: http://www.tse.jus.br/eleicoes/estatisticas/estatisticas-eleitorais.↩︎

  2. Variáveis que apresentam mesma distribuição de probabilidade com os mesmos parâmetros.↩︎

  3. Um resultado assintótico é aquele que depende de uma ou mais variávies sendo observadas próximas a certos limites de referência.↩︎