Capítulo 4 Amostragem

Definição 4.1 Amostragem é o processo de obtenção de uma amostra. \(\\\)

Inicia com o plano amostral, uma avaliação que leva em conta as medidas a serem avaliadas e os recursos disponíveis. Da mesma forma que os laboratórios retiram amostras de sangue para exames de saúde, cozinheiros experimentam parte da comida para provar os temperos e fábricas realizam testes destrutivos em parte da sua produção para avaliar a qualidade do que está sendo produzido. Será feita uma breve revisão dos principais conceitos de amostragem baseada em (Bolfarine and Bussab 2005).

4.1 Definições básicas

4.1.1 Unidade Elementar

Definição 4.2 A unidade elementar, unidade populacional ou simplesmente elemento é a entidade portadora das informações que pretende-se coletar. \(\\\)

A unidade elementar pode ser um objeto, animal ou pessoa. Em certos casos existe mais de uma maneira de definir a unidade elementar, onde se faz necessário o entendimento dos especialistas envolvidos. A unidade elementar é uma das definições mais importantes do campo científico, pois é base de toda a construção das hipóteses de pesquisa.

Exemplo 4.1 (Pesquisa eleitoral I) Em uma pesquisa eleitoral, classifica-se o eleitor como unidade elementar.

4.1.2 Unidade Amostral

Definição 4.3 A unidade amostral é uma composição de uma ou mais unidades elementares. \(\\\)
Exemplo 4.2 (Pesquisa eleitoral II) Em uma pesquisa eleitoral na rua, o eleitor é também unidade amostral. Caso as entrevistas sejam feitas de casa em casa, o domicílio passa a ser unidade amostral, i.e., um conjunto de unidades elementares (eleitores).

4.1.3 Sistema de referências

Em relação às informações de um estudo, deve-se fazer inicialmente uma avaliação das bases de dados já disponíveis para então proceder com a avaliação da viabilidade de um levantamento de dados mais específico. Este levantamento envolve se montar um plano amostral, contratar, treinar e manter pessoas para a coleta, criar os protocolos de resposta bem como gerar e analisar os bancos de dados. Caso decida-se realizar tal levantamento, serão necessárias listas relacionando as unidades populacionais e amostrais. Na falta de tais listas, utilizam-se sistemas de referências, que são fontes que descrevem o universo a ser investigado. Podem ser informações razoavelmente atualizadas, como mapas, censos ou listas reunidas.

4.2 Universo \(\mathcal{U}\)

Definição 4.4 Universo ou população é o conjunto de todas as unidades elementares de interesse. \(\\\)

Usualmente o universo possui tamanho \(N\) elevado, até mesmo infinito, mas em alguns casos pode ser relativamente pequeno. É denotado formalmente por \[\mathcal{U} = \lbrace 1,2 \ldots, N \rbrace.\]

Exemplo 4.3 (Pesquisa eleitoral III) Em 2018 o universo de eleitores do município de Porto Alegre compreendia 1,100,163 eleitores17, i.e., \(N=1\,100\,163\). Formalmente \[\mathcal{U} = \lbrace 1, 2 \ldots, 1\,100\,163 \rbrace.\]
Definição 4.5 Elemento universal, elemento populacional ou unidade elementar denota um elemento \(i \in \mathcal{U}\).
Definição 4.6 Característica(s) de interesse denota(m) a variável ou o conjunto de \(k\) variáveis associada(o) a cada elemento do universo, anotado por \(\boldsymbol{X} = (\boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_N) = \left( \begin{bmatrix} x_{11} \\ x_{12} \\ \vdots \\ x_{1k} \end{bmatrix}, \begin{bmatrix} x_{21} \\ x_{22} \\ \vdots \\ x_{2k} \end{bmatrix}, \cdots , \begin{bmatrix} x_{N1} \\ x_{N2} \\ \vdots \\ x_{Nk} \end{bmatrix} \right) = \left( \begin{array}{cccc} x_{11} & x_{21} & \cdots & x_{N1} \\ x_{12} & x_{22} & \cdots & x_{N2} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1k} & x_{2k} & \cdots & x_{Nk} \end{array} \right).\) \(\\\)
Exemplo 4.4 Considere que no universo \(\mathcal{U} = \lbrace 1,2,3 \rbrace\) de tamanho \(N=3\) o sujeito 1 seja do sexo feminino com 24 anos de idade e 1.66m de altura, o sujeito 2 do sexo masculino com idade de 32 anos e 1.81m de altura, e o sujeito 3 do sexo masculino com 49 anos com altura de 1.73m. Assim, \[\boldsymbol{X} = (\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3) = \left( \begin{bmatrix} 24 \\ 1.66 \\ F \end{bmatrix}, \begin{bmatrix} 32 \\ 1.81 \\ M \end{bmatrix}, \begin{bmatrix} 49 \\ 1.73 \\ M \end{bmatrix} \right) = \left( \begin{array}{ccc} 24 & 32 & 49 \\ 1.66 & 1.81 & 1.73 \\ M & F & M \end{array} \right).\]

4.2.1 Parâmetros

Definição 4.7 Parâmetro universal ou parâmetro populacional denota uma função ou medida que depende de todas as características de interesse. \(\\\)
Exemplo 4.5 O parâmetro total universal é dado por \[\begin{equation} \tau = \sum_{i=1}^N x_i. \tag{4.1} \end{equation}\]
Exemplo 4.6 O parâmetro média universal é dado por \[\begin{equation} \mu = \frac{1}{N} \sum_{i=1}^N x_i = \frac{\tau}{N}. \tag{4.2} \end{equation}\]
Exemplo 4.7 Uma variável é chamada dicotômica quando assume apenas dois possíveis valores tais como sim/não, verdadeiro/falso, ligado/desligado, etc. A característica de interesse é chamada sucesso e a outra característica de fracasso. Por conveniência associa-se o sucesso ao valor \(x=1\) e fracasso a \(x=0\). Desta forma simboliza-se \(\sum_{i=1}^N x_i\) como o total de sucessos observados no universo. Nesta situação o parâmetro proporção universal é dado por \[\begin{equation} \pi = \frac{1}{N} \sum_{i=1}^N x_i. \tag{4.3} \end{equation}\]
Exemplo 4.8 O parâmetro variância universal é dado pelas Equações (2.16) e (2.17).
Exemplo 4.9 O parâmetro desvio padrão universal é a raiz quadrada da variância universal, dado pela Equação (2.21).
Exemplo 4.10 O parâmetro covariância universal é dado por \[\begin{equation} \sigma_{XY} = Cov[X,Y] = \frac{1}{N} \sum_{i=1}^N (x_i - \mu_X)(y_i - \mu_Y). \tag{4.4} \end{equation}\]
Exemplo 4.11 O parâmetro correlaçao universal é dado por \[\begin{equation} \rho_{XY} = Cor[X,Y] = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}. \tag{4.5} \end{equation}\]
Exercício 4.1 Utilizando os dados do Exemplo 4.4, calcule os parâmetros dos Exemplos 4.5 a 4.11. \(\\\)
Exercício 4.2 Mostre que as Equações (2.16) e (2.17) são equivalentes.

4.3 Amostras

Definição 4.8 Considere o universo \(\mathcal{U} = \lbrace 1, 2, \ldots, N \rbrace\). Uma amostra é qualquer sequência de \(n\) unidades de \(\mathcal{U}\), formalmente denotada por \[\boldsymbol{a} = (a_1,\ldots,a_n),\] onde o \(i\)-ésimo compomente de \(\boldsymbol{a}\) é tal que \(a_i \in \mathcal{U}\). \(\\\)
Exemplo 4.12 Seja \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\). Os vetores \(\boldsymbol{a}_A = (2,3)\), \(\boldsymbol{a}_B = (3,3,1)\), \(\boldsymbol{a}_C = (2)\), \(\boldsymbol{a}_D = (2,2,3,3,1)\) são possíveis amostras de \(\mathcal{U}\). \(\\\)
Exemplo 4.13 No Exemplo 4.12, note os tamanhos de amostra \(n_A = n(\boldsymbol{a}_A) = 2\), \(n_B = n(\boldsymbol{a}_B) = 3\), \(n_C = n(\boldsymbol{a}_C) = 1\) e \(n_D = n(\boldsymbol{a}_D) = 5\). \(\\\)
Definição 4.9 Seja \(\mathcal{A}(\mathcal{U})\) ou simplesmente \(\mathcal{A}\) o conjunto de todas as amostras de \(\mathcal{U}\), de qualquer tamanho, e \(\mathcal{A}_{n}(\mathcal{U})\) ou simplesmente \(\mathcal{A}_{n}\) a subclasse das as amostras de tamanho \(n\). \(\\\)
Exemplo 4.14 Se \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\), \[\mathcal{A}(\mathcal{U}) = \lbrace (1),(2),(3),(1,1),(1,2),(1,3),(2,1),\ldots,(3,1,2,2,1),\ldots \rbrace,\] \[\mathcal{A}_{1}(\mathcal{U}) = \lbrace (1),(2),(3) \rbrace, \] \[\mathcal{A}_{2}(\mathcal{U}) = \lbrace (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3) \rbrace. \] Simplificadamente \[\mathcal{A} = \lbrace 1,2,3,11,12,13,21,\ldots,31221,\ldots \rbrace,\] \[\mathcal{A}_{1} = \lbrace 1,2,3 \rbrace, \] \[\mathcal{A}_{2} = \lbrace 11,12,13,21,22,23,31,32,33 \rbrace. \]
Exemplo 4.15 No exemplo anterior, note o número de elementos (cardinalidade) de cada conjunto: \[|\mathcal{U}|=3\] \[|\mathcal{A}(\mathcal{U})| = \infty\] \[|\mathcal{A}_{1}(\mathcal{U})| = 3^1 = 3\] \[|\mathcal{A}_{2}(\mathcal{U})| = 3^2 = 9\] \[\vdots\] \[|\mathcal{A}_{n}(\mathcal{U})| = |\mathcal{U}|^n.\]

4.3.1 Plano Amostral

Definição 4.10 Um plano amostral (ordenado) é uma função \(P(\boldsymbol{a})\) definida em \(\mathcal{A}(\mathcal{U})\) satisfazendo \[P(\boldsymbol{a}) \ge 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}),\] tal que \[\sum_{\boldsymbol{a} \in \mathcal{A}} P(\boldsymbol{a}) = 1.\] \(\\\)
Exemplo 4.16 Considere \(\mathcal{U} = \lbrace 1, 2, 3 \rbrace\) e \(\mathcal{A}(\mathcal{U})\) conforme Exemplo 4.14. É possivel criar infinitos planos amostrais, tais como:
  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc) \[P(11)=P(12)=P(13)=1/9 \\ P(21)=P(22)=P(23)=1/9 \\ P(31)=P(32)=P(33)=1/9 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs) \[P(12)=P(13)=1/6 \\ P(21)=P(23)=1/6 \\ P(31)=P(32)=1/6 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano C \(\cdot\) Combinações \[P(12)=P(13)=P(23)=1/3 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

  • Plano D \[P(3)=9/27 \\ P(12)=P(23)=3/27 \\ P(111)=P(112)=P(113)=P(123)=1/27 \\ P(221)=P(222)=P(223)=P(231)=1/27 \\ P(331)=P(332)=P(333)=P(312)=1/27 \\ P(\boldsymbol{a}) = 0, \; \forall \boldsymbol{a} \in \mathcal{A}(\mathcal{U}).\]

Exemplo 4.17 Considere a amostra \(\boldsymbol{a} = (1,2)\) obtida do universo descrito Exemplo 4.4 a partir de algum plano amostral válido. Se o sujeito 1 tem 24 anos de idade e 1.66m de altura, e o sujeito 2 tem 32 anos de idade altura de 1.81m, \[\boldsymbol{x} = (\boldsymbol{x}_1,\boldsymbol{x}_2) = \left( \begin{bmatrix} 24 \\ 1.66 \end{bmatrix}, \begin{bmatrix} 32 \\ 1.81 \end{bmatrix} \right) = \left( \begin{array}{cc} 24 & 32 \\ 1.66 & 1.81 \end{array} \right).\]
Definição 4.11 Uma estatística é uma função dos dados amostra \(\boldsymbol{a}\) anotada por \(h(\boldsymbol{x})\), i.e., qualquer medida numérica calculada a partir dos valores observados na amostra. \(\\\)
Exemplo 4.18 Considere \(\boldsymbol{x}\), a matriz dos dados da amostra \(\boldsymbol{a} = (1,2)\). São exemplos de estatísticas: \[h_1 = \frac{24+32}{2} = 28 \;\;\;\;\; \textrm{(média das idades)}\] \[h_2 = \frac{1.66+1.81}{2} = 1.735 \;\;\;\;\; \textrm{(média das alturas)}\] \[h_3 = 32-24 = 8 \;\;\;\;\; \textrm{(amplitude das idades)}\] \[h_4 = \sqrt{24^2+32^2} = \sqrt{1600} = 40 \;\;\;\;\; \textrm{(norma das idades)}\]
Exercício 4.3 Calcule as estatísticas do Exemplo 4.18 considerando as amostras \(\boldsymbol{a} = (1,3)\) e \(\boldsymbol{a} = (2,3)\).

4.3.2 Distribuições amostrais

Definição 4.12 A distribuição amostral de uma estatística \(h(\boldsymbol{x})\) segundo um plano amostral \(\lambda\), é a distribuição de probabilidades \(H(\boldsymbol{x})\) definida sobre \(\mathcal{A}_\lambda\), com função de probabilidade \[p_h = P_\lambda(H(\boldsymbol{x})=h) = P(h) = \frac{f_h}{|\mathcal{A}_\lambda|}. \] \(\\\)
Exemplo 4.19 Considere a variável idade do Exemplo 4.4 e as estatísticas \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\) e \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\) aplicadas sobre o plano amostral A do Exemplo 4.16. Note que \(h_1(\boldsymbol{x})\) e \(h_2(\boldsymbol{x})\) são respectivamente a média e a variância amostrais. \(\\\)
  • Plano A \(\cdot\) Amostragem Aleatória Simples com reposição (AASc)
\(i\) 1 2 3 4 5 6 7 8 9
\(\boldsymbol{a}\) 11 12 13 21 22 23 31 32 33
\(P(\boldsymbol{a})\) 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
\(\boldsymbol{x}\) (24,24) (24,32) (24,49) (32,24) (32,32) (32,49) (49,24) (49,32) (49,49)
\(h_1(\boldsymbol{x})\) 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
\(h_2(\boldsymbol{x})\) 0.0 32.0 312.5 32.0 0.0 144.5 312.5 144.5 0.0
\(h_1\) 24.0 28.0 32.0 36.5 40.5 49.0 Total
\(f_{h1}\) 1 2 1 2 2 1 9
\(p_{h1}\) 1/9 2/9 1/9 2/9 2/9 1/9 1
\(h_2\) 0.0 32.0 144.5 312.5 Total
\(f_{h2}\) 3 2 2 2 9
\(p_{h2}\) 3/9 2/9 2/9 2/9 1
\(\\\)
Exemplo 4.20 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral B do Exemplo 4.16. \(\\\)
  • Plano B \(\cdot\) Amostragem Aleatória Simples sem reposição (AASs)
\(i\) 1 2 3 4 5 6
\(\boldsymbol{a}\) 12 13 21 23 31 32
\(P(\boldsymbol{a})\) 1/6 1/6 1/6 1/6 1/6 1/6
\(\boldsymbol{x}\) (24,32) (24,49) (32,24) (32,49) (49,24) (49,32)
\(h_1(\boldsymbol{x})\) 28.0 36.5 28.0 40.5 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 2 2 2 6
\(p_{h1}\) 2/6 2/6 2/6 1
\(\\\)
Exemplo 4.21 Considere novamente a variável idade do Exemplo 4.4 e a estatística \(h_1(\boldsymbol{x})=\frac{1}{n}\sum_{i=1}^n x_i\), agora aplicada sobre o plano amostral C do Exemplo 4.16. \(\\\)
  • Plano C \(\cdot\) Combinações
\(i\) 1 2 3
\(\boldsymbol{a}\) 12 13 23
\(P(\boldsymbol{a})\) 1/3 1/3 1/3
\(\boldsymbol{x}\) (24,32) (24,49) (32,49)
\(h_1(\boldsymbol{x})\) 28.0 36.5 40.5
\(h_1\) 28.0 36.5 40.5 Total
\(f_{h1}\) 1 1 1 3
\(p_{h1}\) 1/3 1/3 1/3 1
\(\\\)
Exercício 4.4 Refaça os Exemplos 4.19, 4.20 e 4.21 considerando a variável altura. Para os Exemplos 4.20 e 4.21, calcule também a estatística \(h_2(\boldsymbol{x})=\frac{1}{n-1}\sum_{i=1}^n (x_i-h_1(\boldsymbol{x}))^2\). \(\\\)
Exemplo 4.22 A seguir são implementadas em R as resoluções dos Exemplos 4.19 e 4.20.
U <- 1:3                    # universo
(aasc <- expand.grid(U,U))  # AASc de tamanho n=2
##   Var1 Var2
## 1    1    1
## 2    2    1
## 3    3    1
## 4    1    2
## 5    2    2
## 6    3    2
## 7    1    3
## 8    2    3
## 9    3    3
(aasc <- cbind(aasc[,2],aasc[,1])) # trocando as colunas para melhor leitura
##       [,1] [,2]
##  [1,]    1    1
##  [2,]    1    2
##  [3,]    1    3
##  [4,]    2    1
##  [5,]    2    2
##  [6,]    2    3
##  [7,]    3    1
##  [8,]    3    2
##  [9,]    3    3
(aass <- aasc[-c(1,5,9),]) # AASs de tamanho n=2
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
x1 <- c(24,32,49)           # dados de idade
n <- ncol(aasc)
# AASc
(xc <- cbind(x1[aasc[,1]], x1[aasc[,2]])) # dados amostrais de idade com reposição
##       [,1] [,2]
##  [1,]   24   24
##  [2,]   24   32
##  [3,]   24   49
##  [4,]   32   24
##  [5,]   32   32
##  [6,]   32   49
##  [7,]   49   24
##  [8,]   49   32
##  [9,]   49   49
(mxc <- rowMeans(xc))       # estatística h1(x) aplicada na AASc
## [1] 24.0 28.0 36.5 28.0 32.0 40.5 36.5 40.5 49.0
(tabc <- table(mxc))        # frequência amostral de h1(y) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##    1    2    1    2    2    1
MASS::fractions(prop.table(tabc)) # distribuição amostral de h1(x) aplicada na AASc
## mxc
##   24   28   32 36.5 40.5   49 
##  1/9  2/9  1/9  2/9  2/9  1/9
# vyc <- (rowMeans(xc^2)-mxc^2)*(n/(n-1))
# AASs
(xs <- cbind(x1[aass[,1]], x1[aass[,2]])) # dados amostrais de idade sem reposição
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
(mxs <- rowMeans(xs))       # estatística h(x) aplicada na AASs
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
(tabs <- table(mxs))        # frequência amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##    2    2    2
MASS::fractions(prop.table(tabs)) # distribuição amostral de h(x) aplicada na AASs
## mxs
##   28 36.5 40.5 
##  1/3  1/3  1/3
Exemplo 4.23 As resoluçãos dos Exemplos 4.20 e 4.21 podem ser implementadas no pacote arrangements do R. Note que são obtidas as amostras via AASs através da função permutations e as amostras por combinação, sem qualquer tipo de repetição, pela função combinations.
library(arrangements)
x1 <- c(24,32,49)  # dados de idade
# AASs
npermutations(3,2) # número de AASs
## [1] 6
(aass <- permutations(3,2)) # gerando as AASs
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    1
## [4,]    2    3
## [5,]    3    1
## [6,]    3    2
(maass <- matrix(x1[t(aass)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   24
## [4,]   32   49
## [5,]   49   24
## [6,]   49   32
rowMeans(maass)
## [1] 28.0 36.5 28.0 40.5 36.5 40.5
mean(rowMeans(maass)) # plano amostral não viesado
## [1] 35
# Combinações
ncombinations(3,2) # número de amostras via combinação
## [1] 3
(comb <- combinations(3,2)) # gerando as amostras via combinação
##      [,1] [,2]
## [1,]    1    2
## [2,]    1    3
## [3,]    2    3
(mcomb <- matrix(x1[t(comb)], ncol=2, byrow = T))
##      [,1] [,2]
## [1,]   24   32
## [2,]   24   49
## [3,]   32   49
rowMeans(mcomb)
## [1] 28.0 36.5 40.5
mean(rowMeans(mcomb)) # plano amostral não viesado
## [1] 35
Desafio 4.1 Generalize os Exemplos 4.22 e 4.21 para qualquer tamanho de amostra, parametrizando as opções com e sem reposição, bem como para combinações. Por fim, adicione um argumento que permita calcular qualquer estatística.

Teorema Central do Limite

O Teorema Central do Limite (TCL) é um dos principais resultados da Probabilidade. Ele mostra que, sob certas condições razoavelmente alcançadas na prática, a soma ou média de uma sequência de variáveis aleatórias independentes e identicamente distribuídas (iid)18 têm distribuição aproximadamente normal. Este resultado permite a resolução aproximada de problemas que envolvam muitos cálculos, usualmente impraticáveis dado o volume de operações necessárias.

Teorema 4.1 (Teorema Central do Limite de Lindeberg-Lévy) Seja \(X_{1}, X_{2}, \ldots, X_{n}\) uma sequência de variáveis aleatórias iid com \(E(X_{i}) = \mu\) e \(V(X_{i}) = \sigma^2\). Considerando \(S=X_{1}+X_{2}+\ldots+X_{n}\), \(M=S/n\) e se \(n \longrightarrow \infty\), então \[\begin{equation} Z = \frac{S - n\mu}{\sigma \sqrt{n}} = \dfrac{M - \mu}{\sigma / \sqrt{n}} \xrightarrow{D} \mathcal{N}(0,1). \tag{4.6} \end{equation}\]

A correção de continuidade ocorre quando soma-se 0.5 no numerador da Equação (4.6). (James 2010) sugere o uso da expressão ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central’, pois central é o teorema, não o limite. A origem da expressão é atribuída ao matemático húngaro George Pólya, ao se referir a der zentrale Grenzwertsatz, i.e., o ‘central’ refere-se ao ‘teorema do limite’.

Distribuição amostral da proporção

A proporção é uma média no caso de a variável admitir apenas os valores 0 e 1, portanto o TCL se aplica diretamente a este tipo de estrutura.

Exemplo 4.24 (Aproximação da binomial pela normal) Se considerarmos \(n=420\) lançamentos de uma moeda com \(p=0.5\), temos que a v.a. \(X\): número de caras é tal que \(X \sim \mathcal{B}(420,0.5)\). A probabilidade de obtermos até 200 caras pode ser aproximada pelo pelo TCL. \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9759) \approx 0.164557. \] Utilizando a correção de continuidade, \[ Pr(X \le 200) \approx Pr \left( Z < \dfrac{200+0.5-420\times 0.5}{\sqrt{420 \times 0.5 \times 0.5}} \right) = \Phi(-0.9271) \approx 0.176936. \] Com um computador é possível calcular a probabilidade exata, perceba a proximidade dos resultados. \[ Pr(X \le 200) = \left[ {420 \choose 0} + {420 \choose 1} + \cdots + {420 \choose 200} \right] 0.5^{420} = 0.1769429. \]
n <- 420
p <- 0.5
S <- 200
mS <- n*p  # 210
sS <- sqrt(n*p*(1-p))  # 10.24695
# Aproximação da binomial pela normal SEM correção de continuidade
(z <- (S-mS)/sS)
## [1] -0.976
pnorm(z)
## [1] 0.165
# Aproximação da binomial pela normal COM correção de continuidade
(zc <- (S+0.5-mS)/sS)
## [1] -0.927
pnorm(zc)
## [1] 0.177
# Probabilidade exata
pbinom(S,n,p)
## [1] 0.177

Distribuição amostral da média

Com base no Teorema Central do Limite sabe-se que a distribuição das médias amostrais de qualquer variável \(X\) que satisfaça as condições do teorema converge para a distribuição normal. Considere que \(X\) tem uma distribuição \(\mathcal{D}\) qualquer, com média \(\mu\) e desvio padrão \(\sigma\), simbolizada por \[X \sim \mathcal{D}(\mu,\sigma).\] Pelo TCL, a distribuição das médias amostrais de qualqer tamanho \(n_0\) é tal que \[\bar{X}_{n_0} \sim \mathcal{N} \left( \mu,\frac{\sigma}{\sqrt{n_0}} \right).\] A medida \(\sigma/\sqrt{n_0}\) é conhecida como erro padrão (da média). O TCL é um resultado assintótico19, portanto quanto mais próxima \(\mathcal{D}\) estiver de \(\mathcal{N}\), mais rápida deve ser a convergência de \(\bar{X}_{n_0}\) para a distribuição normal.

Exemplo 4.25 Considere a variável aleatória \(X\): QI da população mundial, admitida com distribuição normal de média \(\mu=100\) e desvio padrão de \(\sigma=15\), anotada por \(X \sim \mathcal{N}(100,15)\).
mu <- 100 # média de X
sigma <- 15  # desvio padrão de X
curve(dnorm(x, mean=mu, sd=sigma), from=mu-3*sigma, to=mu+3*sigma) # X ~ N(100,15)

n0 <- 25 # tamanho das amostras
n <- 200 # número de amostras
set.seed(1234) # fixando semente pseudo-aleatória para garantir replicação
a <- MASS::mvrnorm(n0, mu = rep(mu,n), Sigma = sigma^2*diag(n)) # amostras
ma <- colMeans(a) # médias das n amostras
hist(ma) # histograma das médias

mean(ma) # média das médias amostrais, próxima de mu
## [1] 99.9
sd(ma) # desvio padrão das médias, próximo de sigma/raiz(n0)
## [1] 2.82
sigma/sqrt(n0) # sigma/raiz(n0)
## [1] 3
Exercício 4.5 Refaça o Exemplo 4.25 alterando os valores de n0 e n, verificando o que ocorre no histograma, média e desvio padrão de ma. Atente para o fato de que valores de n maiores que 1000 podem tornar o processo custoso computacionalmente.

4.3.3 Amostra representativa

Ouve-se frequentemente o argumento de que uma boa amostra é aquela que é representativa. Indagado sobre a definição de uma amostra representativa, a resposta mais comum é algo como: “aquela que é uma micro representação do universo”. Mas para se ter certeza de que uma amostra seja uma micro representação do universo para uma dada característica de interesse, deve-se conhecer o comportamento dessa mesma característica da população. Então, o conhecimento da população seria tão grande que tonar-se-ia desnecessária a coleta da amostra.
(Bolfarine and Bussab 2005, 14)

4.3.4 Tipos de amostras

Tipos de amostras segundo (Bolfarine and Bussab 2005) e (Jessen 1978).

Procedimentos probabilísticos objetivos são mais bem aceitos academicamente, ainda que na prática nem sempre possam ser executados. Quando isso ocorre, podem-se considerar procedimentos que sejam possíveis de serem executados.

4.4 Principais técnicas de amostragem

4.4.1 Amostragem Aleatória Simples

Amostragem Aleatória Simples (AAS) é o método mais básico de seleção de amostras, sendo referência para todos os demais planos amostrais. A partir de uma lista completa das \(N\) unidades elementares da população seleciona-se cada unidade amostral com igual probabilidade, de tal forma que a cada sorteio os elementos tenham a mesma chance de serem escolhidos. A necessidade de uma lista completa da população para realizar uma AAS pode eventualmente ser um limitante na aplicação deste tipo de metodologia, pois na prática nem sempre é possível obter tal listagem. Os planos amostrais A e B discutidos nos Exemplos 4.16, 4.19 e 4.20 são caracterizados como AAS.

AAS sem reposição - AASs

Caso a unidade sorteada seja retirada da população e seja realizado um novo sorteio, é dito que procedeu-se com uma AAS restrita ou sem reposição, indicado por AASs.

Exemplo 4.26 (AASs) De uma urna com \(N\) cartões numerados de \(1\) a \(N\) sorteia-se um ao acaso, com probabilidade \(1/N\). O cartão sorteado é deixado de fora da urna e realiza-se um novo sorteio, onde cada um dos \(N-1\) cartões restantes tem probabilidade \(1/(N-1)\) de ser retirado. Este procedimento é repetido até que se concluam todos os \(n\) sorteios desejados. Este é um processo de AAS sem reposição. \(\\\)
Exercício 4.6 Defina as probabilidades de sorteio do Exemplo 4.26 considerando \(n=3\) sorteios. \(\\\)
Exercício 4.7 Calcule as probabilidades de sorteio do Exemplo 4.26 considerando \(n=3\) sorteios e \(N=10\). \(\\\)
Exemplo 4.27 (Mega-Sena da Caixa Econômica Federal) No R pode-se sortear uma amostra sem reposição para tentar a sorte no jogo da Caixa Econômica Federal. Note que \(N=60\), \(n=6\).
set.seed(1234) # Fixando a geração pseudo-aleatória
sort(sample(1:60, size = 6, replace = F)) # Apostando na Mega-Sena da CEF via AASs
## [1] 16 22 28 37 44 58
Exercício 4.8 Leia a documentação das funções utilizadas no Exemplo 4.27 fazendo ?set.seed,
?sort e ?sample.

AAS com reposição - AASc

Caso a unidade sorteada tenha a chance de participar novamente da amostra, o procedimento é chamado AAS irrestrita ou com reposição, indicado por AASc.

Exemplo 4.28 (AASc) De uma urna com \(N\) cartões numerados de \(1\) a \(N\) sorteia-se um ao acaso, com probabilidade \(1/N\). O cartão sorteado é recolocado na urna e realiza-se um novo sorteio. Este procedimento é repetido até que se concluam todos os \(n\) sorteios desejados. Este é um processo de AAS com reposição. \(\\\)
Exercício 4.9 Defina as probabilidades de sorteio do Exemplo 4.28 considerando \(n=3\) sorteios. \(\\\)
Exercício 4.10 Calcule as probabilidades de sorteio do Exemplo 4.28 considerando \(n=3\) sorteios com \(N=10\). \(\\\)

4.4.2 Amostragem Sistemática

Considere uma população de \(N\) unidades elementares numeradas de 1 a \(N\). Para selecionar uma amostra de \(n\) observações sorteia-se aleatoriamente uma das primeiras \(k=N/n\) unidades, digamos \(a\), com probabilidade \(1/k\) selecionando sistematicamente as próximas observações a cada \(k\) unidades. Matematicamente, \[a, a+k, a+2k, \ldots, a+(n-1)k.\]

Exemplo 4.29 Seja uma população com \(N=100\), da qual deseja-se retirar uma amostra sistemática de tamanho \(n=5\). Neste caso \(k=100/5=20\), então sortearmos aleatoriamente um número entre 1 e 20 com probabilidade \(1/20\). Se o número sorteado for \(a=4\), a amostra sistemática então é definida como \[4, 4+20, 4+2 \times 20, 4+3 \times 20, 4+4 \times 20 = 4,24,44,64,84.\]
N <- 100 # Tamanho da população
n <- 5 # Tamanho da amostra
(k <- N/n) # Tamanho do salto
## [1] 20
set.seed(1) # Fixando a geração pseudo-aleatória
(a <- sample(1:k, size = 1)) # Amostra de tamanho 1 com probabilidade 1/k
## [1] 4
for(i in 1:n){print(a+(i-1)*k)} # Apresentando a amostra de tamanho n
## [1] 4
## [1] 24
## [1] 44
## [1] 64
## [1] 84
Exercício 4.11 Considere o código do Exemplo 4.29.
(a) Rode o código repetidas vezes retirando a linha set.seed(1). O que você observa?
(b) Refaça o exercício considerando outros valores de \(N\) e \(n\), tais que \(n<N\).

4.4.3 Amostragem Estratificada

Segundo (Bolfarine and Bussab 2005, 93),

Amostragem estratificada consiste na divisão de uma população em grupos (estratos) segundo alguma(s) característica(s) conhecida(s) na populaçãao sob estudo, e de cada um desses estratos são selecionadas amostras em proporções convenientes.

O objetivo deste tipo de amostragem é que o pesquisador possa se valer de estruturas pré-existentes de maneira a melhorar as inferências, reduzindo sua variabilidade.

4.5 Cálculo do tamanho da amostra

O cálculo do tamanho de amostra é baseado em uma série de premissas assumidas pelo pesquisador. Os valores sugeridos pelos diversos métodos de cálculo de tamanho de amostra devem ser considerados apenas como uma referência, dada a arbitrariedade das medidas utilizadas em sua obtenção. Tempo e custo são dois limitantes que devem ser levados em conta, podendo se sobrepor aos cálculos de tamanho de amostra.
A seguir serão apresentados casos bastante simples, mas suficientes para ilustrar os princípios utilizados. Para mais funcionalidades recomenda-se o pacote pwr (Champely 2020) do R e o software G*Power (Franz Faul and Buchner 2007), (Franz Faul and Lang 2009). Para uma abordagem mais teórica recomenda-se (Chow, Wang, and Shao 2007).

4.5.1 Média

Uma forma de estimar o tamanho da amostra no caso da inferência para a media universal \(\mu\) é considerar a margem de erro da Equação (5.4) e isolar \(n\) na forma \[\begin{equation} n = \left \lceil{ \left( \frac{z \sigma}{\varepsilon} \right)^2 }\right \rceil. \tag{4.7} \end{equation}\]

O operador \(\left \lceil{ x }\right \rceil\) indica a função teto de \(x\), i.e., indica o primeiro inteiro acima de \(x\).

Exercício 4.12 Obtenha o resultado da Equação (4.7) a partir da margem de erro da Equação (5.4). \(\\\)
Exemplo 4.30 (Tamanho da amostra para a média) Deseja-se obter o tamanho de amostra para estimar a média de altura dos alunos da PUCRS. Considera-se um intervalo de confiança de \(1-\alpha = 95\%\), com margem de erro de \(\varepsilon = 3\) cm. De estudos anteriores, admite-se \(\sigma = 15\) cm. Considerando a Equação (4.7), sabe-se da tabela da distribuição normal padrão que \(z = 1.96\), assim \[\begin{equation} n = \left \lceil{ \left( \frac{1.96 \times 15}{3} \right)^2 }\right \rceil = \left \lceil{ 96.04 }\right \rceil = 97. \tag{4.8} \end{equation}\]
# Equação (3.8)
n_m <- function(z,sigma,e) {
  exato <- (z*sigma/e)^2     
  teto <- ceiling(exato)
  return(list(exato=exato, 
              teto=teto))
}      
n_m(1.96,15,3)
## $exato
## [1] 96
## 
## $teto
## [1] 97
n_m(1.96,15,3)$exato
## [1] 96
n_m(1.96,15,3)$teto
## [1] 97

4.5.2 Proporção

Uma forma de estimar o tamanho da amostra no caso da inferência para a proporção universal \(\pi\) é considerar a margem de erro da Equação (5.6) e isolar \(n\) na forma \[\begin{equation} n = \left \lceil{ \frac{z^2 p (1-p)}{\varepsilon^2} }\right \rceil. \tag{4.9} \end{equation}\]

Em certos casos existe informação disponível sobre a proporção, mas quando não há qualquer conhecimento a respeito desta medida considera-se \(p=\frac{1}{2}\), ponto no qual \(p(1-p)\) atinge seu máximo.

Exercício 4.13 Obtenha o resultado da Equação (4.9) a partir da margem de erro da Equação (5.6). \(\\\)
Exercício 4.14 Verifique que \(p(1-p)\) atinge seu máximo quando \(p=\frac{1}{2}\). \(\\\)

Exemplo 4.31 (Tamanho da amostra para a proporção) Em uma pesquisa eleitoral deseja-se calcular o tamanho de amostra aproximado para que a margem de erro seja de \(\varepsilon = 2\%\) com confiança de \(1-\alpha = 95\%\). Considerando a Equação (4.9), sabe-se da tabela da distribuição normal padrão que \(z = 1.96 \approx 2\), e que \(p(1-p)\) atinge seu máximo quando \(p=\frac{1}{2}\). Assim, \[\begin{equation} n \approx \left \lceil{ \frac{2^2 \times \frac{1}{2} \times (1-\frac{1}{2})}{\varepsilon^2} }\right \rceil = \left \lceil{ \frac{1}{\varepsilon^2} }\right \rceil \tag{4.10} \end{equation}\]

Logo, um IC para a proporção com \(\alpha = 5\%\) para uma margem de erro de \(\varepsilon = 2\%\) pode ser calculado com um tamanho de amostra de aproximadamente \[ n \approx \left \lceil{ \frac{1}{0.02^2} }\right \rceil = 2500. \]
# Equação (3.11)
n_p <- function(e) {
  exato <- 1/e^2
  teto <- ceiling(exato)
  return(list(exato=exato, 
              teto=teto))
}      
n_p(0.02)
## $exato
## [1] 2500
## 
## $teto
## [1] 2500
n_p(0.02)$exato
## [1] 2500
n_p(0.02)$teto
## [1] 2500
Exercício 4.15 Teste a função n_p do Exemplo 4.31 com diferentes valores de margem de erro. Faça um gráfico para analisar a variação do tamanho da amostra à medida que \(\varepsilon\) aumenta. \(\\\)

4.6 Para saber mais

O material Amostragem: Teoria e Prática Usando R, gentilmente disponibilizado pelos professores Pedro Luis do Nascimento Silva, Zélia Magalhães Bianchini e Antonio José Ribeiro Dias, é uma fonte muito rica para informações adicionais sobre este tópico. Está disponível ainda o livro Análise de Dados Amostrais Complexos, também do professor Pedro Silva em parceria com o professor Djalma Pessoa.
O professor Pedro também compartilhou o vídeo e os slides da apresentação Combinando amostras para aprimorar estimativas – aventuras na amostragem não probabilística, apresentado em 18 de outubro de 2020 no VII Encontro Baiano de Estatística.

Referências

Bolfarine, Heleno, and Wilton de Oliveira Bussab. 2005. Elementos de Amostragem. Editora Blucher. https://www.blucher.com.br/livro/detalhes/elementos-de-amostragem-331.

Champely, Stephane. 2020. Pwr: Basic Functions for Power Analysis. https://CRAN.R-project.org/package=pwr.

Chow, Shein-Chung, Hansheng Wang, and Jun Shao. 2007. Sample Size Calculations in Clinical Rsesearch, Second Edition. CRC press. https://books.google.com.br/books?id=ju-sojS3sa0C&printsec=frontcover&hl=pt-BR#v=onepage&q&f=false.

Franz Faul, Albert-Geroge Lang, Edgard Erdfelder, and Axel Buchner. 2007. “G*Power 3: A Flexible Statistical Power Analysis Program for the Social, Behavioral, and Biomedical Sciences.” Behavior Research Methods, 39, 175-191. https://www.psychologie.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPower3-BRM-Paper.pdf.

Franz Faul, Axel Buchner, Edgard Erdfelder, and Albert-Geroge Lang. 2009. “Statistical Power Analyses Using G*Power 3.1: Tests for Correlation and Regression Analyses.” Behavior Research Methods, 41, 1149-1160. https://www.psychologie.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPower31-BRM-Paper.pdf.

James, B. R. 2010. “Probabilidade: Um Curso Em Nível Intermediário, Coleção Euclides.” Rio de Janeiro. IMPA, 3a. Edição. https://loja.sbm.org.br/index.php/colecoes/impa/colecao-projeto-euclides/probabilidade-um-curso-em-nivel-intermediario.html.

Jessen, Raymond James. 1978. Statistical Survey Techniques. Wiley New York.


  1. Fonte: .↩︎

  2. Variáveis que apresentam mesma distribuição de probabilidade com os mesmos parâmetros.↩︎

  3. Um resultado assintótico é aquele que depende de uma ou mais variávies sendo observadas próximas a certos limites de referência.↩︎