6.1 Estimação Pontual

Exemplo 6.1 A média amostral \(\bar{x}\) dada pela Eq. (2.14) é um estimador pontual para a média universal \(\mu\) (Eq. (2.13)).

6.1.1 Estimadores não viesados

Definição 6.1 Um estimador é dito não viesado segundo um plano amostral \(\lambda\) se

\[\begin{equation} E_\lambda \left[ \hat{\theta} \right] = \theta. \tag{6.1} \end{equation}\]

6.1.1.1 Média amostral \(\bar{x}\)

A média amostral do Exemplo (2.14) é um estimador não viesado da média universal \(\mu\) segundo o plano amostral AAS, com ou sem reposição. Isto ocorre pelo fato de a esperança ser linear, portanto a dependência entre as observações não interfere no resultado.

Exemplo 6.2 Sejam as variáveis aleatórias \(X_1, X_2, \ldots, X_n\) condicionalmente independentes identicamente distribuídas (iid) com \(E(X_i)=\mu\) e um plano amostral do tipo AAS, onde por simplicidade será considerada a equivalência \(E_{AAS} \equiv E\).

\[\begin{eqnarray} E\left[\bar{X}\right] &=& E\left[\frac{1}{n} \sum_{i=1}^{n} X_i \right] \\ &=& \frac{1}{n} E\left[\sum_{i=1}^{n} X_i \right] \\ &=& \frac{1}{n} \sum_{i=1}^{n} E\left[X_i \right] \\ &=& \frac{1}{n} \sum_{i=1}^{n} \mu \\ &=& \frac{1}{n} n\mu \\ E\left[\bar{X}\right] &=& \mu. \tag{6.2} \end{eqnarray}\]

Exemplo 6.3 A média universal da variável idade do Exemplo 4.4 é dada por \[\mu = \frac{24+32+49}{3} = \frac{105}{3} = 35.\] Do Exemplo 4.19 pode-se verificar que a média (esperança) das médias amostrais considerando o plano AASc é igual a \(\mu\), i.e., \[E\left[\bar{X}\right] = \frac{24.0+28.0+36.5+28.0+32.0+40.5+36.5+40.5+49.0}{9}=35.\]

X <- c(24,32,49)
mean(X)
## [1] 35

Do Exemplo 4.22 tem-se o vetor mxc de médias amostrais.

mean(mxc)
## [1] 35

Exercício 6.1 Verifique no plano amostral AASs do Exemplo 4.20 que \(E\left[\bar{X}\right] = \mu\).

6.1.1.2 Proporção amostral \(p\)

A proporção amostral é um estimador não viesado da proporção universal \(\pi\) (Eq. (4.1)) segundo o plano amostral AAS, com ou sem reposição. Pode-se definir este estimador por \[\begin{align*} p = \frac{\sum_{i=1}^n x_i}{n} \tag{6.3} \end{align*}\]

Exemplo 6.4 (Proporção de pessoas que usam óculos 2) Considere novamente o Exemplo 2.8. A característica de interesse, ou sucesso, é o entrevistado usar óculos, para o qual associa-se \(x=1\); desta forma, o fracasso é o entrevistado não usar óculos, para o qual associa-se \(x=0\). Em uma amostra de \(n = 125\) frequentadores da universidade, observaram-se \(\sum_{i=1}^n x_i = 25\) pessoas de óculos. A estimativa pontual de \(\pi\) é dada por \[ \hat{\pi} = \dfrac{25}{125} = 0.2 = 20\%. \]

6.1.1.3 Variância amostral \(s^2\)

A variância amostral é um estimador não viesado da variância universal \(\sigma^2\) segundo o plano amostral AAS com reposição.

Exemplo 6.5 Sejam as variáveis aleatórias \(X_1, X_2, \ldots, X_n\) independentes identicamente distribuídas (iid) com \(E(X_i)=\mu\), \(Var(X_i)=\sigma^2\), \(E(X_{i}^2)=\sigma^2+\mu^2\), \(E(\bar{X}^2)=\frac{\sigma^2}{n}+\mu^2\) e um plano amostral do tipo AASc, onde por simplicidade será considerada a equivalência \(E_{AASc} \equiv E\)42.

\[\begin{eqnarray} E\left[S^2\right] &=& E\left[\frac{1}{n-1} \sum_{i=1}^{n} (X_{i}-\bar{X})^2 \right] \\ &=& \frac{1}{n-1} E\left[\sum_{i=1}^{n} X_{i}^2 - 2 \bar{X} \sum_{i=1}^{n} X_{i} + n \bar{X}^2 \right] \\ &=& \frac{1}{n-1} \left[\sum_{i=1}^{n} E\left[X_{i}^2\right] - E\left[n \bar{X}^2\right] \right] \\ &=& \frac{1}{n-1} \left[\sum_{i=1}^{n} E\left[X_{i}^2\right] - n E\left[\bar{X}^2\right] \right] \\ &=& \frac{1}{n-1} \left[n \sigma^2 + n \mu^2 - \sigma^2 - n \mu^2\right] \\ &=& \frac{(n-1)\sigma^2}{n-1} \\ E\left[S^2\right] &=& \sigma^2 \tag{6.4} \end{eqnarray}\]

Exercício 6.2 Verifique no plano amostral AASc do Exemplo 4.19 se \(E_{AASc}\left[S^2\right] = \sigma^2\).

Exercício 6.3 Verifique no plano amostral AASs do Exemplo 4.20 se \(E_{AASs}\left[S^2\right] = \sigma^2\).

6.1.1.4 Mediana

(David and Ghosh 1985) mostram que a mediana (Eq. (2.24)) é o estimador mais resistente a viés na classe de estatísticas-L com coeficientes não negativos que somam um, para uma classe de distribuições que inclui a normal, a exponencial dupla e a logística.

6.1.2 Estimadores de máxima verossimilhança

The optimum value of any parameter (or set of parameters) is that value (or set of values) of which the likelihood is greatest. (Ronald A. Fisher 1922, 310)

Um estimador de máxima verossimilhança é aquele que propõe a estimação de \(\theta\) por \(\hat{\theta}\), valor que maximiza a função de verossimilhança conforme Definição 5.3. Segundo (Barnett 1999), o método da máxima verossimilhança foi utilizado pela primeira vez por Johann Heinrich Lambert e Daniel Bernoulli em meados de 1760, mas detalhado por (Ronald A. Fisher 1922)

Exemplo 6.6 Adaptado de (Casella and Berger 2002, 317–18). Seja \(X_1, \ldots, X_n\) uma sequência (condicionalmente) iid \(\mathcal{Ber}(\theta) \equiv \mathcal{B}(1,\theta)\). A função de verossimilhança é \[\begin{eqnarray} L(\theta|x) &=& \Pi_{i=1}^n \dbinom{1}{x_i} \theta^{x_i} (1-\theta)^{1-x_i} \\ &=& \theta^{s} (1-\theta)^{n - s}, \end{eqnarray}\] onde \(s=\sum_{i=1}^{n} x_i\). Se tomarmos o logaritmo na base natural de \(L(\theta|x)\), temos pelas propriedades dos logaritmos que \[\begin{eqnarray} l(\theta|x) &=& s \log(\theta) + (n-s)\log(1-\theta) \end{eqnarray}\] Utilizando princípios do Cálculo é possível derivar \(l(\theta|x)\) em relação a \(\theta\) e igualar a zero, de onde se obtém a estimativa de máxima verossimilhança \[\begin{eqnarray} \frac{s}{\hat{\theta}} - \frac{n-s}{1-\hat{\theta}} = 0 \;\; \therefore \;\; \hat{\theta} = \frac{s}{n} \end{eqnarray}\]

Exercício 6.4 Considere as informações do Exemplo 6.6.

  1. Mostre, a partir da definição, que \(L(\theta | x) = \theta^{s} (1-\theta)^{n-s}\), \(s=\sum_{i=1}^{n} x_i\).
  2. Mostre que \(\hat{\theta} = \frac{1}{n} \sum_{i=1}^{n} x_i\).

6.1.3 Estimadores consistentes

A statistic satisfies the criterion of consistency, if, when it is calculated from the whole population, it is equal to the required parameter. (Ronald A. Fisher 1922, 309)

(Samuel Kotz et al. 2005, 1285) indicam que um estimador consistente é aquele que converge para o valor do parâmetro estimado à medida que o tamanho da amostra aumenta. O estimador é fracamente consistente quando converge em probabilidade (Eq. (3.119)), e a fortemente consistente quando converge quase certamente (Eq. (3.120)).

(Barnett 1999, 139) aponta pela desigualdade de Chebychev (Eq. (3.122)) que “uma condição suficiente para a consistência fraca dos estimadores não viesados \(\tilde{\theta}_n\) é que \(Var(\tilde{\theta}_n) \rightarrow 0\) quando \(n \rightarrow 0\)”, o que facilita a aplicação.

Exemplo 6.7 (Adaptado de (Barnett 1999, 139)) Suponha \(x_1,x_2,\ldots,x_n\) uma amostra aleatória de observações de uma distribuição com média \(\mu\) e variância \(\sigma^2\). Pelo Exemplo 6.2 sabe-se que \(\bar{X}\) é um estimador não viesado para \(\mu\) pois \(E(\bar{X})=\mu\). Pode-se mostrar que \(V(\bar{X})=\sigma^2/n\), sendo portanto \(\bar{X}\) fracamente consistente.

Pela definição da variância conforme Eq. (3.43), temos \(V[\bar{X}]=E[\bar{X}^2] - (E[\bar{X}])^2\). Assim precisamos apenas encontrar \(E[\bar{X}^2]\). \[\begin{eqnarray} E\left[\bar{X}^2\right] &=& E\left[ \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)^2 \right] \\ &=& \frac{1}{n^2} E\left[ \left( X_1 + X_2 + \cdots + X_n \right)^2 \right] \\ &=& \frac{1}{n^2} E\left[ X_1^2 + \cdots + X_n^2 + 2(X_1 X_2 + \cdots + X_{n-1} X_n) \right] \\ &=& \frac{1}{n^2} \left[ n(\sigma^2 + \mu^2) + 2 \binom{n}{2} \mu^2 \right] \\ &=& \frac{1}{n^2} \left[ n \sigma^2 + n \mu^2 + n(n-1) \mu^2 \right] \\ &=& \frac{1}{n^2} \left[ \frac{n^2 \sigma^2}{n} + n \mu^2 + n^2 - n \mu^2 \right] \\ E\left[\bar{X}^2\right] &=& \frac{\sigma^2}{n} + \mu^2. \tag{6.5} \end{eqnarray}\]

Desta forma

\[\begin{eqnarray} V\left[\bar{X}\right] &=& E[\bar{X}^2] - (E[\bar{X}])^2 \\ &=& \frac{\sigma^2}{n} + \mu^2 - \mu^2 \\ V\left[\bar{X}\right] &=& \frac{\sigma^2}{n}. \tag{6.6} \end{eqnarray}\]

6.1.4 Estimadores eficientes

The efficiency of a statistic is the ratio (usually expressed as a percentage) which its intrinsic accuracy bears to that of the most efficient statistic possible. It expresses the proportion of the total available relevant information of which that statistic makes use. (Ronald A. Fisher 1922, 309–10)

Um estimador eficiente é aquele que possui a menor variância possível. A eficiência de um estimador não viesado \(T\) para um parâmetro \(\theta\) é definida por \[\begin{equation} e(T) = \frac{1/I(\theta)}{var(T)} \tag{6.7} \end{equation}\] onde \(I(\theta)\) é a informação de Fisher conforme Eq. (5.4).

6.1.5 Suficiência

A statistic satisfies the criterion of sufficiency when no other statistic which can be calculated from the same sample provides any additional information as to the value, of the parameter to be estimated. (Ronald A. Fisher 1922, 310)

Uma estatística suficiente \(T(X)\) carrega toda a informação disponível na amostra para estimar certo parâmetro populacional.

Exemplo 6.8 (Estatística suficiente) A soma dos valores de uma amostra \(\sum_{i=1}^n x_i\) é uma estatística suficiente para o estimador \(\hat{\mu}\).

References

Barnett, Vic. 1999. Comparative Statistical Inference. John Wiley & Sons. https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316955.
Casella, George, and Roger L Berger. 2002. Statistical Inference. Duxbury - Thompson Learning.
David, HA, and JK Ghosh. 1985. “The Effect of an Outlier on l-Estimators of Location in Symmetric Distributions.” Biometrika 72 (1): 216–18. https://www.jstor.org/stable/2336355.
Fisher, Ronald A. 1922. “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character 222 (594-604): 309–68. https://royalsocietypublishing.org/doi/pdf/10.1098/rsta.1922.0009.
Kotz, Samuel, Narayanaswamy Balakrishnan, Campbell B Read, and Brani Vidakovic. 2005. Encyclopedia of Statistical Sciences. John Wiley & Sons.