6.1 Estimação Pontual

Na estimação pontual utiliza-se uma estatística, calculada a partir de um estimador como estimativa (pontual) de um certo parâmetro, conforme Definições 6.1 e 6.2. Em outras palavras, é utilizado um único valor amostral (ponto) para estimar \(\theta\), simbolizado por \(\hat{\theta}\) e lido como teta chapéu. Sob o prisma da Teoria da Decisão, um estimador é chamado regra de decisão (Berger 1985, 9).

Definição 6.1 Um estimador \(\hat{\theta}(\boldsymbol{x}) \equiv \hat{\theta}\) é uma função que tem por objetivo inferir sobre um parâmetro \(\theta(\boldsymbol{X}) \equiv \theta\). \(\\\)

Definição 6.2 Uma estimativa é um particular valor obtido da aplicação dos dados amostrais em um estimador. \(\\\)

Exemplo 6.1 A média amostral \(\bar{x}\) dada pela Eq. (2.14) é um estimador pontual para a média universal \(\mu\) (Eq. (2.13)).

6.1.1 Estimadores não viesados

Definição 6.3 Um estimador é dito não viesado ou não viciado segundo um plano amostral \(\lambda\) se

\[\begin{equation} E_\lambda \left[ \hat{\theta} \right] = \theta. \tag{6.1} \end{equation}\]

Média amostral \(\bar{x}\)

A média amostral do Exemplo (2.14) é um estimador não viesado da média universal \(\mu\) segundo o plano amostral AAS, com ou sem reposição. Isto ocorre pelo fato de a esperança ser linear, portanto a dependência entre as observações não interfere no resultado. \(\\\)

Exemplo 6.2 Sejam as variáveis aleatórias \(X_1, X_2, \ldots, X_n\) independentes identicamente distribuídas (iid) com \(E(X_i)=\mu\) e um plano amostral do tipo AAS, onde por simplicidade será considerada a equivalência \(E_{AAS} \equiv E\).

\[\begin{eqnarray} E\left[\bar{X}\right] &=& E\left[\frac{1}{n} \sum_{i=1}^{n} X_i \right] \\ &=& \frac{1}{n} E\left[\sum_{i=1}^{n} X_i \right] \\ &=& \frac{1}{n} \sum_{i=1}^{n} E\left[X_i \right] \\ &=& \frac{1}{n} \sum_{i=1}^{n} \mu \\ &=& \frac{1}{n} n\mu \\ E\left[\bar{X}\right] &=& \mu. \tag{6.2} \end{eqnarray}\]

Exemplo 6.3 A média universal da variável idade do Exemplo 4.4 é dada por \[\mu = \frac{24+32+49}{3} = \frac{105}{3} = 35.\] Do Exemplo 4.19 pode-se verificar que a média (esperança) das médias amostrais considerando o plano AASc é igual a \(\mu\), i.e., \[E\left[h(\boldsymbol{X})\right] = E\left[\bar{X}\right] = \frac{24.0+28.0+36.5+28.0+32.0+40.5+36.5+40.5+49.0}{9}=\frac{315}{9}=35.\]

X <- c(24,32,49)
mean(X)
## [1] 35

Do Exemplo 4.22 tem-se o vetor mxc <- c(24.0,28.0,36.5,28.0,32.0,40.5,36.5,40.5,49.0).

mean(mxc)
## [1] 35

Exercício 6.1 Verifique no plano amostral AASs do Exemplo 4.20 que \(E\left[\bar{X}\right] = \mu\). \(\\\)

Proporção amostral \(p\)

A proporção amostral é um estimador não viesado da proporção universal \(\pi\) (Eq. (4.1)) segundo o plano amostral AAS, com ou sem reposição. Pode-se definir este estimador por \[\begin{align*} p = \frac{\sum_{i=1}^n x_i}{n} \tag{6.3} \end{align*}\]

Exemplo 6.4 (Estimativa pontual da proporção) Suponha que deseja-se calcular a estimativa pontual para a ‘proporção de fumantes da PUCRS’, denotada por \(\pi\). A característica de interesse, ou sucesso, é o entrevistado ser ‘fumante’, para o qual associa-se \(x=1\); desta forma, o fracasso é o entrevistado ser ‘não fumante’, para o qual associa-se \(x=0\). Em uma amostra de \(n = 125\) frequentadores da universidade, observaram-se \(\sum_{i=1}^n x_i = 25\) fumantes. A estimativa pontual de \(\pi\) é dada por \[ \hat{\pi} = \dfrac{25}{125} = 0.2 = 20\%. \]

Variância amostral \(s^2\)

A variância amostral é um estimador não viesado da variância universal \(\sigma^2\) segundo o plano amostral AAS com reposição. \(\\\)

Exemplo 6.5 Sejam as variáveis aleatórias \(X_1, X_2, \ldots, X_n\) independentes identicamente distribuídas (iid) com \(E(X_i)=\mu\), \(Var(X_i)=\sigma^2\), \(E(X_{i}^2)=\sigma^2+\mu^2\), \(E(\bar{X}^2)=\frac{\sigma^2}{n}+\mu^2\) e um plano amostral do tipo AASc, onde por simplicidade será considerada a equivalência \(E_{AASc} \equiv E\). Veja esta discussão para detalhes de \(E(\bar{X}^2)\).

\[\begin{eqnarray} E\left[S^2\right] &=& E\left[\frac{1}{n-1} \sum_{i=1}^{n} (X_{i}-\bar{X})^2 \right] \\ &=& \frac{1}{n-1} E\left[\sum_{i=1}^{n} X_{i}^2 - 2 \bar{X} \sum_{i=1}^{n} X_{i} + n \bar{X}^2 \right] \\ &=& \frac{1}{n-1} \left[\sum_{i=1}^{n} E\left[X_{i}^2\right] - E\left[n \bar{X}^2\right] \right] \\ &=& \frac{1}{n-1} \left[\sum_{i=1}^{n} E\left[X_{i}^2\right] - n E\left[\bar{X}^2\right] \right] \\ &=& \frac{1}{n-1} \left[n \sigma^2 + n \mu^2 - \sigma^2 - n \mu^2\right] \\ &=& \frac{(n-1)\sigma^2}{n-1} \\ E\left[S^2\right] &=& \sigma^2 \tag{6.4} \end{eqnarray}\]

Exercício 6.2 Verifique no plano amostral AASc do Exemplo 4.19 se \(E_{AASc}\left[S^2\right] = \sigma^2\).

Exercício 6.3 Verifique no plano amostral AASs do Exemplo 4.20 se \(E_{AASs}\left[S^2\right] = \sigma^2\).

Mediana

(David and Ghosh 1985) mostram que a mediana conforme Eq. (2.25) é o estimador mais resistente a viés na classe de estatísticas-L com coeficientes não negativos que somam um, para uma classe de distribuições que inclui a normal, a exponencial dupla e a logística.

6.1.2 Estimadores de máxima verossimilhança

The optimum value of any parameter (or set of parameters) is that value (or set of values) of which the likelihood is greatest. (Ronald A. Fisher 1922, 310)

Um estimador de máxima verossimilhança é aquele que propõe a estimação de \(\theta\) por \(\hat{\theta}\), valor que maximiza a função de verossimilhança conforme Definição 5.3. Segundo (Barnett 1999), o método da máxima verossimilhança foi utilizado pela primeira vez por Johann Heinrich Lambert e Daniel Bernoulli em meados de 1760, mas detalhado por (Ronald A. Fisher 1922)

Exemplo 6.6 Adaptado de (Casella and Berger 2002, 317–18). Seja \(X_1, \ldots, X_n\) uma sequência (condicionalmente) iid \(\mathcal{Ber}(\theta) \equiv \mathcal{B}(1,\theta)\). A função de verossimilhança é \[\begin{eqnarray} L(\theta|x) &=& \Pi_{i=1}^n {1 \choose x_i} \theta^{x_i} (1-\theta)^{1-x_i} \\ &=& \theta^{s} (1-\theta)^{n - s}, \end{eqnarray}\] onde \(s=\sum_{i=1}^{n} x_i\). Se tomarmos o logaritmo na base natural de \(L(\theta|x)\), temos pelas propriedades dos logaritmos que \[\begin{eqnarray} l(\theta|x) &=& \log(\theta^{s} (1-\theta)^{n - s}) \\ &=& s \log(\theta) + (n-s)\log(1-\theta). \end{eqnarray}\] Utilizando princípios do Cálculo é possível derivar \(l(\theta|x)\) em relação a \(\theta\) e igualar a zero, de onde se obtém a estimativa de máxima verossimilhança \[\begin{eqnarray} \frac{s}{\hat{\theta}} - \frac{n-s}{1-\hat{\theta}} = 0 \;\; \therefore \;\; \hat{\theta} = \frac{s}{n} \end{eqnarray}\]

Exercício 6.4 Considere as informações do Exemplo 6.6.
a. Mostre, a partir da definição, que \(L(\theta | x) = \theta^{s} (1-\theta)^{n-s}\), \(s=\sum_{i=1}^{n} x_i\).
b. Mostre, aplicando os princípios de Cálculo, que \(\hat{\theta} = \frac{1}{n} \sum_{i=1}^{n} x_i\).

\(\\\)

6.1.3 Estimadores consistentes

A statistic satisfies the criterion of consistency, if, when it is calculated from the whole population, it is equal to the required parameter. (Ronald A. Fisher 1922, 309)

(Samuel Kotz et al. 2005, 1285) indicam que um estimador consistente é aquele que converge para o valor do parâmetro estimado à medida que o tamanho da amostra aumenta. O estimador é fracamente consistente quando converge em probabilidade (Eq. (3.119)), e a fortemente consistente quando converge quase certamente (Eq. (3.120)).

(Barnett 1999, 139) aponta que, pela desigualdade de Chebychev (Eq. (3.122)), “uma condição suficiente para a consistência fraca dos estimadores não viesados \(\tilde{\theta}_n\) é que \(Var(\tilde{\theta}_n) \rightarrow 0\) quando \(n \rightarrow 0\)”, o que facilita a aplicação.

Exemplo 6.7 (Adaptado de (Barnett 1999, 139)) Suponha \(x_1,x_2,\ldots,x_n\) uma amostra aleatória de observações de uma distribuição com média \(\mu\) e variância \(\sigma^2\). Pelo Exemplo 6.2 sabe-se que \(\bar{X}\) é um estimador não viesado para \(\mu\) pois \(E(\bar{X})=\mu\). Pode-se mostrar que \(V(\bar{X})=\sigma^2/n\), sendo portanto \(\bar{X}\) fracamente consistente.

Pela definição da variância conforme Eq. (3.46), temos \(V[\bar{X}]=E[\bar{X}^2] - (E[\bar{X}])^2\). Assim precisamos apenas encontrar \(E[\bar{X}^2]\). \[\begin{eqnarray} E\left[\bar{X}^2\right] &=& E\left[ \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)^2 \right] \\ &=& \frac{1}{n^2} E\left[ \left( X_1 + X_2 + \cdots + X_n \right)^2 \right] \\ &=& \frac{1}{n^2} E\left[ X_1^2 + \cdots + X_n^2 + 2(X_1 X_2 + \cdots + X_{n-1} X_n) \right] \\ &=& \frac{1}{n^2} \left[ n(\sigma^2 + \mu^2) + 2 \binom{n}{2} \mu^2 \right] \\ &=& \frac{1}{n^2} \left[ n \sigma^2 + n \mu^2 + n(n-1) \mu^2 \right] \\ &=& \frac{1}{n^2} \left[ \frac{n^2 \sigma^2}{n} + n \mu^2 + n^2 - n \mu^2 \right] \\ E\left[\bar{X}^2\right] &=& \frac{\sigma^2}{n} + \mu^2. \tag{6.5} \end{eqnarray}\]

Desta forma

\[\begin{eqnarray} V\left[\bar{X}\right] &=& E[\bar{X}^2] - (E[\bar{X}])^2 \\ &=& \frac{\sigma^2}{n} + \mu^2 - \mu^2 \\ V\left[\bar{X}\right] &=& \frac{\sigma^2}{n}. \tag{6.6} \end{eqnarray}\]

6.1.4 Estimadores eficientes

The efficiency of a statistic is the ratio (usually expressed as a percentage) which its intrinsic accuracy bears to that of the most efficient statistic possible. It expresses the proportion of the total available relevant information of which that statistic makes use. (Ronald A. Fisher 1922, 309–10)

Um estimador eficiente é aquele que possui a menor variância possível. A eficiência de um estimador não viesado \(T\) para um parâmetro \(\theta\) é definida por \[\begin{equation} e(T) = \frac{1/I(\theta)}{var(T)} \tag{6.7} \end{equation}\] onde \(I(\theta)\) é a informação de Fisher conforme Eq. (5.4).

6.1.5 Suficiência

A statistic satisfies the criterion of sufficiency when no other statistic which can be calculated from the same sample provides any additional information as to the value, of the parameter to be estimated. (Ronald A. Fisher 1922, 310)

Uma estatística suficiente \(T(X)\) carrega toda a informação disponível na amostra para estimar certo parâmetro populacional.

Exemplo 6.8 (Estatística suficiente) A soma dos valores de uma amostra, \(\sum_{i=1}^n x_i\) é uma estatística suficiente para o estimador \(\hat{\mu}\).

Referências

Barnett, Vic. 1999. Comparative Statistical Inference. John Wiley & Sons. https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316955.
Berger, James O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd ed. Springer Science & Business Media. https://www.springer.com/gp/book/9780387960982.
Casella, George, and Roger L Berger. 2002. Statistical Inference. Duxbury - Thompson Learning.
David, HA, and JK Ghosh. 1985. “The Effect of an Outlier on l-Estimators of Location in Symmetric Distributions.” Biometrika 72 (1): 216–18. https://www.jstor.org/stable/2336355.
Fisher, Ronald A. 1922. “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character 222 (594-604): 309–68. https://royalsocietypublishing.org/doi/pdf/10.1098/rsta.1922.0009.
Kotz, Samuel, Narayanaswamy Balakrishnan, Campbell B Read, and Brani Vidakovic. 2005. Encyclopedia of Statistical Sciences. John Wiley & Sons.