Свойства оценок
Состоятельность
Любая оценка $p(\mathbf{x})$ параметра $p$ есть статистика, т.е. случайная величина. И как всякая случайная величина она обладает собственной функцией распределения, математическим ожиданием, дисперсией и т.д. Все эти характеристики позволяют сравнивать разные оценки, судить об их свойствах и качествах. Ниже следует краткий обзор основных свойств оценок.
Оценка $p(\mathbf{x})$ называется состоятельной, если она сходится по вероятности к значению оцениваемого параметра $p$ при безграничном возрастании объема выборки $I$. Точнее, статистика $p(\mathbf{x})$ является состоятельной оценкой параметра $p$ тогда и только тогда, когда для любого положительного числа $ε$ справедливо
$$\lim_{I \to \infty} \mathrm{Pr} \big(|p(\mathbf{x}) - p| > \epsilon \big) = 0$$
Большинство оценок, используемых в практических приложениях, являются состоятельными.
Смещенность
Оценка $p(\mathbf{x})$ называется несмещенной, если:
$$\mathrm{E}[p(\mathbf{x})]=p$$
Смещенные оценки часто встречаются в приложениях. Например, МП-оценка дисперсии нормального распределения является смещенной:
$$\mathrm{E}(\sigma_{ML}^2(\mathbf{x}) = (1 - 1/I)\sigma^2$$
Для несмещенных оценок мерилом их точности является дисперсия $\mathrm{V}[p(\mathbf{x})]$ – чем она меньше, тем лучше. Для смещенных оценок нужно использовать математическое ожидание квадрата смещения.
$$d(\mathbf{x})= \mathrm{E}[(p(\mathbf{x}) – p)^2]$$
Имеет место формула:
$$d(\mathbf{x})= \mathrm{V}[p(\mathbf{x})] + \{\mathrm{E}[(p(\mathbf{x})] – p)\}^2$$
Эффективность
Несмещенная оценка называется эффективной, если она имеет наименьшую возможную дисперсию. Оценки нормального распределения являются эффективными, но вот выборочная оценка медианы (см. раздел 3.7) таковой не является – она менее эффективно оценивает $\mu$, чем выборочное среднее.
Смещенные оценки могут оказаться более точными, чем несмещенные. Это означает, что часто можно построить такие смещенные оценки, для которых квадрат ошибки меньше, чем наименьшая эффективная дисперсия. На этом принципе основаны такие методы оценивания как PCR, PLS и др.
Робастность
Робастность оценки – это важная характеристика, которая, однако, плохо поддается формализации.
Оценка $p(\mathbf{x})$ называется робастной, если она устойчива к наличию выбросов в выборке.
Как правило, эффективные оценки являются менее робастными, чем неэффективные. Выбирая более устойчивую оценку, мы расплачиваемся за это эффективностью.
Для нормального распределения робастной оценкой среднего значения является медиана, а для СКО можно использовать MAD-оценку
$$s_{MAD} = 1.4826 \mathrm{median} \big( |\mathbf{x} - \mathrm{median}(\mathbf{x})\big)$$
На листе Robust
приведено сравнение классических и робастных оценок для выборки из
стандартного нормального распределения $N(0,1)$, в которой первый элемент заменен на
выброс – случайную величину из распределения $N(0,100)$.
Нормальная выборка
Если выборка $\mathbf{x}=(x_1,\dots,x_I)$ извлечена из нормального распределения
$$x_i \sim N(\mu, \sigma^2)$$
и оценки $\bar{x}$, $s^2$, определены формулами, то выполняются следующие утверждения.
$$\sqrt{I}\frac{\bar{x}-\mu}{\sigma} \sim N(0, 1)$$ т.е. имеет стандартное нормальное распределение;
$$I \frac{s_m^2}{\sigma^2} \sim \chi^2(I)$$ т.е.имеет распределение хи-квадрат с $I$ степенями свободы;
$$I \frac{s^2}{\sigma^2} \sim \chi^2(I-1)$$ т.е.имеет распределение хи-квадрат с $I-1$ степенями свободы;
$$\sqrt{I-1}\frac{\bar{x}-\mu}{\sigma} \sim T(I-1)$$ т.е. имеет распределение Стьюдента с $I-1$ степенью свободы.