Оценка параметров
Выборка
Предположим, что имеется набор чисел $\mathbf{x}=(x_1,\dots,x_I)$, и каждое $x_i$ является одной реализацией случайной величины, подчиняющейся, вообще говоря, неизвестному распределению. Этот набор называется выборкой, а число $I$ – объемом выборки.
В случае одномерного распределения выборка – это вектор $\mathbf{x}$, а в многомерном случае выборка – это матрица $\mathbf{X}$ размерностью $I×J$, каждая строка которой представляет одну реализацию (наблюдение) многомерной случайной величины размерностью $J$.
Обычно предполагается, что все элементы выборки статистически независимы. В практических приложениях слово «выборка» часто заменяется словом «данные».
Выбросы и маргиналы
Среди элементов выборки могут присутствовать такие, которые существенно отличаются от других элементов.
Пусть, например, имеется выборка из стандартного нормального распределения $N(0,1)$, в которой присутствует элемент со значением $x_{out}=3.2$. Для такого распределения вероятность единичного события $x_{out} ≥ 3.2$ мала – она равна $\alpha=0.0007$. Однако значение $x_{out}$ присутствует в независимой выборке размера $I$, поэтому нужно рассчитывать вероятность события «хотя бы один раз среди $I$ попыток»
$$P_{out} = 1 - (1 - \alpha)^I ≈ 1 - \exp{(-I\alpha)}$$
Для $I=10$ $P_{out}=0.007$, для $I=100$ $P_{out}=0.07$, а для $I=1000$ $P_{out}=0.50$. Естественно – чем больше выборка, тем выше вероятность того, что встретится такое экстремальное значение.
Таким образом, интерпретация выпадающих из выборки значений существенно зависит от объема выборки – для малых $I$ их нужно рассматривать как выбросы (промахи при измерениях) и, соответственно, удалять из выборки. Для больших $I$ такие выпадающие значения являются приемлемыми маргиналами и они должны сохраняться в выборке.
Генеральная совокупность
Операцию создания выборки в статистике называют извлечением. Тем самым подчеркивают, что имеющаяся у нас выборка $\mathbf{x}_1$ не единственная, и что можно получить (часто только теоретически) и другие похожие выборки $\mathbf{x}_2 , \mathbf{x}_3, \dots , \mathbf{x}_n$. Слово похожие означает, что все эти выборки устроены аналогичным способом – подчиняются одному и тому же распределению, имеют одинаковый объем $I$, и т.п. Все бесконечное множество таких выборок образуют генеральную совокупность (называемую также популяцией).
Статистика
В математике слово «статистика» имеет два значения.
Во-первых, так называется раздел математики, в котором по выборке (результатам экспериментов) определяется вид распределения, из которого была извлечена эта выборка, оцениваются параметры этого распределения, проверяются гипотезы о виде этого распределения.
Второе значение слова «статистика» – это (измеримая) функция выборки. Поскольку элементы выборки суть случайные величины, то и статистика является случайной величиной. Назначение статистик – оценка параметров распределения, из которого извлечена выборка.
Примеры таких оценок приведены ниже.
Выборочное среднее и дисперсия
Выборочным средним называется статистика
$$\bar{x} = \frac{1}{I} \sum_{i=1}^I x_i$$
Для вычисления выборочной дисперсии используются две статистики:
— смещенная оценка:
$$s_m^2 = \frac{1}{I} \sum_{i=1}^I (x_i - \bar{x})^2 $$
— несмещенная оценка:
$$s^2 = \frac{1}{I-1} \sum_{i=1}^I (x_i - \bar{x})^2 $$
Смещенную оценку следует использовать если среднее значение известно заранее и не требует оценки. Аналогичным образом определяются выборочные моменты, например,
$$\overline{m_k} = \frac{1}{I-1} \sum_{i=1}^I (x_i - \bar{x})^k $$
является оценкой $k$-ого центрального момента.
Для вычисления выборочных статистик в Excel используют следующие стандартные
функции: AVERAGE
(СРЗНАЧ
), VAR
(ДИСП
), VARP
(ДИСПР
), STDEV
(СТАНДОТКЛОН
),
STDEVP
(СТАНДОТКЛОНП
).
AVERAGE(x)
Возвращает среднее значение выборки $x$, $\bar{x}$.
VAR(x)
Возвращает выборочную дисперсию выборки (несмещенную) $x$, $s^2$.
VARP(x)
Возвращает выборочную дисперсию выборки (смещенную) $x$, $s_m^2$.
STDEV(x)
Возвращает среднеквадратичное отклонение т.е. корень квадратный из выборочной дисперсии выборки $x$ (несмещенной).
STDEVP(x)
Возвращает среднеквадратичное отклонение т.е. корень квадратный из выборочной дисперсии выборки $x$ (смещенной).
Выборочные ковариации и корреляции
Если имеются две выборки $\mathbf{x}=(x_1,\dots,x_I)$ и $\mathbf{y}=(y_1,\dots,y_I)$, то можно рассчитать выборочные значения ковариации и корреляции. Ковариация $c$ рассчитывается по формуле
$$c = \frac{1}{I} \sum_{i=1}^I (x_i - \bar{x})(y_i - \bar{y})$$
а коэффициент корреляции $r$ по формуле
$$r = \sqrt{\frac{c}{s^2_x s^2_y}}$$
В более общем случае, когда имеется матрица данных $\mathbf{X}$, размерностью $I$ наблюдений на $J$ переменных, то выборочная матрица ковариаций $\mathbf{C}_I$ между наблюдениями рассчитывается так:
$$\mathbf{C}_I=\mathbf{XX}^\mathrm{t}$$
Выборочная матрица ковариаций $\mathbf{C}_J$ между переменными так:
$$\mathbf{C}_J=\mathbf{X}^\mathrm{t}\mathbf{X}$$
Для вычисления парных ковариаций в Excel используют следующие стандартные функции:
COVAR
(КОВАР
), CORREL
(КОРРЕЛ
).
COVAR(x, y)
Возвращает выборочную ковариацию между выборками $x$ и $y$.
CORREL(x, y)
Возвращает выборочный коэффициент корреляции между выборками $x$ и $y$.
Вариационный ряд и порядковые статистики
Исходную выборку $(x_1,\dots,x_I)$ можно упорядочить в порядке неубывания:
$$x(1) ≤ x(2) ≤ \dots ≤ x(i) ≤ \dots ≤ x(I)$$
и получить т.н. вариационный ряд.
Элементы этого ряда являются порядковыми статистиками. Центральный элемент ряда (а если $I$ – четное, то полусумма двух центральных) является выборочной оценкой медианы
$$ \mathrm{median}(\mathbf{x}) = \begin{cases} x(k+1), I = 2k+1 \\ 0.5(x(k) + x(k + 1)), I = 2k\end{cases} $$
Аналогичным способом строятся оценки квартилей и процентилей.
Размахом выборки называется величина
$x(I) – x(1)$
Интерквартильным размахом выборки $\mathbf{x}$ называется величина
$$IQR(\mathbf{x}) = \hat{x}(0.75) - \hat{x}(0.25)$$
являющаяся разностью выборочных квартилей для $P=0.75$ и $P=0.25$.
Для вычисления порядковых статистик в Excel используют следующие стандартные
функции: MEDIAN
(МЕДИАНА
), QUARTILE
(КВАРТИЛЬ
), PERCENTILE
(ПЕРСЕНТИЛЬ
).
MEDIAN(x)
Возвращает выборочную медиану для выборки $x$.
QUARTILE(x, quart=0|1|2|3|4)
Возвращает выборочный квартиль для выборки $x$ в зависимости от значения аргумента quart
:
0 — минимальное значение
1 — первый квартиль (25-ый перцентиль)
2 — значение медианы (50-ый перцентиль)
3 — третий квартиль (75-ый перцентиль)
4 — максимальное значение
PERCENTILE(x, k)
Возвращает $k$-ый выборочный перцентиль для выборки $x$. Значения аргумента: $0≤k≤1$.
Выборочная функция распределения
Выборочная (или эмпирическая) функция распределения – это неубывающая функция $F_I(x)$, которая равна нулю при $x<x(1)$ и равна $1$ при $x≥x(I)$. Между этими двумя точками функция $F_I(x)$ ступенчато возрастает на величину $1/I$ каждый раз при переходе через следующую точку $x(i)$:
$$F_I(x) = \frac{число\{x(i) ≤ x \}}{I}$$
Выборочная функция распределения имеет важное теоретическое значение, т.к. при увеличении объема выборки $I$ эмпирическая функция сходится к истинной функции распределения. Однако в практических приложениях чаще используется гистограмма.
Для построения гистограммы область изменения выборочных значений $[x(1), x(I)]$ разбивается на $R$ частей равного размера. Затем подсчитывается, сколько элементов выборки попало в каждую из этих областей: $I_1+ I_2+ \dots + I_R=I$. После этого частоты $F_r=I_r/I$ откладывают на ступенчатом графике, аналогичном показанному на Рис. 14.
Для построения гистограмм в Excel применяется стандартная функция FREQUENCY
(ЧАСТОТА
).
FREQUENCY (data_array, bins_array)
Возвращает число попаданий значений data_array
в интервалы, заданные аргументом bins_array
.
Эта функция возвращает вертикальный массив, и она должна вводится как формула массива – с помощью
комбинации клавиш CTRL+SHIFT+ENTER
. Количество элементов в возвращаемом массиве на единицу
больше числа элементов в массиве bins_array
. Дополнительный элемент содержит количество
значений из data_array
больших, чем максимальное значение в массиве bins_array
.
Метод моментов
Все рассмотренные выше методы анализа выборок не учитывали конкретный вид распределения, из которого эта выборка была извлечена. Такие способы оценивания называются непараметрическими.
Теперь мы рассмотрим типичный параметрический метод моментов. Пусть выборка $\mathbf{x}=(x_1,\dots,x_I)$ подчиняется функции распределения
$$x_i \sim F(x|\mathbf{p})$$
которая известна с точностью до значений параметров $\mathbf{p}=(p_1,\dots,p_M)$. Для оценки параметров вычислим $M$ выборочных моментов и приравняем их соответствующим теоретическим значениям. Получится система нелинейных уравнений
$$ \begin{cases} m_1(p_1,\dots,p_M) = \overline{m}_1 \\ m_2(p_1,\dots,p_M) = \overline{m}_2 \\ \dots \\ m_M(p_1,\dots,p_M) = \overline{m}_M \end{cases} $$
из которой нужно численно найти значения оценок параметров $\mathbf{p}$.
Для примера рассмотрим случайную величину $X=aY$, где величина $Y$ распределена по хи-квадрат
$$Y \sim \chi^2(N)$$
По выборке $\mathbf{x}=(x_1,\dots,x_I)$ нужно найти оценки двух неизвестных параметров $a$ и $N$.
Из этого раздела следует:
$$\mathrm{E}(X)=a\mathrm{E}(Y)=aN$$ $$\mathrm{V}(X)=a^2\mathrm{V}(Y)=2a^2N$$
Поэтому:
$$\hat{a}_{MM} = \frac{\mathrm{V}(X)}{2\mathrm{E}(X)} = \frac{s^2}{2\overline{m}}$$
$$\hat{N}_{MM} = \frac{\mathrm{E}(X)}{a} = \frac{2\overline{m}^2}{s^2}$$
Метод максимума правдоподобия
Самый популярный способ параметрического оценивания – это метод максимума правдоподобия. Учитывая, что каждый элемент выборки $\mathbf{x}=(x_1,\dots,x_I)$ имеет одну и ту же плотность вероятности $f(x_i|\mathbf{p})$, совместная плотность всей выборки имеет вид:
$$ L(\mathbf{x}|\mathbf{p}) = f(x_1|\mathbf{p}) \times f(x_2|\mathbf{p}) \times \dots \times f(x_I|\mathbf{p}) = \prod_{i=1}^I f(x_i|\mathbf{p}) $$
Функция $L(\mathbf{x}|\mathbf{p}) называется функцией правдоподобия выборки. Она зависит от двух групп переменных – выборочных значений $\mathbf{x}=(x_1,\dots,x_I)$, известных из эксперимента, и параметров $\mathbf{p}=(p_1,\dots,p_M)$, которые предстоит оценить.
В качестве оценок берутся такие значения параметров $\mathbf{p}$, при которых функция правдоподобия (или ее логарифм) имеет максимум
$$\mathbf{\hat{p}} = \arg \max_{\mathbf{p}} \big( \ln(L(\mathbf{x}|\mathbf{p})) \big)$$
Рассмотрим, для примера, оценки параметров нормального распределения $N(\mu, \sigma^2)$. Вспоминая, что для независимых случайных величин многомерную функцию плотности распределения можно представить в виде произведения одномерных функций и зная выражение для функции плотности нормального распределения можно вывести следующее:
$$ L(\mathbf{x}|\mu, \sigma^2) = (\sigma \sqrt{2\pi})^{-I} \exp \big( -\frac{\sum_{i=1}^I (x_i - \mu)^2}{\sigma^2}\big) $$
Максимум этой функции достигается при следующих значениях параметров:
$$\hat{\mu}_{ML} = \frac{1}{I} \sum_{i=1}^I x_i$$
$$\hat{\sigma}^2_{ML} = \frac{1}{I} \sum_{i=1}^I (x_i - \hat{\mu}_{ML})^2$$
Таким образом, для нормального распределения оценки МП совпадают с выборочными оценками приведенными нами ранее.