Основные распределения
Биномиальное распределение
Дискретная случайная величина X имеет дискретное биномиальное распределение, если ее плотность вероятности имеет вид
$$f(k|p,n) \equiv \mathrm{Pr}(X=k) = \binom{n}{k} p^k(1-p)^{n-k}$$
где $\binom{n}{k} = \frac{n!}{(n-k)!k!}$ – биномиальный коэффициент.
Биномиальное распределение – это распределение числа успехов $k$ в серии из независимых $n$ опытов, при условии, что вероятность успеха в каждом опыте есть $p$.
Математическое ожидание и дисперсия, соответственно, равны
$$\mathrm{E}(X)=np$$ $$\mathrm{V}(X)=np(1−p)$$
При больших $n$ биномиальное распределение хорошо приближается нормальным.
Для вычисления биномиального распределения в Excel используется стандартная функция
BINOMDIST
(БИНОМРАСП
):
BINOMDIST(number_s=k, trials=n, probability_s=p,cumulative=TRUE|FALSE)
Если cumulative=TRUE
, то возвращается кумулятивная функция распределения, а если
cumulative=FALSE
, то возвращается плотность вероятности.
Равномерное распределение
Случайная величина $X$ распределена равномерно на отрезке $[a, b]$, если ее функция распределения $U(x|a,b)$ и, соответственно, плотность вероятности $u(x|a,b)$ имеют вид
$$U(x|a,b) = \begin{cases} 0, x≤a, \\ \frac{x-a}{b-a}, a < x ≤ b \\ 1, x > b\end{cases}$$ $$u(x|a,b) = \begin{cases} 0, x≤a, \\ \frac{1}{b-a}, a < x ≤ b \\ 0, x > b\end{cases}$$
Математическое ожидание и дисперсия, соответственно, равны
$$\mathrm{E}(X)=0.5(a+b)$$ $$\mathrm{V}(X)=(b−a)^2/12$$
То, что случайная величина $X$ распределена равномерно на отрезке $[a, b]$, будем обозначать:
$$X \sim U(a, b)$$
Нормальное распределение
Нормальное (или гауссово) распределение – это, наверное, самое важное распределение в статистике. Плотность этого распределения имеет вид
$$f(x|\mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} \exp{ \bigg( -\frac{(x-\mu)^2}{\sigma^2} \bigg) }$$
Нормальное распределение зависит от двух параметров: $\mu$ и $σ^2$ и оно обычно обозначается $N(\mu, \sigma^2)$ т.е.
$$X \sim N(\mu, \sigma^2)$$
Математическое ожидание и дисперсия нормального распределения равны, соответственно:
$$\mathrm{E}(X)=\mu, \mathrm{V}(X)=\sigma^2$$
Нормальное распределение называется стандартным, если $\mu=0$, $\sigma^2=1$.
Если $X_0 \sim N(0, 1)$, то $X = \mu + \sigma X_0 \sim N(\mu, \sigma^2)$.
Кумулятивная функция стандартного нормального распределения:
$$ \Phi(x) = \int_{-\infty}^{x} f(t)dt$$
является специальной функцией, т.к. она не выражается через элементарные функции.
Квантили стандартного нормального распределения обозначаются $\Phi^{–1}(P)$.
Стандартное нормальное распределение симметрично, поэтому для него верны следующие соотношения:
$$Φ(–x)=1 – Φ(x)$$ $$Φ^{–1}(1–P) = –Φ^{–1}(P)$$
Для вычисления нормального распределения в Excel используется стандартные функции:
NORMDIST
(НОРМРАСП
) и NORMSDIST
(НОРМСТРАСП
), а также NORMINV
(НОРМОБР
)
и NORMSINV
(НОРМСТОБР
).
Синтаксис:
NORMDIST(x, mean=mu, standard_dev=sigma, cumulative=TRUE|FALSE)
Если cumulative=TRUE
то возвращается кумулятивная функция распределения
$Φ(x|\mu, \sigma^2)$, а если cumulative=FALSE
, то возвращается плотность
вероятности, $f(x|\mu, \sigma^2)$.
NORMSDIST(x)
Возвращается кумулятивная функция стандартного нормального распределения в точке $x$.
NORMINV(probability=P, mean=mu, standard_dev=sigma)
Возвращается квантиль $Φ^{–1}(P|\mu, \sigma^2)$ нормального распределения для вероятности $P$.
NORMSINV(probability=P)
Возвращается квантиль $Φ^{–1}(P|0, 1)$ стандартного нормального распределения для вероятности $P$.
Распределение хи-квадрат
Рассмотрим $N$ независимых стандартных нормальных случайных величин $X_1,\dots,X_N$ с нулевым мат. ожиданием и единичной дисперсией, т.е.
$$X_n \sim N(0, 1)$$
Величина
$$\chi^2(N) = X_1^2 + X_2^2 + \dots + X_N^2$$
является случайной, распределение которой носит название хи-квадрат. Это распределение зависит от одного параметра – $N$, который называется числом степеней свободы. Плотность вероятности распределения хи-квадрат имеет вид
$$f(x|N)= \frac{(1/2)^\frac{N}{2}}{\Gamma \big( \frac{N}{2} \big) } x^{\frac{N}{2}-1} e^{-\frac{x}{2}}$$
Распределение хи-квадрат широко используется в статистике, например, при проверке гипотез.
Математическое ожидание и дисперсия распределения χ2(N) равны, соответственно,
$$\mathrm{E}(\chi^2(N))=N$$ $$\mathrm{V}(\chi^2(N))=2N$$
При больших $N$ распределение хи-квадрат хорошо приближается нормальным с этими же параметрами.
Квантили распределения $\chi^2(N)$ обозначаются $\chi^{–2}(P|N)$.
Для вычисления распределения хи-квадрат в Excel используется две стандартные
функции: CHIDIST
(ХИ2РАСП
) и CHIINV
(ХИ2ОБР
).
CHIDIST(x, degrees_freedom=N)
Возвращается значение $1 – \chi^2(x|N)$, где $\chi^2(x|N)$ – кумулятивная функция распределения хи-квадрат.
CHIINV(probability=1–P ,degrees_freedom=N)
Возвращается квантиль $\chi^{–2}(1 – P|N)$ распределения хи-квадрат для вероятности $1 – P$.
Распределение Стьюдента
Рассмотрим две случайные величины: $X$ – распределенную стандартно-нормально $X \sim N(0, 1)$, и $Y$ – распределенную по хи-квадрат с $N$ степенями свободы $Y \sim \chi^2(N)$.
Случайная величина
$$ T(N) = \sqrt{N} \frac{X}{\sqrt{Y}} $$
подчиняется распределению, которое носит имя Стьюдента. Это распределение зависит от одного параметра $N$, который также называется числом степеней свободы. Распределение Стьюдента применяется в проверке гипотез и для построения доверительных интервалов.
Математическое ожидание $T(N)$ равно нулю, а дисперсия равна
$$\mathrm{V}(T(N)) = N/(N–2), N>2$$
Распределение Стьюдента симметрично, и при $N>20$ неотличимо от нормального.
Формула для плотности вероятности Стьюдента приведена во многих пособиях. Квантили распределения $T(N)$ обозначаются $T^{–1}(P|N)$.
Для вычисления распределения Стьюдента в Excel используется две стандартные функции:
TDIST
(СТЬЮДРАСП
) и TINV
(СТЬЮДРАСПОБР
).
TDIST(x, degrees_freedom=N, tails=1|2)
Если tails=1
, то функция TDIST
возвращает значение $\mathrm{Pr}\{T(N) > x\}$,
а при tails=2
значение $\mathrm{Pr}\{|T(N)| > x\}$. Значения при $x<0$ не возвращаются.
Поэтому, для того, чтобы вычислить в Excel обычную кумулятивную функцию распределения
Стьюдента $T(x|N)$, приходится использовать следующую формулу
IF(x>0, 1-TDIST(x,N,1), -TDIST(-x,N,1))
Функция:
TINV(P, degrees_freedom=N)
возвращает значение $x$, для которого $\mathrm{Pr}\{|T(N)| > x\} = P$. И в этом случае для вычисления в Excel квантиля распределения Стьюдента $T^{–1}(P|N)$, нужно использовать следующую формулу
IF(P<0.5, TINV(2*P,N), -TINV(2-2*P,N)).
Распределение Фишера
Пусть имеются две независимые случайные величины $X_1$ и $X_2$, каждая из которых подчиняется распределению хи-квадрат с $N_1$ и $N_2$ степенями свободы, т.е.
$$X_1 \sim \chi^2(N_1)$$ $$X_2 \sim \chi^2(N_2)$$
Случайная величина:
$$F(N_1, N_2) = \frac{N_2 X_1}{N_1 X_2}$$
подчиняется распределению, которое носит имя Фишера. Это распределение зависит от двух параметров $N_1$ и $N_2$, которые также называются числами степеней свободы. Математическое ожидание и дисперсия распределения $F(N_1, N_2)$ равны, соответственно:
$$\mathrm{E}(F(N_1, N_2)) = N_2/(N_2 – 2), N_2>2$$ $$\mathrm{V}(F(N_1, N_2)) = \frac{2 N_2^2(N_1 + N_2 - 2)}{N_1 (N_2-2)^2 (N_2 - 4)}, N_2>4$$
Формула для плотности вероятности распределения Фишера приведена во многих пособиях.
Если $X \sim F(N_1, N_2)$, то $1/X \sim F(N_2, N_1)$.
Квантили распределения $F(N_1, N_2)$ обозначаются $F^{–1}(P|N_1, N_2)$.
Для вычисления распределения Фишера в Excel используются две стандартные функции:
FDIST
(FРАСП
) и FINV
(FРАСПОБР
).
FDIST(x, degrees_freedom1=N1, degrees_freedom2=N2)
Возвращается значение $1 – F(x|N1, N2)$, где $F(x|N1, N2)$ – кумулятивная функция распределения Фишера.
FINV(probability=1–P, degrees_freedom1=N1, degrees_freedom2=N2)
Возвращается квантиль $F^{–1}(1 – P|N1, N2)$ для вероятности $1 – P$.
Многомерное нормальное распределение
Это распределение является естественным обобщением одномерного нормального распределения на случай многомерной случайной величины, т.е. случайного вектора $\mathbf{x}$, размерностью $n$.
Функция плотности вероятности имеет следующий вид
$$ f(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{\mathrm{det}(\mathbf{\Sigma})(2\pi)^n} \exp{\bigg( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^\mathrm{t} \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \bigg)} $$
где $\mathbf{\Sigma}$ – симметричная положительно определенная ($n \times n$) матрица.
Многомерное нормальное распределение зависит от двух групп параметров:
$$\mathbf{x} \sim N(\mathbf{\mu}, \mathbf{\Sigma})$$
Математическое ожидание $\mathbf{x}$ равно $\mathbf{\mu}$, а ковариационная матрица равна матрице $\mathbf{\Sigma}$.
Генерация случайных чисел
Иногда бывает полезно создать искусственную выборку случайных чисел, подчиняющихся заданному распределению. Это можно сделать, используя следующее простое утверждение.
Пусть $F(x)$ и $F^{–1}(P)$ суть некоторая функция распределения и ее квантиль, соответственно. Если случайная величина $X$ распределена равномерно на отрезке $[0, 1]$, т.е
$$X \sim U(0,1)$$
тогда случайная величина
$$Y = F^{–1}(X)$$
имеет функцию распределения $F$.
Таким образом, если получить набор случайных величин, распределенных равномерно, то эти случайные величины можно превратить в новые, имеющие другое, заданное распределение.
Для генерации случайных чисел в Excel имеется стандартная функция: RAND
(СЛЧИС
).
RAND()
Возвращает случайное число, равномерно распределенное на отрезке $[0,1]$. Новое случайное число возвращается при каждом вычислении рабочего листа.
На листе Random рабочей книги Statistics.xls приведен пример генерации случайных чисел для разных распределений.