Основные распределения

Биномиальное распределение

Дискретная случайная величина X имеет дискретное биномиальное распределение, если ее плотность вероятности имеет вид

$$f(k|p,n) \equiv \mathrm{Pr}(X=k) = \binom{n}{k} p^k(1-p)^{n-k}$$

где $\binom{n}{k} = \frac{n!}{(n-k)!k!}$ – биномиальный коэффициент.

Биномиальное распределение – это распределение числа успехов $k$ в серии из независимых $n$ опытов, при условии, что вероятность успеха в каждом опыте есть $p$.

Математическое ожидание и дисперсия, соответственно, равны

$$\mathrm{E}(X)=np$$ $$\mathrm{V}(X)=np(1−p)$$

При больших $n$ биномиальное распределение хорошо приближается нормальным.

Fig02
Рис. 2 плотность вероятности и функция распределения биномиального распределения

Для вычисления биномиального распределения в Excel используется стандартная функция BINOMDIST (БИНОМРАСП):

BINOMDIST(number_s=k, trials=n, probability_s=p,cumulative=TRUE|FALSE)

Если cumulative=TRUE, то возвращается кумулятивная функция распределения, а если cumulative=FALSE, то возвращается плотность вероятности.

Fig03
Рис. 3 Пример вычисления биномиального распределения

Равномерное распределение

Случайная величина $X$ распределена равномерно на отрезке $[a, b]$, если ее функция распределения $U(x|a,b)$ и, соответственно, плотность вероятности $u(x|a,b)$ имеют вид

$$U(x|a,b) = \begin{cases} 0, x≤a, \\ \frac{x-a}{b-a}, a < x ≤ b \\ 1, x > b\end{cases}$$ $$u(x|a,b) = \begin{cases} 0, x≤a, \\ \frac{1}{b-a}, a < x ≤ b \\ 0, x > b\end{cases}$$

Математическое ожидание и дисперсия, соответственно, равны

$$\mathrm{E}(X)=0.5(a+b)$$ $$\mathrm{V}(X)=(b−a)^2/12$$

Fig04
Рис. 4 Плотность вероятности и функция распределения равномерного распределения

То, что случайная величина $X$ распределена равномерно на отрезке $[a, b]$, будем обозначать:

$$X \sim U(a, b)$$

Нормальное распределение

Нормальное (или гауссово) распределение – это, наверное, самое важное распределение в статистике. Плотность этого распределения имеет вид

$$f(x|\mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} \exp{ \bigg( -\frac{(x-\mu)^2}{\sigma^2} \bigg) }$$

Нормальное распределение зависит от двух параметров: $\mu$ и $σ^2$ и оно обычно обозначается $N(\mu, \sigma^2)$ т.е.

$$X \sim N(\mu, \sigma^2)$$

Математическое ожидание и дисперсия нормального распределения равны, соответственно:

$$\mathrm{E}(X)=\mu, \mathrm{V}(X)=\sigma^2$$

Нормальное распределение называется стандартным, если $\mu=0$, $\sigma^2=1$.

Если $X_0 \sim N(0, 1)$, то $X = \mu + \sigma X_0 \sim N(\mu, \sigma^2)$.

Кумулятивная функция стандартного нормального распределения:

$$ \Phi(x) = \int_{-\infty}^{x} f(t)dt$$

является специальной функцией, т.к. она не выражается через элементарные функции.

Квантили стандартного нормального распределения обозначаются $\Phi^{–1}(P)$.

Стандартное нормальное распределение симметрично, поэтому для него верны следующие соотношения:

$$Φ(–x)=1 – Φ(x)$$ $$Φ^{–1}(1–P) = –Φ^{–1}(P)$$

Fig05
Рис. 5 Функция распределения и плотность вероятности нормального распределения

Для вычисления нормального распределения в Excel используется стандартные функции: NORMDIST (НОРМРАСП) и NORMSDIST (НОРМСТРАСП), а также NORMINV (НОРМОБР) и NORMSINV (НОРМСТОБР).

Синтаксис:

NORMDIST(x, mean=mu, standard_dev=sigma, cumulative=TRUE|FALSE)

Если cumulative=TRUE то возвращается кумулятивная функция распределения $Φ(x|\mu, \sigma^2)$, а если cumulative=FALSE, то возвращается плотность вероятности, $f(x|\mu, \sigma^2)$.

NORMSDIST(x)

Возвращается кумулятивная функция стандартного нормального распределения в точке $x$.

NORMINV(probability=P, mean=mu, standard_dev=sigma)

Возвращается квантиль $Φ^{–1}(P|\mu, \sigma^2)$ нормального распределения для вероятности $P$.

NORMSINV(probability=P)

Возвращается квантиль $Φ^{–1}(P|0, 1)$ стандартного нормального распределения для вероятности $P$.

Fig06
Рис.6 Пример вычисления нормального распределения

Распределение хи-квадрат

Рассмотрим $N$ независимых стандартных нормальных случайных величин $X_1,\dots,X_N$ с нулевым мат. ожиданием и единичной дисперсией, т.е.

$$X_n \sim N(0, 1)$$

Величина

$$\chi^2(N) = X_1^2 + X_2^2 + \dots + X_N^2$$

является случайной, распределение которой носит название хи-квадрат. Это распределение зависит от одного параметра – $N$, который называется числом степеней свободы. Плотность вероятности распределения хи-квадрат имеет вид

$$f(x|N)= \frac{(1/2)^\frac{N}{2}}{\Gamma \big( \frac{N}{2} \big) } x^{\frac{N}{2}-1} e^{-\frac{x}{2}}$$

Распределение хи-квадрат широко используется в статистике, например, при проверке гипотез.

Математическое ожидание и дисперсия распределения χ2(N) равны, соответственно,

$$\mathrm{E}(\chi^2(N))=N$$ $$\mathrm{V}(\chi^2(N))=2N$$

При больших $N$ распределение хи-квадрат хорошо приближается нормальным с этими же параметрами.

Квантили распределения $\chi^2(N)$ обозначаются $\chi^{–2}(P|N)$.

Fig07
Рис.7 функция распределения и квантиль распределения хи-квадрат

Для вычисления распределения хи-квадрат в Excel используется две стандартные функции: CHIDIST (ХИ2РАСП) и CHIINV (ХИ2ОБР).

CHIDIST(x, degrees_freedom=N)

Возвращается значение $1 – \chi^2(x|N)$, где $\chi^2(x|N)$ – кумулятивная функция распределения хи-квадрат.

CHIINV(probability=1–P ,degrees_freedom=N)

Возвращается квантиль $\chi^{–2}(1 – P|N)$ распределения хи-квадрат для вероятности $1 – P$.

Fig08
Рис.8 Пример вычисления распределения хи-квадрат

Распределение Стьюдента

Рассмотрим две случайные величины: $X$ – распределенную стандартно-нормально $X \sim N(0, 1)$, и $Y$ – распределенную по хи-квадрат с $N$ степенями свободы $Y \sim \chi^2(N)$.

Случайная величина

$$ T(N) = \sqrt{N} \frac{X}{\sqrt{Y}} $$

подчиняется распределению, которое носит имя Стьюдента. Это распределение зависит от одного параметра $N$, который также называется числом степеней свободы. Распределение Стьюдента применяется в проверке гипотез и для построения доверительных интервалов.

Математическое ожидание $T(N)$ равно нулю, а дисперсия равна

$$\mathrm{V}(T(N)) = N/(N–2), N>2$$

Распределение Стьюдента симметрично, и при $N>20$ неотличимо от нормального.

Формула для плотности вероятности Стьюдента приведена во многих пособиях. Квантили распределения $T(N)$ обозначаются $T^{–1}(P|N)$.

Fig09
Рис.9 Функция распределения и квантиль распределения Стьюдента

Для вычисления распределения Стьюдента в Excel используется две стандартные функции: TDIST (СТЬЮДРАСП) и TINV (СТЬЮДРАСПОБР).

TDIST(x, degrees_freedom=N, tails=1|2)

Если tails=1, то функция TDIST возвращает значение $\mathrm{Pr}\{T(N) > x\}$, а при tails=2 значение $\mathrm{Pr}\{|T(N)| > x\}$. Значения при $x<0$ не возвращаются. Поэтому, для того, чтобы вычислить в Excel обычную кумулятивную функцию распределения Стьюдента $T(x|N)$, приходится использовать следующую формулу

IF(x>0, 1-TDIST(x,N,1), -TDIST(-x,N,1))

Функция:

TINV(P, degrees_freedom=N)

возвращает значение $x$, для которого $\mathrm{Pr}\{|T(N)| > x\} = P$. И в этом случае для вычисления в Excel квантиля распределения Стьюдента $T^{–1}(P|N)$, нужно использовать следующую формулу

 IF(P<0.5, TINV(2*P,N), -TINV(2-2*P,N)).

Fig10
Рис.10 Пример вычисления распределения Стьюдента

Распределение Фишера

Пусть имеются две независимые случайные величины $X_1$ и $X_2$, каждая из которых подчиняется распределению хи-квадрат с $N_1$ и $N_2$ степенями свободы, т.е.

$$X_1 \sim \chi^2(N_1)$$ $$X_2 \sim \chi^2(N_2)$$

Случайная величина:

$$F(N_1, N_2) = \frac{N_2 X_1}{N_1 X_2}$$

подчиняется распределению, которое носит имя Фишера. Это распределение зависит от двух параметров $N_1$ и $N_2$, которые также называются числами степеней свободы. Математическое ожидание и дисперсия распределения $F(N_1, N_2)$ равны, соответственно:

$$\mathrm{E}(F(N_1, N_2)) = N_2/(N_2 – 2), N_2>2$$ $$\mathrm{V}(F(N_1, N_2)) = \frac{2 N_2^2(N_1 + N_2 - 2)}{N_1 (N_2-2)^2 (N_2 - 4)}, N_2>4$$

Формула для плотности вероятности распределения Фишера приведена во многих пособиях.

Если $X \sim F(N_1, N_2)$, то $1/X \sim F(N_2, N_1)$.

Квантили распределения $F(N_1, N_2)$ обозначаются $F^{–1}(P|N_1, N_2)$.

Fig11
Рис.11 Функция распределения и квантиль распределения Фишера

Для вычисления распределения Фишера в Excel используются две стандартные функции: FDIST (FРАСП) и FINV (FРАСПОБР).

FDIST(x, degrees_freedom1=N1, degrees_freedom2=N2)

Возвращается значение $1 – F(x|N1, N2)$, где $F(x|N1, N2)$ – кумулятивная функция распределения Фишера.

FINV(probability=1–P, degrees_freedom1=N1, degrees_freedom2=N2)

Возвращается квантиль $F^{–1}(1 – P|N1, N2)$ для вероятности $1 – P$.

Fig12
Рис.12 Пример вычисления распределения Фишера

Многомерное нормальное распределение

Это распределение является естественным обобщением одномерного нормального распределения на случай многомерной случайной величины, т.е. случайного вектора $\mathbf{x}$, размерностью $n$.

Функция плотности вероятности имеет следующий вид

$$ f(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{\mathrm{det}(\mathbf{\Sigma})(2\pi)^n} \exp{\bigg( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^\mathrm{t} \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \bigg)} $$

где $\mathbf{\Sigma}$ – симметричная положительно определенная ($n \times n$) матрица.

Многомерное нормальное распределение зависит от двух групп параметров:

$$\mathbf{x} \sim N(\mathbf{\mu}, \mathbf{\Sigma})$$

Математическое ожидание $\mathbf{x}$ равно $\mathbf{\mu}$, а ковариационная матрица равна матрице $\mathbf{\Sigma}$.

Генерация случайных чисел

Иногда бывает полезно создать искусственную выборку случайных чисел, подчиняющихся заданному распределению. Это можно сделать, используя следующее простое утверждение.

Пусть $F(x)$ и $F^{–1}(P)$ суть некоторая функция распределения и ее квантиль, соответственно. Если случайная величина $X$ распределена равномерно на отрезке $[0, 1]$, т.е

$$X \sim U(0,1)$$

тогда случайная величина

$$Y = F^{–1}(X)$$

имеет функцию распределения $F$.

Таким образом, если получить набор случайных величин, распределенных равномерно, то эти случайные величины можно превратить в новые, имеющие другое, заданное распределение.

Для генерации случайных чисел в Excel имеется стандартная функция: RAND (СЛЧИС).

RAND()

Возвращает случайное число, равномерно распределенное на отрезке $[0,1]$. Новое случайное число возвращается при каждом вычислении рабочего листа.

На листе Random рабочей книги Statistics.xls приведен пример генерации случайных чисел для разных распределений.

Fig13
Рис.13 Пример генерации случайных чисел