Базовые сведения

Вероятность события

В мире часто происходят события, исход которых не предопределен заранее. Всем известен хрестоматийный пример с подбрасыванием монетки, завершающийся случайным событием: выпадением орла или решки. Таким случайным событиям можно приписать вероятность – число от нуля до единицы. Однако не у всякого события может быть вероятность. Ключевым условием является повторяемость. Поэтому бессмысленно спрашивать, какова вероятность того, что завтра пойдет дождь. У «завтра» нет повторяемости – это уникальное событие, которое нельзя повторить. Однако можно говорить о вероятности того, что 7 июля будет дождь. Событие «7 июля» повторяется каждый год, и дождю в этот день можно приписать некоторую вероятность.

Понятие вероятности можно применять только к тем событиям, которые еще не произошли, или исход которых нам пока не известен. Так, например, мы можем рассчитать вероятность выигрыша в лотерею, но, как только нам стал известен результат розыгрыша, т.е. событие уже произошло – рассчитанная вероятность теряет всякий смысл.

Еще одним важным понятием является пространство событий – это полный набор всех возможных исходов. Так в опыте с монеткой есть только два события: орел и решка. Рассмотрим другой опыт – измерение роста случайно выбранного человека. Если точность измерения один сантиметр, то пространство событий – это набор чисел от 30 см (новорожденный), до 251 см (рекорд книги Гиннеса) – всего 222 варианта. Однако если мы меряем рост с точность до 1 метра, то в пространстве оказываются только три события: меньше 1 м, от 1 м до 2 м, и больше 2 м.

Случайная величина

Случайная величина — это переменная, значение которой до опыта (реализации) неизвестно. Всякая случайная величина характеризуется:

  • множеством своих возможных значений (пространство событий)
  • неограниченным числом повторения реализаций
  • вероятностью попадания в любую наперед заданную область во множестве значений

Множество значений может быть дискретным, непрерывным и дискретно-непрерывным. Соответственно именуются и случайные величины.

Распределение случайной величины

Пусть $X$ – это случайная величина, множеством возможных значений которой являются действительные числа. Рассмотрим вероятность события, что реализация $X$ не больше заданного числа $x$. Если рассматривать эту вероятность в зависимости от величины $x$, то получится функция $F(x)$, называемая (кумулятивной) функцией распределения случайной величины –

$$F(x) = \mathrm{Pr}\{X≤x\}$$

Функция распределения это неубывающая функция, которая стремится к $0$ при малых $x$, и стремится к $1$ при больших значениях аргумента.

То, что случайная величина $X$ имеет функцию распределения $F$ обозначается так –

$$X \sim F$$

Распределение называется симметричным (относительно точки $a$) если $F(a+x)=1–F(a–x)$.

Для дискретных случайная величина функция распределения кусочно-постоянна со скачками в точках $x=x_i$.

Производная функция распределения $F(x)$ называется плотностью вероятности $f(x)$:

$$F(x) = \int_{t=-\infty}^x f(t)dt$$

Fig01
Рис. 1 плотность вероятности $f(x)$ и функция распределения $F(x)$ случайной величины

Математическое ожидание

Пусть $X$ – это случайная величина с плотностью вероятности $f(x)$.

Математическим ожиданием $X$ называется величина

$$\mathrm{E}(X) = \int_{-\infty}^{+\infty}xf(x)dx$$

Дисперсия

Пусть $X$ – это случайная величина с плотностью вероятности $f(x)$.

Дисперсией $X$ называется величина

$$ \mathrm{V}(X) = \int_{-\infty}^{+\infty} \big( x - \mathrm{E}(X) \big)^2 f(x)dx = \mathrm{E} \big( X-\mathrm{E}(X))^2 \big) $$

Если из дисперсии извлечь квадратный корень, то получится величина, называемая среднеквадратичным отклонением (СКО).

Моменты

Пусть $X$ – это случайная величина с плотностью вероятности $f(x)$.

Моментом порядка $n$ называется величина

$$\mu_n = \int_{-\infty}^{+\infty} x^nf(x)dx$$

По определению $\mu_1 = \mathrm{E}(X)$.

Центральным моментом порядка $n$ называется величина

$$m_n = \int_{-\infty}^{+\infty} (x - \mu_1)^n f(x)dx = \mathrm{E} \big( (X - \mu_1)^n \big) $$

По определению $m_2= \mathrm{V}(X)$.

Квантили

Пусть $F(x)$ – (кумулятивная) функция распределения случайной величины

$$F(x) = \int_{-\infty}^{+\infty}f(t)dt$$

Рассмотрим функцию $F^{–1}(P), 0≤P≤1$, обратную к $F(x)$ т.е. $F^{–1}(F(x))=x$ и $F(F^{–1}(P))=P$. Функция $F^{–1}(P)$ называется $P$-квантилем распределения $F$.

Величина квантиля для $P=0.5$ называется медианой распределения.

Квантили для $P=0.25,0.75$ называются квартилями, а для $P=0.01, 0.02, …, 0.99$ называются процентилями.

Многомерные распределения

Две (и более) случайные величины можно рассматривать совместно. Совместная (кумулятивная) функция распределения двух случайных величин $X$ и $Y$ определяется так

$$ F(x,y) = Pr\big\{ (X≤x) \land (Y≤y) \big\} = \int_{-\infty}^{x} \int_{-\infty}^{y} f(\xi, \eta) d \xi d \eta $$

Так же, как и в одномерном случае, функция $f(x, y)$ называется плотностью вероятности .

Случайные величины $X$ и $Y$ называются независимыми, если их совместная плотность вероятности равна произведению частных плотностей.

$$f(x,y) = f(x)f(y)$$

Ковариация и корреляция

Ковариацией случайных величин $X$ и $Y$ называется (детерминированная) величина

$$ \mathrm{cov}(X,Y) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (\xi - \mathrm{E}(X))(\eta - \mathrm{E}(Y))f(\xi, \eta)d \xi d \eta $$

где $f(x, y)$ – совместная плотность вероятности. Величина

$$ \mathrm{cov}(X,Y) = \frac{cov(X,Y)}{\sqrt{\mathrm{V}(X)\mathrm{V}(Y)}} $$

называется корреляцией случайных величин $X$ и $Y$.

Если случайные величины $X$ и $Y$ независимы, то их ковариация и корреляция равны нулю. Обратное не верно.

Для совместных распределений многомерных случайных величин $X_1,\dots,X_n$ ковариационная матрица $\mathbf{C}$

$$ c_{ij}=cov(X_i, X_j),
i,j=1,\dots,n $$

играет ту же роль, что и дисперсия в одномерном распределении.

Функции от случайной величины

Функция от случайной величины также является случайной величиной.

Пусть случайная величина $X$ имеет функцию распределения $F_X(x)$, и случайные величины $X$ и $Y$ связаны взаимно однозначными соотношениями $y=φ(x)$, $x=ψ(y)$.

Если $φ(x)$ – возрастающая функция, то функция распределения и квантили случайной величины $Y$ определяются так:

$$F_Y(y) = F_X(ψ(y))$$ $$y(P)= φ(x(P))$$

Если $ψ(y)$ – дифференцируемая функция, то плотность вероятности случайной величины $Y$ вычисляется по формуле:

$$f_Y(y) = f_X(\psi(y))\bigg| \frac{d\psi}{dy} \bigg|$$

Для линейных преобразований $y=ax+b$

$$f_Y(y) = \frac{1}{|a|}f_X \bigg( \frac{y-b}{a} \bigg)$$

Кроме этого: $$\mathrm{E}(aX+b)=a\mathrm{E}(X)+b$$ $$\mathrm{V}(aX+b)=a^2\mathrm{V}(X)$$ $$\mathrm{E}(X+Y)=\mathrm{E}(X)+\mathrm{E}(Y)$$ $$\mathrm{V}(X+Y)=\mathrm{V}(X)+\mathrm{V}(Y)+\mathrm{cov}(X,Y)$$

Стандартизация случайной величины

Если случайная величина $X$ имеет математическое ожидание $m$ и дисперсию $s^2$: $\mathrm{E}(X)=m$, $\mathrm{V}(X)=s^2$, то случайная величина:

$$Y=(X–m)/s$$

называется стандартизованной (нормированной), поскольку $\mathrm{E}(Y)=0$, $\mathrm{V}(Y)=1$.