Дополнительная информация
Системы линейных уравнений
Пусть $\mathbf{A}$ — матрица размером $I×J$, а $\mathbf{b}$ — вектор размерности $J$. Рассмотрим уравнение
$$\mathbf{Ax} = \mathbf{b}$$
относительно вектора $\mathbf{x}$, размерности $I$. По сути — это система из $I$ линейных уравнений с $J$ неизвестными $\mathbf{x}_1, \dots ,\mathbf{x}_J$. Решение существует в том, и только в том случае, когда
$$\mathrm{rank}(\mathbf{A}) = \mathrm{rank}(\mathbf{B}) = R,$$
где $\mathbf{B}$ — это расширенная матрица размерности $I×(J+1)$, состоящая из матрицы $\mathbf{A}$, дополненной столбцом $\mathbf{b}$, $\mathbf{B} = (\mathbf{A} \mathbf{b})$. В противном случае уравнения несовместны.
Если $R = I = J$, то решение единственно
$$\mathbf{x} = \mathbf{A}^{-1}\mathbf{b}$$
Если $R < I$, то существует множество различных решений, которые можно выразить через линейную комбинацию $J−R$ векторов. Система однородных уравнений $\mathbf{Ax} = \mathbf{0}$ с квадратной матрицей $\mathbf{A}$ ($N×N$) имеет нетривиальное решение ($\mathbf{x} ≠ \mathbf{0}$) тогда и только тогда, когда $\mathrm{det}(\mathbf{A}) = 0$. Если $R = \mathrm{rank}(\mathbf{A})<N$, то существуют $N−R$ линейно независимых решений.
Билинейные и квадратичные формы
Если $\mathbf{A}$ — это квадратная матрица , а $\mathbf{x}$ и $\mathbf{y}$ — вектора соответствующей размерности, то скалярное произведение вида $\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{y}$ называется билинейной формой, определяемой матрицей $\mathbf{A}$. При $\mathbf{x} = \mathbf{y}$ выражение $\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{x}$ называется квадратичной формой.
Положительно определенные матрицы
Квадратная матрица $\mathbf{A}$ называется положительно определенной, если для любого ненулевого вектора $\mathbf{x} ≠ \mathbf{0}$,
$\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{x} > 0$.
Аналогично определяются отрицательно ($\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{x} < 0$), неотрицательно ($\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{x} ≥ 0$) и неположительно ($\mathbf{x}^\mathrm{t}\mathbf{A}\mathbf{x} ≤ 0$) определенные матрицы.
Разложение Холецкого
Если симметричная матрица $\mathbf{A}$ положительно определена, то существует единственная треугольная матрица $\mathbf{U}$ с положительными элементами, для которой
$$\mathbf{A} = \mathbf{U}^\mathrm{t}\mathbf{U}$$
Например,
Полярное разложение
Пусть $\mathbf{A}$ — это невырожденная квадратная матрица размерности $N×N$. Тогда существует однозначное полярное представление
$$\mathbf{A} = \mathbf{S}\mathbf{R},$$
где $\mathbf{S}$ — это неотрицательная симметричная матрица, а $\mathbf{R}$ — это ортогональная матрица. Матрицы $\mathbf{S}$ и $\mathbf{R}$ могут быть определены явно:
$$\mathbf{S} = (\mathbf{AA}^\mathrm{t})^{1/2}, \mathbf{R} = \mathbf{S}^{−1}\mathbf{A} = (\mathbf{AA}^\mathrm{t})^{−1/2}\mathbf{A}.$$
Например,
Если матрица $\mathbf{A}$ вырождена, то разложение не единственно — а именно: $\mathbf{S}$ по-прежнему одна, а вот $\mathbf{R}$ может быть много. Полярное разложение представляет матрицу $\mathbf{A}$ как комбинацию сжатия/растяжения $\mathbf{S}$ и поворота $\mathbf{R}$.
Собственные векторы и значения
Пусть $\mathbf{A}$ — это квадратная матрица. Вектор $\mathbf{v}$ называется собственным вектором матрицы $\mathbf{A}$, если
$$\mathbf{Av} = \lambda\mathbf{v},$$
где число $\lambda$ называется собственным значением матрицы $\mathbf{A}$. Таким образом преобразование, которое выполняет матрица $\mathbf{A}$ над вектором $\mathbf{v}$, сводится к простому растяжению или сжатию с коэффициентом $\lambda$. Собственный вектор определяется с точностью до умножения на константу $\alpha ≠ 0$, т.е. если $\mathbf{v}$ — собственный вектор, то и $\alpha\mathbf{v}$ — тоже собственный вектор.
Собственные значения
У матрицы $\mathbf{A}$ , размерностью ($N×N$) не может быть больше чем $N$ собственных значений. Они удовлетворяют характеристическому уравнению
$$\mathrm{det}(\mathbf{A} − \lambda\mathbf{I}) = 0,$$
являющемуся алгебраическим уравнением $N$-го порядка. В частности, для матрицы $2×2$ характеристическое уравнение имеет вид
$$ \mathrm{det}(\mathbf{A}-\lambda\mathbf{I}) = \mathrm{det} \bigg( \begin{bmatrix} a_{11}-\lambda & a_{12} \\ a_{21} & a_{22} - \lambda \end{bmatrix} \bigg) = (a_{11} - \lambda)(a_{22} - \lambda) - a_{12}a_{21} = 0 $$
Например,
Набор собственных значений $\lambda_1,\dots,\lambda_N$ матрицы $\mathbf{A}$ называется спектром $\mathbf{A}$.
Спектр обладает разнообразными свойствами. В частности
$$ \mathrm{det}(\mathbf{A}) = \lambda_1\times\dots\times\lambda_N, \mathrm{Sp}(\mathbf{A}) = \lambda_1+\dots+\lambda_N $$
Собственные значения произвольной матрицы могут быть комплексными числами, однако если матрица симметричная ($\mathbf{A}^\mathrm{t} = \mathbf{A}$), то ее собственные значения вещественны.
Собственные векторы
У матрицы $\mathbf{A}$, размерностью ($N×N$) не может быть больше чем $N$ собственных векторов, каждый из которых соответствует своему собственному значению. Для определения собственного вектора $\mathbf{v}_n$ нужно решить систему однородных уравнений
$$(\mathbf{A} − \lambda_n\mathbf{I})\mathbf{v}_n = \mathbf{0}$$
Она имеет нетривиальное решение, поскольку $\mathrm{det}(\mathbf{A} − \lambda_n\mathbf{I}) = 0$.
Например,
Собственные вектора симметричной матрицы ортогональны.
Эквивалентные и подобные матрицы
Две прямоугольные матрицы $\mathbf{A}$ и $\mathbf{B}$ одной размерности $I×J$ эквивалентны, если существуют такие квадратные матрицы $\mathbf{S}$, размерности $I×I$, и $\mathbf{T}$, размерности $J×J$, что:
$$\mathbf{B} = \mathbf{SAT}$$
Эквивалентные матрицы имею один и тот же ранг.
Две прямоугольные матрицы $\mathbf{A}$ и $\mathbf{B}$ одной размерности $N×N$ подобны, если существует такая невырожденная матрица $\mathbf{T}$, что:
$$\mathbf{B} = \mathbf{T}^{−1}\mathbf{AT}$$
Матрица $\mathbf{T}$ называется преобразованием подобия.
Подобные матрицы имеют один и тот же ранг, след, определитель и спектр.
Приведение матрицы к диагональному виду
Нормальную (в частности симметричную) матрицу $\mathbf{A}$ можно привести к диагональному виду преобразованием подобия:
$$\mathbf{A} = \mathbf{T}\mathbf{\Lambda}\mathbf{T}^{−1}$$
Здесь $\mathbf{\Lambda} = \mathrm{diag}(\lambda_1,\dots,\lambda_N)$ — это диагональная матрица, элементами которой являются собственные значения матрицы $\mathbf{A}$, а $\mathbf{T}$ — это матрица, составленная из соответствующих собственных векторов матрицы $\mathbf{A}$, т.е. $\mathbf{T} = (\mathbf{v}_1,\dots,\mathbf{v}_N)$.
Например,
Разложение по сингулярным значениям
Пусть имеется прямоугольная матрица $\mathbf{A}$ размерностью $I×J$ ранга $R$ ($I≤J≤R$). Ее можно разложить в произведение трех матриц $\mathbf{P}_R$ ($I×R$), $\mathbf{D}_R$ ($R×R$) и $\mathbf{Q}_R$ ($J×R$) —
$$\mathbf{A} = \mathbf{P}_R\mathbf{D}_R\mathbf{Q}_R^\mathrm{t}$$
так, чтобы —
$$\mathbf{P}_R^\mathrm{t}\mathbf{P}_R = \mathbf{Q}_R^\mathrm{t}\mathbf{Q}_R = \mathbf{I}_R$$
Здесь $\mathbf{P}_R$ — матрица, образованная $R$ ортонормированными собственными векторами $\mathbf{p}_r$ матрицы $\mathbf{AA}^\mathrm{t}$, соответствующим $R$ наибольшим собственным значениям $λ_r$:
$$\mathbf{AA}^\mathrm{t}\mathbf{p}_r = \lambda_r\mathbf{p}_r$$
$\mathbf{Q}_R$ — матрица, образованная $R$ ортонормированными собственными векторами $\mathbf{q}_r$ матрицы $\mathbf{A}^\mathrm{t}\mathbf{A}$:
$$\mathbf{A}^\mathrm{t}\mathbf{A}\mathbf{q}_r = \lambda_r\mathbf{q}_r$$
$\mathbf{D}_R = \mathrm{diag}(\sigma_1,\dots,\sigma_R)$ — положительно определенная диагональная матрица, элементами которой являются $\sigma_1≥\dots≥\sigma_R≥0$ — сингулярные значения матрицы $\mathbf{A}$, равные квадратным корням из собственных значений матрицы $\mathbf{A}^\mathrm{t}\mathbf{A}$:
$$\sigma_r=\sqrt{\lambda_r}$$
Пример,
Дополняя матрицы $\mathbf{P}_R$ и $\mathbf{Q}_R$ ортонормированными столбцами, а матрицу $\mathbf{D}_R$ нулевыми значениями, можно сконструировать матрицы $\mathbf{P}$ ($I×J$), $\mathbf{D}$ ($J×J$) и $\mathbf{Q}$ ($J×J$) такие, что
$$\mathbf{A} = \mathbf{P}_R\mathbf{D}_R\mathbf{Q}_R^\mathrm{t} = \mathbf{PDQ}^\mathrm{t}$$
Об использовании SVD рассказано в других пособиях MatLab. Руководство для начинающих и Метод главных компонент (PCA)
Линейное пространство и базис
Рассмотрим все возможные векторы размерности $N$. Это множество называется линейным пространством размерности $N$ и обозначается $\mathbb{R}^N$ . Так как в $\mathbb{R}^N$ включены все возможные векторы, то любая линейная комбинация векторов из $\mathbb{R}^N$ будет также принадлежать этому пространству.
Любой набор из $N$ линейно независимых векторов называется базисом в пространстве $\mathbb{R}^N$. Простейший пример базиса — это набор векторов
$$ \mathbf{e}_1 = \begin{bmatrix} 1 \\ 0 \\ \dots \\ 0 \end{bmatrix}, \mathbf{e}_2 = \begin{bmatrix} 0 \\ 1 \\ \dots \\ 0 \end{bmatrix}, \dots, \mathbf{e}_N = \begin{bmatrix} 0 \\ 0 \\ \dots \\ 1 \end{bmatrix} $$
в каждом из которых только один элемент равен $1$, а остальные равны нулю. Тогда любой вектор $\mathbf{x} = (x_1, x_2,...,x_N)^\mathrm{t}$ может быть представлен как линейная комбинация $\mathbf{x} = x_1\mathbf{e}_1+ x_2\mathbf{e}_2+\dots+x_N\mathbf{e}_N$ базисных векторов.
Базис, составленный из попарно ортогональных векторов, называется ортогональным, а если базисные вектора еще и нормированы, то этот базис называется ортонормированным.
Геометрическая интерпретация
Линейному пространству можно дать удобную геометрическую интерпретацию. Представим себе $N$-мерное пространство, в котором базисные вектора задают направления осей координат. Тогда произвольный вектор $\mathbf{x} = (x_1, x_2,...,x_N)^\mathrm{t}$ можно изобразить точкой в этом пространстве с координатами $(x_1, x_2,...,x_N)$.
Множественность базисов
В линейном пространстве могут быть неограниченное число базисов. Так, в пространстве $\mathbb{R}^3$ помимо обычного ортонормированного базиса
$$ \mathbf{e}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}, \mathbf{e}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}, \mathbf{e}_3 = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} $$
можно установить и другой ортонормированный базис, например
$$ \mathbf{b}_1 = \begin{bmatrix} \sqrt{0.5} \\ 0.5 \\ 0.5 \end{bmatrix}, \mathbf{b}_2 = \begin{bmatrix} -\sqrt{0.5} \\ 0.5 \\ 0.5 \end{bmatrix}, \mathbf{b}_3 = \begin{bmatrix} 0 \\ -\sqrt{0.5} \\ \sqrt{0.5} \end{bmatrix} $$
Каждый базис можно представить матрицей $\mathbf{B} = (\mathbf{b}_1,...,\mathbf{b}_N)$, составленной из базисных векторов. Переход от одного базиса к другому осуществляется с помощью невырожденной квадратной матрицы $\mathbf{T}$, т.е. $\mathbf{B}_2 = \mathbf{TB}_1$.
Подпространство
Пусть имеется набор из $K$ линейно независимых векторов $\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_K$ в пространстве $\mathbb{R}^N$. Рассмотрим все возможные линейные комбинации этих векторов
$$\mathbf{x} = \alpha_1\mathbf{x}_1+ \alpha_2\mathbf{x}_2+\dots+\alpha_K\mathbf{x}_K$$
О получившимся множестве $Q$ говорят, что оно является линейной оболочкой или что оно натянуто на векторы $\mathbf{x}_1, \mathbf{x}_2,\dots,\mathbf{x}_K$. По определению линейного пространства это множество $Q$ само является линейным пространством размерности $K$. При этом оно принадлежит пространству $\mathbb{R}^N$, поэтому $Q$ называется линейным подпространством $\mathbb{R}^K$ в пространстве $\mathbb{R}^N$.
Проекция на подпространство
Рассмотрим подпространство $\mathbb{R}^K$, натянутое на векторы $\mathbf{X} = (\mathbf{x}_1,\mathbf{x}_2,\dots,\mathbf{x}_K)$ в пространстве $\mathbb{R}^N$. Матрица базиса $\mathbf{X}$ имеет размерность ($N×K$). Любой вектор $\mathbf{y}$ из $\mathbb{R}^N$ может быть спроецирован на подпространство $\mathbb{R}^K$, т.е. представлен в виде
$$\mathbf{y} = \mathbf{y}^\parallel + \mathbf{y}^\perp$$
где вектор $\mathbf{y}^\parallel$ принадлежит $\mathbb{R}^K$, а вектор $\mathbf{y}^\perp$ ортогонален $\mathbf{y}^\parallel$.
Проекцию $\mathbf{y}^\parallel$ можно представить как результат действия проекционной матрицы $\mathbf{P}$
$$\mathbf{y}^\parallel = \mathbf{Py}$$
Проекционная матрица определяется как
$$\mathbf{P} = \mathbf{X}(\mathbf{X}^\mathrm{t}\mathbf{X})^{-1}\mathbf{X}^\mathrm{t}$$
Пример: