Люди и страны

Пример

Метод главных компонент иллюстрируется примером, помещенным в файл People.

Этот файл включает в себя следующие листы:

  • Intro: краткое введение
  • Layout: схемы, объясняющая имена массивов, используемых в примере
  • Data: данные, используемые в примере.
  • MVA: PCA декомпозиция, выполненная с помощью надстройки Chemometrics.xla
  • PCA: копия всех результатов PCA не привязанная к надстройке Chemometrics.xla
  • Scores1–2: анализ младших счетов PC1–PC2
  • Scores3–4: анализ старших счетов PC3–PC4
  • Loadings: анализ нагрузок
  • Residuals: анализ остатков

Данные

Анализ базируется на данных европейского демографического исследования, опубликованных в книге К. Эсбенсена.

По причинам дидактического характера используется лишь небольшой набор из 32 человек, из которых 16 представляют Северную Европу (Скандинавия) и столько же – Южную (Средиземноморье). Для баланса выбрано одинаковое количество мужчин и женщин – по 16 человек. Люди характеризуются двенадцатью переменными, перечисленными в слежующей таблице.

Переменная Описание
Height Рост: в сантиметрах
Weight Вес: в килограммах
Hair Волосы: короткие: –1, или длинные: +1
Shoes Обувь: размер по европейскому стандарту
Age Возраст: в годах
Income Доход: в тысячах евро в год
Beer Пиво: потребление в литрах в год
Wine Вино: потребление в литрах в год
Sex Пол: мужской: –1, или женский: +1
Strength Сила: индекс, основанный на проверке физических способностей
Region Регион: север : –1, или юг: +1
IQ Коэффициент интеллекта, измеряемый по стандартному тесту

Заметим, что такие переменные, как Sex, Hair и Region имеют дискретный характер с двумя возможными значениями: $–1$ или $+1$, тогда как остальные девять переменных могут принимать непрерывные числовые значения.

fig17
Рис. 17 Исходные данные в примере People

Исследование данных

Прежде всего, любопытно посмотреть на графиках, как связаны между собой все эти переменные. Зависит ли рост (Height) от веса (Weight)? Отличаются ли женщины от мужчин в потреблении вина (Wine)? Связан ли доход (Income) с возрастом (Age)? Зависит ли вес (Weight) от потребления пива (Beer)?

fig18
Рис. 18 Связи между переменными в примере People. Женщины (F) обозначены кружками и , а мужчины (M) – квадратами и . Север (N) представлен голубым , а юг (S) – красным цветом .

Некоторые из этих зависимостей показаны на Рис. 18. Для наглядности на всех графиках использованы одни и те же обозначения: женщины (F) показаны кружками, мужчины (M) – квадратами, север (N) представлен голубым, а юг (S) – красным цветом.

Связь между весом (Weight) и ростом (Height) показана на Рис. 18a. Очевидна, прямая (положительная) пропорциональность. Учитывая маркировку точек, можно заметить также, что мужчины (M) в большинстве своем тяжелее и выше женщин (F).

На Рис. 18b показана другая пара переменных: вес (Weight) и пиво (Beer). Здесь, помимо очевидных фактов, что большие люди пьют больше, а женщины – меньше, чем мужчины, можно заметить еще две отдельные группы – южан и северян. Первые пьют меньше пива при том же весе.

Эти же группы заметны и на Рис. 18c, где показана зависимость между потреблением вина (Wine) и пива (Beer). Из него видно, что связь между этими переменными отрицательна – чем больше потребляется пива, тем меньше вина. На юге пьют больше вина, а на севере – пива. Интересно, что в обеих группах женщины располагаются слева, но не ниже по отношению к мужчинам. Это означает, что, потребляя меньше пива, прекрасный пол не уступает в вине.

Последний график на Рис. 18d показывает, как связаны возраст (Age) и доход (Income). Легко видеть, что даже в этом сравнительно небольшом наборе данных есть переменные, как с положительной, так и с отрицательной корреляцией.

Можно ли построить графики для всех пар переменных выборки? Вряд ли. Проблема состоит в том, что для 12 переменных существует $12(12–1)/2=66$ таких комбинаций.

Подготовка данных

Перед тем, как подвергнуть данные анализу методом главных компонент, их надо подготовить. Простой статистический расчет показывает, что они нуждаются в автошкалировании (cм. Рис. 19)

fig19
Рис. 19 Средние значения и СКО для переменных в примере People.

Средние значения по многим переменным отличаются от нуля. Кроме того, среднеквадратичные отклонения сильно разнятся. После автошкалирования среднее значение всех переменных становится равно нулю, а отклонение – единица.

fig20
Рис. 18 Автошкалированные данные в примере People.

В принципе, данные можно было бы не преобразовывать явно, на листе, а оставить как есть. Ведь стандартные хемометрические процедуры, собранные в надстройке Chemometrics могут центрировать и шкалировать данные при выполнении вычислений. Однако матрица автошкалированных данных понадобится нам при вычислении остатков.

Вычисление счетов и нагрузок

Для построения PCA декомпозиции можно воспользоваться стандартными функциями ScoresPCA и LoadingsPCA, имеющимися в надстройке Chemometrics. Мы вычислим все 12 возможных главных компонент. В качестве первого аргумента используется исходный, не преобразованный массив данных, поэтому последний аргумент в обеих функциях равен 3 – автошкалирование.

fig21
Рис. 21 Вычисление матрицы счетов

fig22
Рис. 22 Вычисление матрицы нагрузок

В этом пособии все PCA вычисления проводятся в книге People.xls на листе MVA. Для удобства читателя эти же результаты продублированы на листе PCA как числа, без ссылки на надстройку Chemometrics.xla. Остальные листы рабочей книги связаны не с данными на листе MVA, с данными на листе PCA. Поэтому файл People.xls можно использовать даже тогда, когда надстройка Chemometrics.xla не установлена на компьютере.

График счетов

Посмотрим на графики счетов, которые показывают, как расположены образцы в проекционном пространстве.

На графике младших счетов PC1–PC2 (Рис. 23) мы видим четыре отдельные группы, разложенные по четырем квадрантам: слева – женщины (F), справа – мужчины (M), сверху – юг (S), а снизу – север (N). Из этого сразу становится ясен смысл первых двух направлений PC1 и PC2. Первая компонента разделяет людей по полу, а вторая – по месту жительства. Именно эти факторы наиболее сильно влияют на разброс свойств.

fig23
Рис. 23 График счетов (PC1 – PC2) с обозначениями, использованными ранее на Рис 18

Продолжим изучение, построив график старших счетов PC3– PC4 (Рис. 24).

fig24
Рис. 24 График счетов (PC3 – PC4) с новыми обозначениями: размер и цвет символов отражает доход – чем больше и светлее, тем он больше. Числа представляют возраст.

Здесь уже не видно таких отчетливых групп. Тем не менее, внимательно исследовав этот график совместно с таблицей исходных данных, можно, после некоторых усилий, сделать вывод о том, что PC3 отделяет старых/богатых людей от молодых/бедных. Чтобы сделать это более очевидным, мы изменили обозначения. Теперь каждый человек показан кружком, цвет и размер которого меняется в зависимости от дохода – чем больше и светлее, тем больше доход. Рядом показан возраст каждого объекта. Как видно, возраст и доход уменьшается слева направо, т.е. вдоль PC3. А вот смысл PC4 нам по–прежнему не ясен.

Графики нагрузок

Чтобы разобраться с этим, построим соответствующие графики нагрузок. Они подскажут нам, какие переменные и как связаны между собой, что влияет на что.

Из графика младших компонент мы сразу видим, что переменные рост (Height), вес (Weight), сила (Strength) и обувь (Shoes) образуют компактную группу в правой части графика. Они практически сливаются, что означает их тесную положительную корреляцию. Переменные волосы (Hair) и пол (Sex) находятся в другой группе, лежащей по диагонали от первой группы. Это свидетельствует о высокой отрицательной корреляции между переменными из этих групп, например, силой (Strength) и полом (Sex). Наибольшие нагрузки на вторую компоненту имеют переменные вино (Wine) и регион (Region), также тесно связанные друг с другом. Переменная доход (Income) лежит на первом графике напротив переменной регион (Region), что отражает дифференциацию состоятельности: Север–Юг. Можно заметить также и антитезу переменных пиво (Beer) – регион/вино (Region/Wine).

fig25
Рис. 25 Графики нагрузок: PC1–PC2 и PC3–PC4.

Из второго графика мы видим большие нагрузки переменных возраст (Age) и доход (Income) на ось PC3, что соответствует графику счетов на Рис. 23. Рассмотрим, переменные пиво (Beer) и IQ. Первая из них имеет большие нагрузки как на PC1, так и на PC2, фактически формируя диагональ взаимоотношений между объектами на графике счетов. Переменная IQ не обнаруживает связи с другими переменным, так как ее значения близки к нулю для нагрузок первых трех PC, и проявляет она себя только в четвертой компоненте. Мы видим, что значения IQ не зависят от места жительства, физиологических характеристик и пристрастий к напиткам.

Впервые PCA был применен еще в начале 20–го века в психологических исследованиях, когда верили, что такие показатели, как IQ или криминальное поведение можно объяснить с помощью индивидуальных физиологических и социальных характеристик. Если сравнить результаты PCA с графиками, построенными нами ранее для пар переменных, видно, что PCA сразу дает всеобъемлющее представление о структуре данных, которое можно "охватить одним взглядом" (точнее, с помощью четырех графиков). Поэтому, одна из наиболее сильных сторон PCA в исследовании структур данных – это переход от большого числа не связанных между собой графиков пар переменных к очень небольшому числу графиков счетов и нагрузок.

Исследование остатков

Сколько главных компонент нужно использовать в этом примере? Для ответа на вопрос нужно исследовать, как изменяется качество описания при увеличении числа PC. Заметим, что в этом примере мы не будем проводить проверку – в этом нет необходимости, т.к. PCA модель нужна только для исследования данных. Она не будет использоваться далее для прогнозирования, классификации, и т.п.

fig26
Рис. 26 Графики собственных значений

На Рис. 26 показано, как, в зависимости от числа PC, меняются собственные значения $λ$ . Видно, что около PC=5 происходит изменение в их поведении. Для расчета показателей $TRV$ и $ERV$ можно получить матрицу остатков $\mathbf{E}$ для каждого числа главных компонент $A$ и вычислить требуемые показатели. Пример такого расчета для значения $A=4$ приведен на листе Residuals.

fig27
Рис. 27 Анализ остатков

Однако те же характеристики можно получить и проще, если воспользоваться соотношениями

$$TRV(A) = \frac{1}{IJ} \bigg( \lambda_0 - \sum_{a=1}^A \lambda_a \bigg)$$ $$ERV(A) = 1 - \frac{TRV(A)}{TRV(0)}$$

Эти величины представлены на Рис. 28

fig28
Рис. 28 Графики полной (TRV) и объясненной (ERV) дисперсии остатков

Из этих зависимостей видно, что для описания данных достаточно четырех PC – они моделируют 94% данных, или, иными словами, шум, оставшийся после проекции на четырехмерное пространство PC1–PC4, оставляет всего 6% от исходных данных.