Люди и страны
Пример
Метод главных компонент иллюстрируется примером, помещенным в файл People.
Этот файл включает в себя следующие листы:
Intro
: краткое введениеLayout
: схемы, объясняющая имена массивов, используемых в примереData
: данные, используемые в примере.MVA
: PCA декомпозиция, выполненная с помощью надстройки Chemometrics.xlaPCA
: копия всех результатов PCA не привязанная к надстройке Chemometrics.xlaScores1–2
: анализ младших счетов PC1–PC2Scores3–4
: анализ старших счетов PC3–PC4Loadings
: анализ нагрузокResiduals
: анализ остатков
Данные
Анализ базируется на данных европейского демографического исследования, опубликованных в книге К. Эсбенсена.
По причинам дидактического характера используется лишь небольшой набор из 32 человек, из которых 16 представляют Северную Европу (Скандинавия) и столько же – Южную (Средиземноморье). Для баланса выбрано одинаковое количество мужчин и женщин – по 16 человек. Люди характеризуются двенадцатью переменными, перечисленными в слежующей таблице.
Переменная | Описание |
---|---|
Height | Рост: в сантиметрах |
Weight | Вес: в килограммах |
Hair | Волосы: короткие: –1, или длинные: +1 |
Shoes | Обувь: размер по европейскому стандарту |
Age | Возраст: в годах |
Income | Доход: в тысячах евро в год |
Beer | Пиво: потребление в литрах в год |
Wine | Вино: потребление в литрах в год |
Sex | Пол: мужской: –1, или женский: +1 |
Strength | Сила: индекс, основанный на проверке физических способностей |
Region | Регион: север : –1, или юг: +1 |
IQ | Коэффициент интеллекта, измеряемый по стандартному тесту |
Заметим, что такие переменные, как Sex, Hair и Region имеют дискретный характер с двумя возможными значениями: $–1$ или $+1$, тогда как остальные девять переменных могут принимать непрерывные числовые значения.
Исследование данных
Прежде всего, любопытно посмотреть на графиках, как связаны между собой все эти переменные. Зависит ли рост (Height) от веса (Weight)? Отличаются ли женщины от мужчин в потреблении вина (Wine)? Связан ли доход (Income) с возрастом (Age)? Зависит ли вес (Weight) от потребления пива (Beer)?
Некоторые из этих зависимостей показаны на Рис. 18. Для наглядности на всех графиках использованы одни и те же обозначения: женщины (F) показаны кружками, мужчины (M) – квадратами, север (N) представлен голубым, а юг (S) – красным цветом.
Связь между весом (Weight) и ростом (Height) показана на Рис. 18a. Очевидна, прямая (положительная) пропорциональность. Учитывая маркировку точек, можно заметить также, что мужчины (M) в большинстве своем тяжелее и выше женщин (F).
На Рис. 18b показана другая пара переменных: вес (Weight) и пиво (Beer). Здесь, помимо очевидных фактов, что большие люди пьют больше, а женщины – меньше, чем мужчины, можно заметить еще две отдельные группы – южан и северян. Первые пьют меньше пива при том же весе.
Эти же группы заметны и на Рис. 18c, где показана зависимость между потреблением вина (Wine) и пива (Beer). Из него видно, что связь между этими переменными отрицательна – чем больше потребляется пива, тем меньше вина. На юге пьют больше вина, а на севере – пива. Интересно, что в обеих группах женщины располагаются слева, но не ниже по отношению к мужчинам. Это означает, что, потребляя меньше пива, прекрасный пол не уступает в вине.
Последний график на Рис. 18d показывает, как связаны возраст (Age) и доход (Income). Легко видеть, что даже в этом сравнительно небольшом наборе данных есть переменные, как с положительной, так и с отрицательной корреляцией.
Можно ли построить графики для всех пар переменных выборки? Вряд ли. Проблема состоит в том, что для 12 переменных существует $12(12–1)/2=66$ таких комбинаций.
Подготовка данных
Перед тем, как подвергнуть данные анализу методом главных компонент, их надо подготовить. Простой статистический расчет показывает, что они нуждаются в автошкалировании (cм. Рис. 19)
Средние значения по многим переменным отличаются от нуля. Кроме того, среднеквадратичные отклонения сильно разнятся. После автошкалирования среднее значение всех переменных становится равно нулю, а отклонение – единица.
В принципе, данные можно было бы не преобразовывать явно, на листе, а оставить как есть. Ведь стандартные хемометрические процедуры, собранные в надстройке Chemometrics могут центрировать и шкалировать данные при выполнении вычислений. Однако матрица автошкалированных данных понадобится нам при вычислении остатков.
Вычисление счетов и нагрузок
Для построения PCA декомпозиции можно воспользоваться стандартными функциями ScoresPCA и LoadingsPCA, имеющимися в надстройке Chemometrics. Мы вычислим все 12 возможных главных компонент. В качестве первого аргумента используется исходный, не преобразованный массив данных, поэтому последний аргумент в обеих функциях равен 3
– автошкалирование.
В этом пособии все PCA вычисления проводятся в книге People.xls на листе MVA
. Для удобства читателя эти же результаты продублированы на листе PCA
как числа, без ссылки на надстройку Chemometrics.xla. Остальные листы рабочей книги связаны не с данными на листе MVA
, с данными на листе PCA
. Поэтому файл People.xls можно использовать даже тогда, когда надстройка Chemometrics.xla не установлена на компьютере.
График счетов
Посмотрим на графики счетов, которые показывают, как расположены образцы в проекционном пространстве.
На графике младших счетов PC1–PC2 (Рис. 23) мы видим четыре отдельные группы, разложенные по четырем квадрантам: слева – женщины (F), справа – мужчины (M), сверху – юг (S), а снизу – север (N). Из этого сразу становится ясен смысл первых двух направлений PC1 и PC2. Первая компонента разделяет людей по полу, а вторая – по месту жительства. Именно эти факторы наиболее сильно влияют на разброс свойств.
Продолжим изучение, построив график старших счетов PC3– PC4 (Рис. 24).
Здесь уже не видно таких отчетливых групп. Тем не менее, внимательно исследовав этот график совместно с таблицей исходных данных, можно, после некоторых усилий, сделать вывод о том, что PC3 отделяет старых/богатых людей от молодых/бедных. Чтобы сделать это более очевидным, мы изменили обозначения. Теперь каждый человек показан кружком, цвет и размер которого меняется в зависимости от дохода – чем больше и светлее, тем больше доход. Рядом показан возраст каждого объекта. Как видно, возраст и доход уменьшается слева направо, т.е. вдоль PC3. А вот смысл PC4 нам по–прежнему не ясен.
Графики нагрузок
Чтобы разобраться с этим, построим соответствующие графики нагрузок. Они подскажут нам, какие переменные и как связаны между собой, что влияет на что.
Из графика младших компонент мы сразу видим, что переменные рост (Height), вес (Weight), сила (Strength) и обувь (Shoes) образуют компактную группу в правой части графика. Они практически сливаются, что означает их тесную положительную корреляцию. Переменные волосы (Hair) и пол (Sex) находятся в другой группе, лежащей по диагонали от первой группы. Это свидетельствует о высокой отрицательной корреляции между переменными из этих групп, например, силой (Strength) и полом (Sex). Наибольшие нагрузки на вторую компоненту имеют переменные вино (Wine) и регион (Region), также тесно связанные друг с другом. Переменная доход (Income) лежит на первом графике напротив переменной регион (Region), что отражает дифференциацию состоятельности: Север–Юг. Можно заметить также и антитезу переменных пиво (Beer) – регион/вино (Region/Wine).
Из второго графика мы видим большие нагрузки переменных возраст (Age) и доход (Income) на ось PC3, что соответствует графику счетов на Рис. 23. Рассмотрим, переменные пиво (Beer) и IQ. Первая из них имеет большие нагрузки как на PC1, так и на PC2, фактически формируя диагональ взаимоотношений между объектами на графике счетов. Переменная IQ не обнаруживает связи с другими переменным, так как ее значения близки к нулю для нагрузок первых трех PC, и проявляет она себя только в четвертой компоненте. Мы видим, что значения IQ не зависят от места жительства, физиологических характеристик и пристрастий к напиткам.
Впервые PCA был применен еще в начале 20–го века в психологических исследованиях, когда верили, что такие показатели, как IQ или криминальное поведение можно объяснить с помощью индивидуальных физиологических и социальных характеристик. Если сравнить результаты PCA с графиками, построенными нами ранее для пар переменных, видно, что PCA сразу дает всеобъемлющее представление о структуре данных, которое можно "охватить одним взглядом" (точнее, с помощью четырех графиков). Поэтому, одна из наиболее сильных сторон PCA в исследовании структур данных – это переход от большого числа не связанных между собой графиков пар переменных к очень небольшому числу графиков счетов и нагрузок.
Исследование остатков
Сколько главных компонент нужно использовать в этом примере? Для ответа на вопрос нужно исследовать, как изменяется качество описания при увеличении числа PC. Заметим, что в этом примере мы не будем проводить проверку – в этом нет необходимости, т.к. PCA модель нужна только для исследования данных. Она не будет использоваться далее для прогнозирования, классификации, и т.п.
На Рис. 26 показано, как, в зависимости от числа PC, меняются собственные значения $λ$ . Видно, что около PC=5 происходит изменение в их поведении. Для расчета показателей $TRV$ и $ERV$ можно получить матрицу остатков $\mathbf{E}$ для каждого числа главных компонент $A$ и вычислить требуемые показатели. Пример такого расчета для значения $A=4$ приведен на листе Residuals
.
Однако те же характеристики можно получить и проще, если воспользоваться соотношениями
$$TRV(A) = \frac{1}{IJ} \bigg( \lambda_0 - \sum_{a=1}^A \lambda_a \bigg)$$ $$ERV(A) = 1 - \frac{TRV(A)}{TRV(0)}$$
Эти величины представлены на Рис. 28
Из этих зависимостей видно, что для описания данных достаточно четырех PC – они моделируют 94% данных, или, иными словами, шум, оставшийся после проекции на четырехмерное пространство PC1–PC4, оставляет всего 6% от исходных данных.