Ким Эсбенсен

       Анализ
            многомерных
                        данных
Эта книга является практическим, нематематическим введением в анализ многомерных данных. Главная задача книги - познакомить читателя с основными концепциями и идеями этого подхода и подготовить его или ее к их практическому использованию в различных областях. Особенности этой книги:
·  приоритет практическому применению таких многомерных подходов как  МГК, РГК и ПЛС;
·  простое, наглядное изложение, которое идеально подходит для людей не являющимися специалистами в математической статистике; 
·   все теоретические концепции тут же иллюстрируются примерами, заимствованными из практики;
·   примеры решаются с помощью тренировочной версии программы Unscrambler, включающей все файлы данных для этих задач

Обучающие примеры, основанные на данных из реальной жизни, пронизывают всю книгу. Они иллюстрируют применение методов и приемов, объясняемых в книге, дают читателю практические знания о современных методах анализа многомерных данных. Все примеры решаются с помощью программы Unscrambler, которая фактически является стандартом математического обеспечения для анализа многомерных данных. 

Анализ многомерных данных - это превосходное пособие для самообучения ученых и инженеров, которые хотят узнать, как извлекать скрытую информацию из данных. Это также и учебник для преподавания основ хемометрики.

Предисловие редактора перевода 

Перед вами перевод избранных глав книги датского ученого проф. К. Эсбенсена (с соавторами) «Анализ многомерных данных». Перевод осуществлен с разрешения правообладателя – компании CAMO Process AS (Норвегия). 

Анализ многомерных данных (АМД) – это современный подход к моделированию многомерных (многофакторных) процессов и явлений, основанный на применении проекционных математических методов, позволяющих выделять в больших массивах данных скрытые (латентные) переменные и анализировать связи, существующие в изучаемой системе. На западе такой подход, получивший название Chemometrics (хемометрика), бурно развивается; регулярно проводятся конференции, издаются журналы, такие как Journal of Chemometrics и Chemometrics and Intelligent Laboratory Systems. Хемометрика стала предметом изучения в ряде университетов Европы и США. Сейчас хемометрический подход широко применяется для решения самых разнообразных задач, подчас весьма далеких от аналитической химии – например при анализе изображений [6], но, тем не менее, его «историческое» наименование сохраняется. Краткий список литературы, посвященный хемометрике, приведен в конце книги [1-5,7- 9]. Вся эта литература на английском языке. К сожалению, в нашей стране до сих пор нет хороших монографий, посвященных проекционным методам. 

Данная книга – это попытка представить графически-ориентированный (визуальный) подход к анализу данных, который компактен, последователен и интуитивно понятен для неискушенного в математике пользователя. 

В русскую версию включены главы, описывающие последовательное введение в АМД, представлены основные понятия и инструменты (методы) исследования, обработки и интерпретации накопленных данных. В первую очередь это анализ Методом Главных Компонент (МГК) – P(rincipal) C(omponent) A(nalysis) – PCA. Этот подход хорошо известен нашим исследователям по многочисленным отечественным и переводным публикациям прошлых лет [11, 15-17]. Другой проекционный метод – PLS – P(rojection on) L(atent) S(tructures) (проекция на латентные структуры) – известен в России значительно хуже. В книге приведены примеры применения АМД в различных областях науки и техники. При этом последовательно используется малоизвестный в России пакет программ UNCRAMBLER? фирмы CAMO. Если читатель не обладает этим математическим обеспечением, можно использовать и другие пакеты, например, MatLab, SPSS, SAS и т.д. К тому же сами алгоритмы проекционных методов достаточно просты и подробно описаны в книге. Для их реализации, кроме навыков программирования, необходимо только уметь обращаться с матрицами [12-14]. Поэтому терпеливый читатель может составить свои собственные программы. 

О том, что не вошло в данное издание. 
Учитывая ограниченность во времени, и то, что вся работа переводчика и редактора была основана на чистом энтузиазме, перевести всю книгу целиком на данный момент не удалось. Что же содержится в оригинальном издании и что не вошло в русскую версию? 

  1.  Пропущены некоторые тонкости применения проекционных методов: такие как, способ сбора данных, источники ошибок и т.д. Не все сразу, возможно, работа над переводом будет продолжена. 
  2. Только половина практических примеров переведена, и это, конечно же, жаль, так как именно они демонстрируют всю мощь проекционного подхода. 
  3. Полностью отсутствует большой раздел, посвященный планированию эксперимента. Тема эта очень важная, но в России существует мощная школа, занимающаяся этими вопросами, так что литература на эту тему обширна и легко доступна. 
  4. Отсутствуют главы, посвященные введению в задачи классификации и сравнению различных методов анализа данных. 

Некоторые замечания 
Для решения примеров использовалась программа UNSCRAMBLER? 7.5. Ее демонстрационная версия, а также все исходные данные для примеров, доступны на сайте компании CAMO Process AS по адресу http://www.camo.com

Многие рисунки в книге являются графиками, построенными программой UNSCRAMBLER?. У этой программы нет локализованной русской версии, поэтому все надписи на графиках на английском языке. В конце книги приведен краткий англо- русский словарь терминов. Хочется надеяться, что с его помощью внимательный читатель легко разберется с тем, что написано на графиках и поймет, например, что обозначение PC (Principal Component) на рисунках соответствует русскому ГК (Главная Компонента) и т. п. 

В книге при изложении примеров употребляются исходные названия образцов и переменных. Все эти названия либо английские, либо условные, составленные из английских слов. Они соответствуют обозначениям, использованным в файлах данных, которые включены в качестве составной части в демонстрационную версию. В тексте книги в начале каждого примера дан соответствующий перевод и необходимые пояснения. 

Учитывая то, что русская терминология АМД еще не сложилась, а переводы очень редки, некоторые термины могут вызвать у читателя изумление или неприятие. Что же, давайте это обсудим! Все замечания принимаются с благодарностью по адресу rcs@chph.ras.ru

Большое спасибо к.ф.-м.н. Алексею Померанцеву, старшему научному сотруднику Института химической физики РАН, за поддержку идеи перевода, помощь в редактировании и огромное количество ценных замечаний. 

Благодарю к.г.н. Елену Коробову – ученого секретаря Институт геохимии и аналитической химии им. В.И.Вернадского РАН, д.т.н. Равилю Сафиеву – профессора Российского государственного университета нефти и газа им. И.М.Губкина и Олега Чулюкова – сотрудника компании Люмекс-Центрум за консультации при переводе примеров применения хемометрических методов в специальных областях науки и техники.

Оксана Родионова 

Предисловие к русскому изданию 

Дорогие друзья! 

С огромным удовольствием приветствую всех тех, кто собирается читать эту книгу в русском переводе. Долгое время эта книга была моим любимым детищем. 

Обучение основам той или иной науки, к сожалению, не способствует плодотворному научному творчеству. По-видимому, количество (и главное – качество) собственных научных достижений имеет устойчивую отрицательную корреляцию с числом обученных студентов. Преподавание хемометрики в сто первый раз не так уж и интересно с научной точки зрения. Однако существует серьезная необходимость в качественном обучении основам любой дисциплины, поэтому я и попытался написать хороший учебник для введения в хемометрику. 

Интересно, что сам я получил большое удовольствие от этой попытки, которая основывалась на 15-ти летнем преподавательском опыте. Эта книга на сегодняшний день выдержала пять редакций и изданий. Теперь в ней учтено огромное количество замечаний студентов и коллег, которые прочли ее (либо для самообразования, либо на занятиях), или использовали книгу для преподавания. С их помощью эта книга приобрела такое влияние и значение, которым я горжусь. Очень надеюсь, что русская версия будет иметь такое же значение и поможет вам начать изучение этого чрезвычайно интересного предмета! 

Хочу выразить признательность переводчику этой книги – Сергею Кучерявскому, молодому ученому Алтайского университета, который проделал очень большую и трудную работу. Надеюсь, что опыт, который он приобрел изучая мою книгу, не пропадет и поможет ему достичь значительных научных результатов в новой для него области – анализе многомерных данных. 

Я хотел бы также сказать «BOLSHOI SPASHIBO» моим друзьям – Оксане Родионовой и Алексею Померанцеву за их работу над этой книгой. Уже много лет я сотрудничаю с ними в разных научных областях. Это – совместные научные проекты, конференции, семинары и встречи как за рубежами, так и в дорогой мне России. Но основа, суть наших отношений – это дружба. Поэтому, в 1999 году мы учредили проект «Дружбаmetrics», в рамках которого и появилась русская версия этой книги. Компетентность моих друзей в области хемометрики не вызывает сомнения. Они являются основателями Российского хемометрического общества (РХО) и бескорыстно работают в нем с момента его создания с огромной энергией. 

Для меня является большой честью внести свой вклад в строительство этого профессионального общества. Русский перевод этой книги я посвящаю всем моим друзьям в России. 

Желаю успехов российской хемометрике! 

Ким Эсбенсен

Литература 

  1. K.R. Beeb, R.J. Pell, M.B. Seasholtz, Chemometrics - A Practical Guide. Welley, 1998. 

  2. L. Eriksson, E.Johansson, N. Kettaneh-Wold, S.Wold, Multi- and Megavariate Data Analysis, Umetrics AB, 2001 

  3. Gelagi P, Esbensen K. The start and early history of chemometrics: Selected interviews. Part 1, J. Chemometrics, 4 (1990), 337-354. 

  4. Gelagi P, Esbensen K. The start and early history of chemometrics: Selected interviews. Part 2, J. Chemometrics, 4 (1990), 389-412. 

  5.  A. Hoskuldsson, Prediction methods in Science and Technology, Vol. 1. Basic Theory, Denmark, 1996. 

  6. Lied T. T., Geladi P., Esbensen K.H., Multivariate image regression (MIR): implementa-tion of image PLSR - first forays, J.Chemometrics, 14, 585-599, 2000. 

  7. H.Martens, M. Martens, Multivariate Analysis of Quality, Willey, 1998 

  8. H.Martens, T.N?s, Multivariate Calibration, Willey, 1998 

  9. T.Naes, T. Isaksson, T. Fearn, T.Davies, Multyvariate Calibration and Classification, NIR Publications,2002

  10. P. Thy, K. Esbensen, Seafloor spreading and the ophiolitic sequences of the Troodos complex: A principal component analysis of lava and dike compositions, Journal of Geo-physical research, vol. 98 B7, pp. 11799-11805, 1993. 

  11. С. А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика. Исследование зависимостей: Справочное издание, М.: Финансы и статистика, 1985 

  12. Р. Беллман, Введение в теорию матриц, М.:Наука, 1969 

  13. В.В.Воеводин, Ю.А.Кузнецов, Матрицы и вычисления, М.:Наука, 1984 

  14. Ф.Р. Гельфанд, Лекции по линейной алгебре, М.:Наука, 1966 

  15. Е.З. Демиденко, Линейная и нелинейная регрессия, М.: Финансы и статистика, 1981 

  16. Н. Дрепер, Г. Смит, Прикладной регрессионный анализ, М: Финансы и статистика, 1986 

  17. Дж. Себер, Линейный регрессионный анализ, М.: Мир, 1980


Last modification: 13.11.11