MatLab. Руководство для начинающих
Содержание
ВведениеВ этом пособии рассказывается о применении пакета MatLab для анализа многомерных данных. Этот текст не является учебником по MatLab. В нем приведены только базовые сведения о работе в этой среде, необходимые для реализации основных алгоритмов. Более подробное изложение можно найти здесь. В пособии интенсивно используются понятия и методы матричной алгебры – вектор, матрица, и т.п. Читателям, которые плохо знакомы с этим аппаратом, рекомендуется изучить, или, хотя бы просмотреть, пособие "Матрицы и векторы". Для практического воплощения хемометрических методов используются как специализированные пакеты программ (например, the Unsrambler или SIMCA), так и статистические пакеты общего назначения (например, SPSS или Statistica). Среди средств общего назначения, используемых в хемометрике, особое место занимает пакет MatLab. Его популярность необычайно высока. Это объясняется тем, что MatLab является мощным и универсальным обработки многомерных данных. Сама структура пакета делает его удобным средством для проведения матричных вычислений. Спектр проблем, исследование которых может, осуществлено при помощи MatLab, охватывает: матричный анализ, обработку сигналов и изображений, нейронные сети и многие другие. MatLab — это язык высокого уровня, имеющий открытый код, что дает возможность опытным пользователям разбираться в запрограммированных алгоритмах. Простой встроенный язык программирования позволяет легко создавать собственные алгоритмы. За много лет использования MatLab создано огромное количество функций и ToolBox (пакетов специализированных средств). Самым популярным является пакет PLS ToolBox компании Eigenvector Research, Inc. Многие книги и статьи содержат MatLab коды, позволяющие читателю сразу применить описываемые методы на практике. MatLab прекрасно интегрируется с Microsoft Word и Excel. Российское хемометрическое общество издало учебное пособие, являющееся полезным введением в хемометрические приложения MatLab. Другие материалы по той же теме: 1. Базовые сведения1.1. Рабочая среда MatLabЧтобы запустить программу дважды
щелкните на иконку
Рабочая среда MatLab 6.х немного отличается от рабочей среды предыдущих версий, она имеет более удобный интерфейс для доступа ко многим вспомогательным элементам Рабочая среда MatLab 6.х содержит следующие элементы:
Если в рабочей среде MatLab 6.х отсутствуют некоторые окна, приведенные на рисунке, то следует в меню выбрать соответствующие пункты: , , , , . Команды следует набирать в командном
окне. Символ »,
обозначающий приглашение к вводу
командной строки, набирать не нужно. Для
просмотра рабочей области удобно
использовать полосы скроллинга или
клавиши Home, End,
для перемещения влево или вправо, и PageUp,
PageDown для
перемещения вверх или вниз. Если вдруг
после перемещения по рабочей области
командного окна пропала командная
строка с мигающим курсором, просто
нажмите Важно помнить, что набор любой команды
или выражения должен заканчиваться
нажатием на 1.2. Простейшие вычисленияНаберите в командной строке
Рис. 2 Графическое представление метода главных компонент Что сделала программа MatLab? Сначала
она вычислила сумму
Рис. 3 Графическое представление метода главных компонент 1.3. Эхо командВыполнение каждой команды в MatLab
сопровождается эхом. В приведенном
выше примере — это ответ
Рис. 4 Пример ввода функции ScoresPCA 1.4. Сохранение рабочей среды. MAT файлыСамый простой способ сохранить все
значения переменных — использовать в
меню 1.5. ЖурналВ MatLab имеется возможность
записывать исполняемые команды и
результаты в текстовый файл (вести
журнал работы), который потом можно
прочитать или распечатать из
текстового редактора. Для начала
ведения журнала служит команда
производит следующие действия:
Посмотрите
содержимое файла
1.6. Система помощиОкно справки MatLab появляется
после выбора опции 2. Матрицы2.1. Скаляры, векторы и матрицыВ MatLab можно использовать скаляры, векторы и матрицы. Для ввода скаляра достаточно приписать его значение какой-то переменной, например
Заметим, что MatLab различает
заглавные и прописные буквы, так что
При вводе вектора-столбца элементы разделяют точкой с запятой. Например,
Вводить небольшие по размеру матрицы удобно прямо из командной строки. При вводе матрицу можно рассматривать как вектор-столбец, каждый элемент которого является вектор-строкой.
или матрицу можно трактовать как вектор строку, каждый элемент которой является вектор-столбцом.
2.2. Доступ к элементамДоступ к элементам матриц
осуществляется при помощи двух
индексов — номеров строки и столбца,
заключенных в круглые скобки, например
команда
Также можно осуществлять
выделение блоков матриц при помощи
двоеточия. Например, выделим из матрицы
Если необходимо посмотреть
переменные рабочей среды, в командной
строке необходимо набрать команду
Видно,
что в рабочей среде содержатся один
скаляр ( 2.3. Основные матричные операцииПри использовании матричных операций следует помнить, что для сложения или вычитания матрицы должны быть одного размера, а при перемножении число столбцов первой матрицы обязано равняться числу строк второй матрицы. Сложение и вычитание матриц, так же как чисел и векторов, осуществляется при помощи знаков плюс и минус
а
умножение — знаком звездочка
Умножение
матрицы на число тоже осуществляется
при помощи звездочки, причем умножать на
число можно как справа, так и слева.
Возведение квадратной матрицы в целую
степень производится с использованием
оператора
Проверьте
полученный результат, умножив матрицу 2.4. Создание матриц специального видаЗаполнение прямоугольной
матрицы нулями производится встроенной
функцией
Единичная
матрица создается при помощи функции
Матрица,
состоящая из единиц, образуется в
результате вызова функции
MatLab
предоставляет возможность заполнения
матриц случайными числами. Результатом
функции Функция
2.5. Матричные вычисленияMatLab содержит множество
различных функций для работы с
матрицами. Так, например,
транспонирование матрицы производится
при помощи апострофа
Нахождение обратной матрицы
проводится с помощью функции
Псевдообратную
матрицу можно найти с помощью
функции Более
подробно про обработку матричных данных
можно узнать, если вывести список всех
встроенных функций обработки данных
командой 3. Интегрирование MatLab и ExcelИнтегрирование MatLab и Excel
позволяет пользователю Excel обращаться
к многочисленным функциям MatLab для
обработки данных, различных вычислений
и визуализации результата. Надстройка 3.1. Конфигурирование ExcelПеред тем как настраивать Excel
на совместную работу с MatLab, следует
убедиться, что Excel Link входит в
установленную версию MatLab. В
подкаталоге Обратите внимание, что в Excel
теперь присутствует панель
инструментов Согласованная работа Excel и MatLab
требует еще нескольких установок,
которые приняты в Excel по умолчанию (но
могут быть изменены). В меню 3.2. Обмен данными между MatLab и ExcelЗапустите Excel, проверьте, что проделаны все необходимые настройки так, как описано в предыдущем разделе (MatLab должен быть закрыт). Введите в ячейки с A1 по C3 матрицу, для отделения десятичных знаков используйте точку в соответствии с требованиями Excel.
Выделите на листе данные
ячейки и нажмите кнопку Появляется диалоговое окно Excel
со строкой ввода, предназначенной для
определения имени переменной рабочей
среды MatLab, в которую следует
экспортировать данные из выделенных
ячеек Excel. Введите к примеру,
Проделайте некоторые операции
в MatLab с матрицей Вызов
Результат аналогичен полученному при выполнении команды в среде MatLab. Вернитесь в Excel, сделайте
текущей ячейку A5 и нажмите кнопку Итак, для экспорта матрицы в MatLab следует выделить подходящие ячейки листа Excel, а для импорта достаточно указать одну ячейку, которая будет являться верхним левым элементом импортируемого массива. Остальные элементы запишутся в ячейки листа согласно размерам массива, переписывая содержащиеся в них данные, поэтому следует соблюдать осторожность при импорте массивов. Вышеописанный подход является
самым простым способом обмена
информацией между приложениями —
исходные данные содержатся в Excel, затем
экспортируются в MatLab, обрабатываются
там некоторым образом и результат
импортируется в Excel. Пользователь
переносит данные при помощи кнопок
панели инструментов 4. Программирование4.1. М-файлыРабота из командной строки MatLab
затрудняется, если требуется вводить
много команд и часто их изменять.
Ведение дневника при помощи команды Раскройте меню
М-файлы в MatLab бывают двух типов: файл-программы (Script M-Files), содержащие последовательность команд, и файл-функции, (Function M-Files), в которых описываются функции, определяемые пользователем. 4.2. Файл-программаНаберите в редакторе команды, приводящие к построению двух графиков на одном графическом окне
Сохраните теперь файл с именем
Команды файл-программы осуществляют вывод в командное окно. Для подавления вывода следует завершать команды точкой с запятой. Если при наборе сделана ошибка и MatLab не может распознать команду, то происходит выполнение команд до неправильно введенной, после чего выводится сообщение об ошибки в командное окно. Очень удобной возможностью,
предоставляемой редактором М-файлов,
является выполнение части команд.
Закройте графическое окно Figure 1.
Выделите при помощи мыши, удерживая
левую кнопку, или клавишами со
стрелками при нажатой клавише Отдельные блоки М-файла можно снабжать комментариями, которые пропускаются при выполнении, но удобны при работе с М-файлом. Комментарии начинаются со знака процента и автоматически выделяются зеленым цветом, например:
Открытие существующего М-файла
производится при помощи пункта 4.3. Файл-функцияРассмотренная выше файл-программа является только последовательностью команд MatLab, она не имеет входных и выходных аргументов. Для использования численных методов и при программировании собственных приложений в MatLab необходимо уметь составлять файл-функции, которые производят необходимые действия с входными аргументами и возвращают результат действия в выходных аргументах. Разберем несколько простых примеров, позволяющих понять работу с файл-функциями. Проводя предобработку данных многомерного анализа хемометрики часто применяет центрирование. Имеет смысл один раз написать файл-функцию, а потом вызывать его всюду, где необходимо производить центрирование. Откройте в редакторе М-файлов новый файл и наберите
Слово Теперь созданную функцию
можно использовать так же, как и
встроенные Можно написать файл-функции с несколькими входными аргументами, которые размещаются в списке через запятую. Можно также создавать и функции, возвращающие несколько значений. Для этого выходные аргументы добавляются через запятую в список выходных аргументов, а сам список заключается в квадратные скобки. Хорошим примером является функция, переводящая время, заданное в секундах, в часы, минуты и секунды.
При вызове файл-функций с несколькими выходными аргументами результат следует записывать в вектор соответствующей длины. 4.4 Создание графикаMatLab имеет широкие возможности для графического изображения векторов и матриц, а также для создания комментариев и печати графиков. Дадим описание несколько важных графических функций. Функция
Программа построила график
зависимости, который отображается в
окне
MatLab автоматически присваивает каждому графику свой цвет (исключая случаи, когда это делает пользователь), что позволяет различать наборы данных. Команда
4.5 Печать графиковПункт 5. Примеры программВ этом разделе приведены наиболее употребительные алгоритмы, используемые при анализе многомерных данных. Рассмотрены как простейшие методы преобразования данных центрирование и шкалирование, так и алгоритмы для анализа данных — PCA, PLS. 5.1. Центрирование и шкалированиеЧасто при анализе требуется преобразовать исходные данные. Наиболее используемыми методами преобразования данных выступают центрирование и шкалирование каждой переменной на стандартное отклонение. В разделе 4.3 приводился код функции для центрирования матрицы. Поэтому ниже показан только код функции, которая шкалирует данные. Обратите внимание, что исходная матрица должна быть центрирована
5.2. SVD/PCAНаиболее популярным способом сжатия данных в многомерном анализе является метод главных компонент (PCA). С математической точки зрения PCA — это декомпозиция исходной матрицы X, т.е. представление ее в виде произведения двух матриц T и P X = TPt + E Матрица T называется матрицей счетов (scores) , матрица P — матрицей нагрузок (loadings), а E — матрицей остатков. Простейший
способ найти матрицы T и P —
использовать SVD
разложение через стандартную
функцию MatLab, называемую
5.3 PCA/NIPALSДля построения PCA счетов и нагрузок, используется рекуррентный алгоритм NIPALS, который на каждом шагу вычисляет одну компоненту. Сначала исходная матрица X преобразуется (как минимум – центрируется; см. раздел 4.3) и превращается в матрицу E0, a=0. Далее применяют следующий алгоритм.
После вычисления очередной (a-ой) компоненты, полагаем ta=t и pa=p. Для получения следующей компоненты надо вычислить остатки Ea+1 = Ea – t pt и применить к ним тот же алгоритм, заменив индекс a на a+1. Код
алгоритма NIPALS может быть написан и
самими читателями, в данном же пособии
авторы приводят свой вариант. При
расчете PCA, можно вводить число главных
компонент (переменная
О вычислении PCA с помощью надстройки Chemometrics рассказано в пособии Проекционные методы в системе Excel. 5.4 PLS1Самым популярным способом для многомерной калибровки является метод проекции на латентные структуры (PLS). В этом методе проводится одновременная декомпозиция матрицы предикторов X и матрицы откликов Y: X=TPt+E Y=UQt+F T=XW(PtW)–1 Проекция строится согласованно – так, чтобы максимизировать корреляцию между соответствующими векторами X-счетов ta и Y-счетов ua. Если блок данных Y включает несколько откликов (т.е. K>1), можно построить две проекции исходных данных – PLS1 и PLS2. В первом случае для каждого из откликов yk строится свое проекционное подпространство. При этом и счета T (U) и нагрузки P (W, Q) , зависят от того, какой отклик используется. Этот подход называется PLS1. Для метода PLS2 строится только одно проекционное пространство, которое является общим для всех откликов. Детальное описание метода PLS приведено в этой книге Для построения PLS1 счетов и нагрузок, используется рекуррентный алгоритм. Сначала исходные матрицы X и Y центрируют
и они превращаются в матрицу E0 и вектор f0, a=0. Далее к ним применяет следующий алгоритм
После вычисления очередной (a-ой) компоненты, полагаем ta=t и pa=p. Для получения следующей компоненты надо вычислить остатки Ea+1 = Ea – t pt и применить к ним тот же алгоритм, заменив индекс a на a+1. Приведем код этого алгоритма, взятый из книги
О вычислении PLS1 с помощью надстройки Chemometrics рассказано в пособии Проекционные методы в системе Excel. 5.5 PLS2Для PLS2 алгоритм выглядит следующим образом. Сначала исходные матрицы X и Y преобразуют (как минимум – центрируют; см. разделе 4.3), и они превращаются в матрицы E0 и F0, a=0. Далее к ним применяет следующий алгоритм.
После вычисления очередной (a-ой) PLS2 компоненты надо положить: ta=t, pa=p, wa=w, ua=u и qa=q. Для получения следующей компоненты надо вычислить остатки Ea+1 = Ea – t pt и Fa+1 = Fa – tqt и применить к ним тот же алгоритм, заменив индекс a на a+1. Приведем код, которой также заимствован из из книги.
О вычислении PLS2 с помощью надстройки Chemometrics рассказано в пособии Проекционные методы в системе Excel. ЗаключениеMatLab это это очень популярный инструмент для анализа данных. По данным опроса, проведенного на сайте www.chemometrics.it его используют до трети всех исследователей, тогда как программа the Unsrambler применяется только 16% ученых. Главным недостатком MatLab являются его высокая цена. Кроме того, MatLab хорош для рутинных расчетов. Отсутствие интерактивности делает его неудобным при выполнении поисковых, исследовательских расчетов для новых, неисследованных массивов данных. Проблему цены решает альтернативное свободно-распространяемое математическое обеспечение Chemometrics - специальная надстройка для системы Microsoft Excel. Подробнее о ней рассказано в пособии Проекционные методы в системе Excel. |