Метод головних компонентів (мгк): основні формули та процедури. Застосування методу основних компонентів для обробки багатовимірних статистичних даних Аналіз основних компонентів

Компонентний аналіз відноситься до багатовимірних методів зниження розмірності. Він містить один спосіб - спосіб основних компонентів. Головні компоненти є ортогональною системою координат, у якій дисперсії компонент характеризують їх статистичні властивості.

Враховуючи, що об'єкти дослідження в економіці характеризуються великою, але кінцевою кількістю ознак, вплив яких зазнає впливу великої кількості випадкових причин.

Обчислення основних компонент

Першою головною компонентою Z1 досліджуваної системи ознак Х1, Х2, Х3, Х4,…, Хn називається така центровано-нормована лінійна комбінація цих ознак, яка серед інших центровано-нормованих лінійних комбінацій цих ознак має дисперсію найбільш мінливу.

Як другий головний компонент Z2 ми будемо брати таку центровано - нормовану комбінацію цих ознак, яка:

не корельована з першою головною компонентою,

не корельовані з першою головною компонентою, ця комбінація має найбільшу дисперсію.

K-ою головною компонентою Zk (k=1…m) ми називатимемо таку центровано - нормовану комбінацію ознак, яка:

не корельована з до-1 попередніми головними компонентами,

серед усіх можливих комбінацій вихідних ознак, які не

не корельовані з до-1 попередніми головними компонентами, ця комбінація має найбільшу дисперсію.

Введемо ортогональну матрицю U і перейдемо від змінних Х до змінних Z, причому

Вектор вибирається, щоб дисперсія була максимальною. Після одержання вибирається т. о., щоб дисперсія була максимальною за умови, що не корелюється з і т. д.

Так як ознаки виміряні в непорівнянних величинах, то зручніше перейти до центровано-нормованих величин. Матрицю вихідних центровано-нормованих значень ознак знайдемо із співвідношення:

де - незміщена, заможна та ефективна оцінка математичного очікування,

Незміщена, заможна та ефективна оцінка дисперсії.

Матриця спостережених значень вихідних ознак наведено у Додатку.

Центрування та нормування здійснено за допомогою програми "Stadia".

Так як ознаки центровані та нормовані, то оцінку кореляційної матриці можна зробити за формулою:


Перед тим, як проводити компонентний аналіз, проведемо аналіз незалежності вихідних ознак.

Перевіряє значущість матриці парних кореляцій за допомогою критерію Вілкса.

Висуваємо гіпотезу:

Н0: незначна

Н1: значуща

125,7; (0,05;3,3) = 7,8

т.к > , то гіпотеза Н0 відкидається і матриця є значимою, отже, має сенс проводити компонентний аналіз.

Перевіримо гіпотезу про діагональність коварійної матриці

Висуваємо гіпотезу:

Будуємо статистику, розподілена за законом із ступенями свободи.

123,21, (0,05;10) =18,307

т.к >, то гіпотеза Н0 відкидається і має сенс проводити компонентний аналіз.

Для побудови матриці факторних навантажень потрібно визначити власні числа матриці, вирішивши рівняння.

Використовуємо для цієї операції функцію eigenvals системи MathCAD, яка повертає власні числа матриці:

Т.к. вихідні дані є вибірку з генеральної сукупності, ми отримали не власні числа і власні вектора матриці, які оцінки. Нас цікавитиме наскільки “добре” зі статистичної точки зору вибіркові характеристики описують відповідні параметри для генеральної сукупності.

Довірчий інтервал для i-го власного числа шукається за такою формулою:

Довірчі інтервали для власних чисел в результаті набувають вигляду:

Оцінка значення кількох власних чисел потрапляє у довірчий інтервал інших власних чисел. Необхідно перевірити гіпотезу про кратність власних чисел.

Перевірка кратності здійснюється за допомогою статистики

де r-кількість кратних коренів.

Ця статистика у разі справедливості розподілена згідно із законом із числом ступенів свободи. Висунемо гіпотези:

Оскільки гіпотеза відкидається, тобто власні числа і не кратні.

Оскільки гіпотеза відкидається, тобто власні числа і не кратні.

Необхідно виділити основні компоненти лише на рівні інформативності 0,85. Міра інформативності показує яку частину чи частку дисперсії вихідних ознак становлять k-перших головних компонент. Мірою інформативності називатимемо величину:

На заданому рівні інформативності виділено три основні компоненти.

Запишемо матрицю =

Для отримання нормалізованого вектора переходу від вихідних ознак до основних компонентів необхідно вирішити систему рівнянь: де - відповідне власне число. Після отримання рішення системи необхідно потім нормувати отриманий вектор.

Для вирішення цієї задачі скористаємося функцією eigenvec системи MathCAD, яка повертає нормований вектор для відповідного власного числа.

У нашому випадку перших чотирьох головних компонентів достатньо для досягнення заданого рівня інформативності, тому матриця U (матриця переходу від вихідного базису до базису з власних векторів)

Будуємо матрицю U, стовпцями якої є власні вектори:

Матриця вагових коефіцієнтів:

Коефіцієнти матриці А є коефіцієнтами кореляції між центровано - нормованими вихідними ознаками та ненормованими головними компонентами, і показують наявність, силу та напрямок лінійного зв'язку між відповідними вихідними ознаками та відповідними головними компонентами.

У цій статті я хотів би розповісти про те, як саме працює метод аналізу головних компонент (PCA – principal component analysis) з точки зору інтуїції, що стоїть за її математичним апаратом. Найбільш просто, але докладно.

Математика взагалі дуже гарна та витончена наука, але часом її краса ховається за купою шарів абстракції. Показати цю красу найкраще на простих прикладах, які, так би мовити, можна покрутити, пограти і помацати, тому що врешті-решт все виявляється набагато простіше, ніж здається на перший погляд найголовніше зрозуміти і уявити.

В аналізі даних, як і в будь-якому іншому аналізі, часом буває незайвим створити спрощену модель, що максимально точно описує реальний стан справ. Часто буває так, що ознаки досить сильно залежать одна від одної та їх одночасна наявність надмірно.

Наприклад, витрата палива в нас вимірюється в літрах на 100 км, а в США в милях на галон. На перший погляд, величини різні, але насправді вони залежать один від одного. У милі 1600км, а галоні 3.8л. Одна ознака строго залежить від іншої, знаючи одну, знаємо й іншу.

Але набагато частіше буває так, що ознаки залежать одна від одної не так строго і (що важливо!) не так очевидно. Об'єм двигуна в цілому позитивно впливає на розгін до 100 км/год, але це не завжди. А ще може виявитися, що з урахуванням не видимих ​​на перший погляд факторів (типу поліпшення якості палива, використання легших матеріалів та інших сучасних досягнень) рік автомобіля не сильно, але теж впливає на його розгін.

Знаючи залежності та їх силу, ми можемо висловити кілька ознак через одну, злити докупи, так би мовити, і працювати вже з більш простою моделлю. Звичайно, уникнути втрат інформації, швидше за все, не вдасться, але мінімізувати її нам допоможе якраз метод PCA.

Висловлюючись суворіше, даний метод апроксимує n-розмірну хмару спостережень до еліпсоїда (теж n-вимірного), півосі якого і будуть майбутніми головними компонентами. І за проекції такі осі (зниженні розмірності) зберігається найбільша кількістьінформації.

Крок 1. Підготовка даних

Тут для простоти прикладу я не братиму реальні навчальні датасети на десятки ознак і сотні спостережень, а зроблю свій максимально простий іграшковий приклад. 2 ознаки та 10 спостережень буде цілком достатньо для опису того, що, а головне – навіщо, відбувається у надрах алгоритму.

Згенеруємо вибірку:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ] [2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 129 003911 18.0998018 ]]

У цій вибірці у нас є дві ознаки, що сильно корелюють один з одним. За допомогою алгоритму PCA ми зможемо легко знайти ознаку-комбінацію і, ціною частини інформації, висловити обидві ці ознаки одним новим. Отже, розбираймося!

Для початку трохи статистики. Згадаємо, що з опису випадкової величини використовуються моменти. Потрібні нам – матюки. очікування та дисперсія. Можна сміливо сказати, що мат. очікування - це "центр тяжкості" величини, а дисперсія - це її "розміри". Грубо кажучи, матюки. очікування задає становище випадкової величини, а дисперсія – її розмір.

Сам процес проектування на вектор ніяк не впливає на значення середніх, тому що для мінімізації втрат інформації наш вектор має проходити через центр нашої вибірки. Тому немає нічого страшного, якщо ми відцентруємо нашу вибірку – лінійно зрушимо її так, щоб середні значення ознак дорівнювали 0. Це дуже спростить наші подальші обчислення (хоча, варто відзначити, що можна обійтися і без центрування).
Оператор, зворотний зсуву дорівнюватиме вектору початкових середніх значень – він знадобиться відновлення вибірки у вихідної розмірності.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Mean vector: ", m OUT: (array([ -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5]), array([-8.44644233, -8.32845585, -4.93314426, 2.4.6] 13394, 1.86599939, 7.00558491, 4.21440647, 9.59501658])) Mean vector: (5.5, 10.314393916)

Дисперсія ж залежить від порядків значень випадкової величини, тобто. чутлива до масштабування. Тому якщо одиниці виміру ознак сильно відрізняються своїми порядками, рекомендується стандартизувати їх. У нашому випадку значення не сильно відрізняються в порядках, так що для простоти прикладу ми не виконуватимемо цю операцію.

Крок 2. Коварійна матриця

У випадку з багатовимірною випадковою величиною (випадковим вектором) положення центру так само буде мат. очікуваннями її проекцій на осі. А ось для опису її форми вже недостатньо тільки її дисперсій по осях. Подивіться ці графіки, в усіх трьох випадкових величин однакові мат.ожидания і дисперсії, які проекції на осі загалом виявляться однакові!


Для опису форми випадкового вектора необхідна матриця коваріації.

Це матриця, яка має (i,j)-Елемент є кореляцією ознак (Xi, Xj). Згадаймо формулу коваріації:

У нашому випадку вона спрощується, тому що E(X i) = E(X j) = 0:

Зауважимо, що коли X i = X j:

і це справедливо для будь-яких випадкових величин.

Таким чином, у нашій матриці по діагоналі будуть дисперсії ознак (т.к. i = j), а в інших осередках – коваріації відповідних пар ознак. А в силу симетричності підступу матриця теж буде симетрична.

Примітка:Коваріаційна матриця є узагальненням дисперсії у разі багатовимірних випадкових величин – вона як і визначає форму (розкид) випадкової величини, як і дисперсія.

І справді, дисперсія одновимірної випадкової величини – це матриця розміру 1x1, в якій її єдиний член заданий формулою Cov(X,X) = Var(X).

Отже, сформуємо коваріаційну матрицю Σ для нашої вибірки. Для цього порахуємо дисперсії X i і X j, а також їхню коваріацію. Можна скористатися вищенаписаною формулою, але якщо ми озброїлися Python'ом, то гріх не скористатися функцією numpy.cov(X). Вона приймає на вхід список всіх ознак випадкової величини і повертає її матрицю коварації і де X - n-мірний випадковий вектор (n-кількість рядків). Функція відмінно підходить і для розрахунку незміщеної дисперсії, і для коваріації двох величин, і для складання матриці.
(Нагадаю, що в Python матриця представляється масивом-стовпцем масивів-рядків.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Variance of X: ", np.cov(Xcentered) print "Variance of Y: ", np.cov(Xcentered) print "Covariance X and Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]] Variance of X: 9.1666666667 00281124

Крок 3. Власні вектори та значення (айгенпари)

О "кей, ми отримали матрицю, що описує форму нашої випадкової величини, з якої ми можемо отримати її розміри по x і y (тобто X 1 і X 2), а також зразкову форму на площині. Тепер треба знайти такий вектор (У нашому випадку тільки один), при якому максимізувався б розмір (дисперсія) проекції нашої вибірки на нього.

Примітка:Узагальнення дисперсії на вищі розмірності - підступна матриця, і ці два поняття еквівалентні. При проекції на вектор максимізується дисперсія проекції, при проекції простору великих порядків – вся її ковариационная матриця.

Отже, візьмемо одиничний вектор на який проектуватимемо наш випадковий вектор X. Тоді проекція на нього дорівнюватиме v T X. Дисперсія проекції на вектор буде відповідно дорівнює Var(v T X). Загалом у векторній формі (для центрованих величин) дисперсія виражається так:

Відповідно, дисперсія проекції:

Легко помітити, що дисперсія максимізується за максимального значення v T Σv. Тут нам допоможе ставлення Релея. Не вдаючись надто глибоко в математику, просто скажу, що відносини Релея мають спеціальний випадок для коваріаційних матриць:

Остання формула має бути знайома за темою розкладання матриці на власні вектори та значення. x є власним вектором, а - власним значенням. Кількість власних векторів та значень дорівнюють розміру матриці (і значення можуть повторюватися).

До речі, у англійськоювласні значення та вектори називаються eigenvaluesі eigenvectorsвідповідно.
Мені здається, це звучить набагато красивіше (і стисло), ніж наші терміни.

Таким чином, напрямок максимальної дисперсії у проекції завжди збігається з айгенвектором, що має максимальне власне значення, що дорівнює величині цієї дисперсії.

І це справедливо також для проекцій на більшу кількість вимірювань – дисперсія (коваріаційна матриця) проекції на m-мірний простір буде максимальною у напрямку m айгенвекторів, що мають максимальні власні значення.

Розмірність нашої вибірки дорівнює двом і кількість айгенвекторів у неї, відповідно, 2. Знайдемо їх.

У бібліотеці numpy реалізовано функцію numpy.linalg.eig(X), де X - Квадратна матриця. Вона повертає 2 масиви - масив айгензначень і масив айгенвекторів (вектори-стовпці). І вектори нормовані – їх довжина дорівнює 1. Саме те, що треба. Ці 2 вектори задають новий базис для вибірки, такий, що його осі збігаються з півосями апроксимуючого еліпса нашої вибірки.



На цьому графіку ми апроксимували нашу вибірку еліпсом з радіусами в 2 сигми (тобто він повинен містити в собі 95% всіх спостережень – що ми тут і спостерігаємо). Я інвертував більший вектор (функція eig(X) направляла його у зворотний бік) – нам важливий напрямок, а не орієнтація вектора.

Крок 4. Зниження розмірності (проекція)

Найбільший вектор має напрямок, схожий на лінію регресії і спроектувавши на нього нашу вибірку ми втратимо інформацію, порівнянну із сумою залишкових членів регресії (тільки відстань тепер евклідова, а не дельта по Y). У нашому випадку залежність між ознаками дуже сильна, тому втрата інформації буде мінімальною. «Ціна» проекції – дисперсія за меншим айгенвектором – як видно з попереднього графіка, дуже невелика.

Примітка:діагональні елементи ковариационной матриці демонструють дисперсії по початковому базису, та її власні значення – по новому (по основним компонентам).

Часто потрібно оцінити обсяг втраченої (і збереженої) інформації. Найзручніше уявити у відсотках. Ми беремо дисперсії по кожній осі і ділимо на загальну суму дисперсій по осях (тобто суму всіх власних чисел підступної матриці).
Таким чином, наш більший вектор описує 45.994/46.431*100% = 99.06%, а менший, відповідно, приблизно 0.94%. Відкинувши менший вектор та спроектувавши дані на більший, ми втратимо менше 1% інформації! Відмінний результат!

Примітка:Насправді, здебільшого, якщо сумарна втрата інформації становить трохи більше 10-20%, можна спокійно знижувати розмірність.

Для проведення проекції, як згадувалося раніше на кроці 3, треба провести операцію v T X (вектор повинен бути довжини 1). Або якщо у нас не один вектор, а гіперплощина, то замість вектора v T беремо матрицю базисних векторів V T . Отриманий вектор (або матриця) буде масивом проекцій спостережень.

V = (-vecs, -vecs) Xnew = dot (v, Xcentered) print Xnew OUT: [-9.56404107 -9.02021624 -5.52974822 -2.96481262 0.68933859 0.743433 5.3212742 10.59672425]

dot(X,Y)- почленний твір (так ми перемножуємо вектори та матриці в Python)

Неважко помітити, що значення проекцій відповідають картині на попередньому графіку.

Крок 5. Відновлення даних

З проекцією зручно працювати, будувати на її основі гіпотези та розробляти моделі. Не завжди отримані основні компоненти матимуть явний, зрозумілий сторонній людині, сенс. Іноді корисно розкодувати, наприклад, виявлені викиди, щоб подивитися, що за ними стоять.

Це дуже просто. У нас є вся необхідна інформація, а саме координати базисних векторів у вихідному базисі (вектори, на які ми проектували) та вектор середніх (для скасування центрування). Візьмемо, наприклад, найбільше значення: 10.596 і розкодуємо його. Для цього помножимо його праворуч на транспонований вектор і додамо вектор середніх, або в загальному вигляді для всієї вибоки: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Restored: [ 10.13864361 19.84190935] Original: [ 10. 19.9094

Різниця невелика, але вона є. Адже втрачена інформація не відновлюється. Проте, якщо простота важливіша за точність, відновлене значення відмінно апроксимує вихідне.

Замість висновку – перевірка алгоритму

Отже, ми розібрали алгоритм, показали як він працює на іграшковому прикладі, тепер залишилося лише порівняти його з PCA, реалізованим у sklearn – адже будемо користуватися саме ним.

З sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Параметр n_componentsвказує на кількість вимірювань, на які проводитиметься проекція, тобто до скільки вимірювань ми хочемо знизити наш датасет. Іншими словами - це n айгенвекторів з найбільшими власними числами. Перевіримо результат зниження розмірності:

Print "Our reduced X: n", Xnew print "Sklearn reduced X: n", XPCA reduced X: n. 92 7.39307974 5.3212742 10.59672425] Sklearn reduced X: [[ -9.56404106 ] [-9.02021625] [-5.52974822] [-2.96481262] [0.68933859] [0.74406645] [2.33433492] [7.39307974] [7.2]

Ми повертали результат як матрицю векторних стовпців спостережень (це більш канонічний вигляд з точки зору лінійної алгебри), PCA в sklearn повертає вертикальний масив.

В принципі, це не критично, просто варто відзначити, що в лінійній алгебрі канонічно записувати матриці через вектор-стовпці, а в аналізі даних (та інших пов'язаних з БД областях) спостереження (транзакції, записи) зазвичай записуються рядками.

Перевіримо та інші параметри моделі – функція має ряд атрибутів, що дозволяють отримати доступ до проміжних змінних:

Вектор середніх: mean_
- Вектор(матриця) проекції: components_
- Дисперсії осей проекції (вибіркова): explained_variance_
- частка інформації (частка від загальної дисперсії): explained_variance_ratio_

Примітка: explained_variance_ показує вибірковудисперсію, тоді як функція cov() для побудови коварійної матриці розраховує незміщенідисперсії!

Порівняємо отримані нами значення зі значеннями бібліотечної функції.

Print "Mean vector: ", pca.mean_, m print "Projection: ", pca.components_, v print "Explained variance ratio: ", pca.explained_variance_ratio_, l/sum(l) OUT: Mean vector: [ 5.5 10.314393 (5.5, 10.314393916) Projection: [[0.43774316 0.89910006]] (0.43774316434772387, 0.89910006232167594) Explained varian5 0918 Explained variance ratio: [0.99058588] 0.990585881238

Єдина відмінність – у дисперсіях, але як ми вже згадували, ми використовували функцію cov(), яка використовує незміщену дисперсію, тоді як атрибут explained_variance_ повертає вибіркову. Вони відрізняються лише тим, що перша для отримання мат. очікування ділить на (n-1), а друга – на n. Легко перевірити, що 45.99 ∙ (10 – 1) / 10 = 41.39.

Усі інші значення збігаються, що означає, що наші алгоритми є еквівалентними. І насамкінець зауважу, що атрибути бібліотечного алгоритму мають меншу точність, оскільки він, напевно, оптимізований під швидкодію, або просто для зручності округляє значення (або у мене якісь глюки).

Примітка:бібліотечний метод автоматично проектує на осі, що максимізують дисперсію. Це не завжди раціонально. Наприклад, цьому малюнку неакуратне зниження розмірності призведе до того що, що класифікація стане неможлива. Проте проекція на менший вектор успішно знизить розмірність та збереже класифікатор.

Отже, ми розглянули принципи роботи алгоритму PCA та його реалізації у sklearn. Я сподіваюся, ця стаття була досить зрозумілою тим, хто тільки починає знайомство з аналізом даних, а також хоч трохи інформативною для тих, хто добре знає даний алгоритм. Інтуїтивне уявлення вкрай корисне для розуміння того, як працює метод, а розуміння дуже важливе для правильного налаштування обраної моделі. Дякую за увагу!

PS:Прохання не лаяти автора за можливі неточності. Автор сам у процесі знайомства з дата-аналізом і хоче допомогти таким же, як він у процесі освоєння цієї дивовижної галузі знань! Але конструктивна критика та різноманітний досвід усіляко вітаються!

Метод основних компонент

Метод основних компонент(англ. Principal component analysis, PCA ) - один з основних способів зменшити розмірність даних, втративши найменшу кількість інформації. Винайдений К. Пірсон (англ. Karl Pearson ) у р. Застосовується у багатьох галузях, як-от розпізнавання образів , комп'ютерний зір , стиск даних тощо. п. Обчислення основних компонентів зводиться до обчислення власних векторів та власних значень ковариационной матриці вихідних даних. Іноді метод головних компонентів називають перетворенням Кархунена-Лоева(англ. Karhunen-Loeve) або перетворенням Хотеллінга (англ. Hotelling transform). Інші способи зменшення розмірності даних - це метод незалежних компонентів, багатовимірне шкалювання, а також численні нелінійні узагальнення: метод головних кривих і різноманіття, метод пружних карт, пошук найкращої проекції (англ. Projection Pursuit), нейромережевые методи «вузького горла», та інших.

Формальна постановка задачі

Завдання аналізу основних компонентів, має, як мінімум, чотири базові версії:

  • апроксимувати дані лінійними різноманіттями меншої розмірності;
  • знайти підпростори меншої розмірності, в ортогональній проекції на які розкид даних (тобто середньоквадратичне відхилення від середнього значення) максимальний;
  • знайти підпростори меншої розмірності, в ортогональній проекції на які середньоквадратична відстань між точками максимально;
  • для даної багатовимірної випадкової величини побудувати таке ортогональне перетворення координат, що в результаті кореляції між окремими координатами обернуться в нуль.

Перші три версії оперують кінцевими множинами даних. Вони еквівалентні і не використовують жодної гіпотези щодо статистичного породження даних. Четверта версія оперує випадковими величинами. Кінцеві множини з'являються тут як вибірки з даного розподілу, а вирішення трьох перших завдань - як наближення до «справжнього» перетворення Кархунена-Лоева. При цьому виникає додаткове і не цілком очевидне питання про точність цього наближення.

Апроксимація даних лінійними різноманіттями

Ілюстрація до знаменитої роботи К. Пірсона (1901): дано крапки на площині, - відстань від до прямої. Шукається пряма , що мінімізує суму

Метод головних компонентів починався із завдання найкращої апроксимації кінцевої множини точок прямими і площинами (К. Пірсон, 1901). Дана кінцева безліч векторів. Для кожного серед усіх - мірних лінійних різноманіття в знайти таке , що сума квадратів ухилень від мінімальна:

,

де - евклідова відстань від точки до лінійного різноманіття. Будь-яке - мірне лінійне різноманіття може бути задане як безліч лінійних комбінацій , де параметри пробігають речовинну пряму , а - ортонормований набір векторів

,

де евклідова норма, - евклідовий скалярний твір, або в координатній формі:

.

Розв'язання задачі апроксимації для дається набором вкладених лінійних різноманітностей, . Ці лінійні різноманіття визначаються ортонормованим набором векторів (векторами основних компонентів) і вектором. Вектор шукається як вирішення задачі мінімізації для :

.

Вектори головних компонентів можуть бути знайдені як рішення однотипних задач оптимізації :

1) централізуємо дані (віднімаємо середнє): . Тепер; 2) знаходимо першу головну компоненту як розв'язання задачі; . Якщо рішення не єдине, то вибираємо одне з них. 3) Віднімаємо з даних проекцію першу головну компоненту: ; 4) знаходимо другу головну компоненту як розв'язання задачі. Якщо рішення не єдине, то вибираємо одне з них. … 2k-1) Віднімаємо проекцію на -ю головну компоненту (нагадаємо, що проекції на попередні основні компоненти вже віднято): ; 2k) знаходимо k-ю головнукомпоненту як розв'язання задачі: . Якщо рішення не єдине, то вибираємо одне з них. …

На кожному етапі віднімаємо проекцію на попередню головну компоненту. Знайдені вектори ортонормовані просто в результаті розв'язання описаної задачі оптимізації, проте щоб не дати помилкам обчислення порушити взаємну ортогональність векторів головних компонентів, можна включати умови завдання оптимізації.

Неєдиність у визначенні крім тривіального свавілля у виборі знака (і вирішують те саме завдання) може бути більш істотною і відбуватися, наприклад, з умов симетрії даних. Остання головна компонента - одиничний вектор, ортогональний всім попереднім.

Пошук ортогональних проекцій з найбільшим розсіюванням

Перша головна компонента максимізує вибіркову дисперсію проекції даних

Нехай нам дано центрований набір векторів даних (середнє арифметичне значення дорівнює нулю). Завдання - знайти таке ортогональне перетворення на нову систему координат , котрій були б вірні такі условия:

Теорія сингулярного розкладання була створена Дж. Дж. Сільвестр (англ. James Joseph Sylvester ) у м. та викладена у всіх докладних посібникахз теорії матриць.

Простий ітераційний алгоритм сингулярного розкладання

Основна процедура - пошук найкращого наближення довільної матриці матрицею виду (де - мірний вектор, а - мірний вектор) методом найменших квадратів:

Вирішення цієї задачі дається послідовними ітераціями за явними формулами. При фіксованому векторі значення, що доставляють мінімум формі, однозначно і явно визначаються з рівностей:

Аналогічно, при фіксованому векторі визначаються значення:

B як початкове наближення вектора візьмемо випадковий вектор одиничної довжини, обчислюємо вектор , далі для цього вектора обчислюємо вектор і т. д. Кожен крок зменшує значення . Як критерій зупинки використовується трохи відносного зменшення значення мінімізованого функціоналу за крок ітерації () або трохи самого значення.

У результаті матриці отримали найкраще наближення матрицею виду (тут верхнім індексом позначений номер наближення). Далі, з матриці віднімаємо отриману матрицю і для отриманої матриці ухилень знову шукаємо найкраще наближення цього ж виду і т. д., поки, наприклад, норма не стане достатньо малою. Через війну отримали ітераційну процедуру розкладання матриці як суми матриць рангу 1, тобто . В результаті отримана апроксимація сингулярних чисел і сингулярних векторів (правих - і лівих - ).

До переваг цього алгоритму відноситься його виняткова простота і можливість майже без змін перенести його на дані з пробілами, а також зважені дані.

Існують різні модифікації базового алгоритму, що покращують точність та стійкість. Наприклад, вектори головних компонент при різних повинні бути ортогональні «по побудові», проте при великій кількості ітерації (велика розмірність, багато компонентів) малі відхилення від ортогональності накопичуються і може знадобитися спеціальна корекція на кожному кроці, що забезпечує його ортогональність раніше знайденим головним компонентам.

Сингулярне розкладання тензорів та тензорний метод головних компонент

Часто вектор даних має додаткову структуру прямокутної таблиці (наприклад, плоске зображення) чи навіть багатовимірної таблиці - тобто тензора : , . У цьому випадку також ефективно застосовувати сингулярне розкладання. Визначення, основні формули та алгоритми переносяться практично без змін: замість матриці даних маємо -індексну величину, де перший індекс -номер точки (тензора) даних.

Основна процедура - пошук найкращого наближення тензора тензором виду (де - мірний вектор ( - число точок даних), - вектор розмірності при ) методом найменших квадратів:

Вирішення цієї задачі дається послідовними ітераціями за явними формулами. Якщо задані всі вектори-співмножники крім одного , то цей визначається явно з достатніх умов мінімуму.

B як початкове наближення векторів () візьмемо випадкові вектори одиничної довжини, обчислимо вектор , далі для цього вектора і даних векторів обчислюємо вектор і т. д. (циклічно перебираючи індекси) Кожен крок зменшує значення . Алгоритм, мабуть, сходиться. Як критерій зупинки використовується трохи відносного зменшення значення мінімізованого функціоналу за цикл або трохи самого значення. Далі, з тензора віднімаємо отримане наближення і для залишку знову шукаємо найкраще наближення цього виду і т. д., поки, наприклад, норма чергового залишку не стане достатньо малою.

Це багатокомпонентне сингулярне розкладання (тензорний метод головних компонент) успішно застосовується для обробки зображень, відеосигналів, і, ширше, будь-яких даних, що мають табличну або тензорну структуру.

Матриця перетворення до основних компонентів

Матриця перетворення даних до основних компонентів складається з векторів основних компонентів, розташованих у порядку зменшення своїх значень:

( означає транспонування),

Тобто, матриця є ортогональною.

Більшість варіації даних буде зосереджено в перших координатах, що дозволяє перейти до простору меншої розмірності.

Залишкова дисперсія

Нехай дані центровані, . При заміні векторів даних на їхню проекцію на перші головні компоненти вноситься середній квадрат помилки з розрахунку на один вектор даних:

де власні значення емпіричної коваріаційної матриці, розташовані в порядку зменшення, з урахуванням кратності.

Ця величина називається залишковою дисперсією. Величина

називається поясненою дисперсією. Їхня сума дорівнює вибірковій дисперсії. Відповідний квадрат відносної помилки – це відношення залишкової дисперсії до вибіркової дисперсії (тобто частка непоясненої дисперсії):

По відносній помилці оцінюється застосування методу основних компонентів з проектуванням на перші компоненти.

Зауваження: у більшості обчислювальних алгоритмів власні числа з відповідними власними векторами - головними компонентами обчислюються в порядку від великих до менших. Для обчислення достатньо обчислити перші власних чисел і слід емпіричної матриці коваріаційної , (суму діагональних елементів , тобто дисперсій по осях). Тоді

Відбір основних компонентів за правилом Кайзера

Цільовий підхід до оцінки числа головних компонент за необхідною часткою поясненої дисперсії формально застосовується завжди, проте неявно він передбачає, що немає поділу на «сигнал» і «шум», і будь-яка задана точність має сенс. Тому часто продуктивніша інша евристика, що ґрунтується на гіпотезі про наявність «сигналу» (порівняно мала розмірність, відносно велика амплітуда) і «шума» (велика розмірність, відносно мала амплітуда). З цього погляду метод головних компонент працює як фільтр: сигнал міститься, переважно, у проекції перші головні компоненти, а інших компонентах пропорція шуму набагато вище.

Питання: як оцінити кількість необхідних основних компонентів, якщо ставлення «сигнал/шум» наперед невідоме?

Найпростіший і найстаріший методвідбору основних компонентів дає правило Кайзера(англ. Kaiser"s rule): значущі основні компоненти, котрим

тобто перевищує середнє значення (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює у найпростіших випадках, коли є кілька основних компонент з , набагато перевершуючими середнє значення, а інші власні числа менші за нього. У складніших випадках може давати дуже багато значних основних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію по осях, то правило Кайзера набуває особливо простого вигляду: значущі ті основні компоненти, котрим

Оцінка числа основних компонентів за правилом зламаної тростини

Приклад: оцінка числа основних компонентів за правилом зламаної тростини у розмірності 5.

Одним із найбільш популярних евристичних підходів до оцінки кількості необхідних головних компонентів є правило зламаної тростини(англ. Broken stick model). Набір нормованих на одиничну суму власних чисел (, ) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаною у випадковій вибраній точці (точки розлому вибираються незалежно і рівнорозподілені по довжині тростини). Нехай () - Довжини отриманих шматків тростини, занумеровані в порядку зменшення довжини: . Неважко знайти математичне очікування:

За правилом зламаної тростини -й власний вектор (у порядку зменшення своїх чисел ) зберігається у списку головних компонент, якщо

Рис. наведено приклад для 5-вимірного випадку:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Для прикладу вибрано

=0.5; =0.3; =0.1; =0.06; =0.04.

За правилом зламаної тростини в цьому прикладі слід залишати 2 головні компоненти:

За оцінками користувачів, правило зламаної тростини має тенденцію занижувати кількість значних основних компонент.

Нормування

Нормування після приведення до основних компонентів

Післяпроектування на перші основні компоненти зручно зробити нормування на одиничну (вибіркову) дисперсію по осях. Дисперсія вздовж і головної компоненти дорівнює ), тому для нормування треба розділити відповідну координату на . Це перетворення не є ортогональним та не зберігає скалярного твору. Коваріаційна матриця проекції даних після нормування стає одиничною, проекції на будь-які два ортогональних напрямки стають незалежними величинами, а будь-який ортонормований базис стає базисом основних компонентів (нагадаємо, що нормування змінює відношення ортогональності векторів). Відображення з простору вихідних даних на перші головні компоненти разом з нормуванням задається матрицею

.

Саме це перетворення найчастіше називається перетворенням Кархунена-Лоева. Тут – вектори-стовпці, а верхній індекс означає транспонування.

Нормування до обчислення основних компонентів

Попередження: не слід плутати нормування, яке проводиться після перетворення до головних компонентів, з нормуванням та «знерозмірюванням» при передобробці даних, що проводиться до обчислення основних компонентів. Попереднє нормування необхідне для обґрунтованого вибору метрики, в якій обчислюватиметься найкраща апроксимація даних, або шукатимуть напрями найбільшого розкиду (що еквівалентно). Наприклад, якщо дані являють собою тривимірні вектори з «метрів, літрів і кілограм», то при використанні стандартної евклідової відстані різниця в 1 метр по першій координаті вноситиме той самий внесок, що різниця в 1 літр по другій, або в 1 кг по третій . Зазвичай системи одиниць, в яких представлені вихідні дані, недостатньо точно відображають наші уявлення про природні масштаби по осях, і проводиться «обезрозмірювання»: кожна координата поділяється на певний масштаб, який визначається даними, метою їх обробки та процесами вимірювання та збору даних.

Є три істотно різні стандартні підходи до такого нормування: на одиничну дисперсіюпо осях (масштаби по осях дорівнюють середнім квадратичним ухиленням - після цього перетворення коваріаційна матриця збігається з матрицею коефіцієнтів кореляції), на рівну точність виміру(Маштаб по осі пропорційний точності вимірювання даної величини) і на рівні вимогиу завданні (масштаб по осі визначається необхідною точністю прогнозу даної величини або допустимим її спотворенням - рівнем толерантності). На вибір передобробки впливають змістовна постановка завдання, а також умови збору даних (наприклад, якщо колекція даних принципово не завершена і дані ще надходити, то нераціонально вибирати нормування строго на одиничну дисперсію, навіть якщо це відповідає змісту завдання, оскільки це передбачає перенормування всіх даних після отримання нової порції; розумніше вибрати деякий масштаб, що грубо оцінює стандартне відхилення, і далі його не міняти).

Попереднє нормування на одиничну дисперсію по осях руйнується поворотом системи координат, якщо осі є головними компонентами, і нормування при передобробці даних не замінює нормування після приведення до головних компонентів.

Механічна аналогія та метод головних компонент для зважених даних

Якщо зіставити кожному вектору даних одиничну масу, то емпірична матриця коварії збігається з тензором інерції цієї системи точкових мас (поділеним на повну масу), а задача про головні компоненти - із завданням приведення тензора інерції до головних осях. Можна використовувати додаткову свободу у виборі значень мас для врахування важливості точок даних або надійності їх значень (важливими даними або даними з більш надійних джерел приписуються великі маси). Якщо вектору даних надається маса ,то замість емпіричної коваріаційної матриці отримаємо

Всі подальші операції з приведення до основних компонентів виробляються так само, як і в основній версії методу: шукаємо ортонормований власний базис, впорядковуємо його за зменшенням власних значень, оцінюємо середньозважену помилку апроксимації даних першими компонентами (за сумами власних чисел), нормуємо. .

Більше загальний спосібзважування дає максимізація виваженої суми попарних відстанейміж проекціями. Для кожних двох точок даних вводиться вага ; та . Замість емпіричної коваріаційної матриці використовується

При симетричній матриці позитивно визначено, оскільки позитивна квадратична форма:

Далі шукаємо ортонормований власний базис, впорядковуємо його за зменшенням власних значень, оцінюємо середньозважену помилку апроксимації даних першими компонентами і т. д. - точно так, як і в основному алгоритмі.

Цей спосіб застосовується за наявності класів: для різних класів вага вага вибирається більшим, ніж для точок одного класу. У результаті в проекції на зважені головні компоненти різні класи"розсуваються" на більшу відстань.

Інше застосування - зниження впливу великих ухилень(Оутлайєр, англ. Outlier ), які можуть спотворювати картину через використання середньоквадратичної відстані: якщо вибрати , вплив великих ухилень буде зменшено. Таким чином, описана модифікація методу головних компонент є більш робастною, ніж класична.

Спеціальна термінологія

У статистиці під час використання методу головних компонент використовують кілька спеціальних термінів.

Матриця даних; кожен рядок - вектор передопрацьованихданих ( центрованихі вірно нормованих), число рядків – (кількість векторів даних), число стовпців – (розмірність простору даних);

Матриця навантажень(Loadings); кожен стовпець - вектор головних компонент, число рядків - (розмірність простору даних), число стовпців - (кількість векторів головних компонентів, вибраних для проектування);

Матриця рахунків(Scores); кожен рядок – проекція вектора даних на головні компоненти; число рядків - (кількість векторів даних), кількість стовпців - (кількість векторів основних компонентів, вибраних для проектування);

Матриця Z-рахунків(Z-scores); кожен рядок - проекція вектора даних на головні компоненти, нормована на одиничну вибіркову дисперсію; число рядків - (кількість векторів даних), кількість стовпців - (кількість векторів основних компонентів, вибраних для проектування);

Матриця помилок(або залишків) (Errors or residuals) .

Основна формула:

Межі застосування та обмеження ефективності методу

Метод основних компонентів застосовний завжди. Поширене твердження про те, що він застосовний тільки до нормально розподілених даних (або для розподілів, близьких до нормальних) неправильно: у вихідному формулюванні К. Пірсона ставиться завдання про апроксимаціїкінцевої множини даних і відсутня навіть гіпотеза про їхнє статистичне породження, не кажучи вже про розподіл.

Однак метод не завжди ефективно знижує розмірність при заданих обмеженнях на точність. Прямі та площини не завжди забезпечують хорошу апроксимацію. Наприклад, дані можуть з хорошою точністю дотримуватися будь-якої кривої, а ця крива може бути складно розташована в просторі даних. У цьому випадку метод головних компонент для прийнятної точності вимагатиме кількох компонентів (замість однієї), або взагалі не дасть зниження розмірності при прийнятній точності. Для роботи з такими «кривими» головними компонентами винайдено метод головних різноманітностей і різні версії нелінійного методу головних компонентів. Більше неприємностей можуть завдати дані складної топології. Для їх апроксимації також винайдені різні методи, наприклад карти Кохонена, що самоорганізуються, нейронний газ або топологічні граматики. Якщо дані статистично породжені з розподілом, який сильно відрізняється від нормального, то для апроксимації розподілу корисно перейти від головних компонент до незалежним компонентам, які вже не ортогональні у вихідному скалярному творі Нарешті, для ізотропного розподілу (навіть нормального) замість еліпсоїда розсіювання отримуємо кулю, і зменшити розмірність методами апроксимації неможливо.

Приклади використання

Візуалізація даних

Візуалізація даних - подання у наочній формі даних експерименту чи результатів теоретичного дослідження.

Першим вибором у візуалізації безлічі даних є ортогональне проектування на площину перших двох головних компонентів (або 3-мірне простір перших трьох головних компонентів). Площина проектування є, по суті, плоским двовимірним «екраном», розташованим таким чином, щоб забезпечити «картинку» даних з найменшими спотвореннями. Така проекція буде оптимальною (серед усіх ортогональних проекцій на різні двовимірні екрани) у трьох відношеннях:

  1. Мінімальна сума квадратів відстаней від точок даних до проекцій на площину перших головних компонентів, тобто екран розташований максимально близько по відношенню до хмари точок.
  2. Мінімальна сума спотворень квадратів відстаней між усіма парами точок із хмари даних після проектування точок на площину.
  3. Мінімальна сума спотворень квадратів відстаней між усіма точками даних та їх «центром тяжіння».

Візуалізація даних одна із найбільш широко використовуваних додатків методу головних компонент та її нелінійних узагальнень .

Компресія зображень та відео

Для зменшення просторової надмірності пікселів під час кодування зображень та відео використовується лінійні перетворення блоків пікселів. Наступні квантування отриманих коефіцієнтів та кодування без втрат дозволяють одержати значні коефіцієнти стиснення. Використання перетворення PCA як лінійного перетворення є для деяких типів даних оптимальним з погляду розміру отриманих даних при однаковому спотворенні. на Наразіцей метод активно не використовується, в основному через велику обчислювальну складність. Також стиснення даних можна досягти, відкидаючи останні коефіцієнти перетворення.

Придушення шуму на зображеннях

Хемометрика

Метод головних компонентів - один з основних методів у хемометриці (англ. Chemometrics ). Дозволяє розділити матрицю вихідних даних X на дві частини: «змістовну» та «шум». За найбільш популярним визначенням «Хемометрика - це хімічна дисципліна, що застосовує математичні, статистичні та інші методи, засновані на формальній логіці, для побудови або відбору оптимальних методів вимірювання та планів експерименту, а також для отримання найбільш важливої ​​інформаціїпід час аналізу експериментальних даних».

Психодіагностика

  1. аналіз даних (опис результатів опитувань чи інших досліджень, які у вигляді масивів числових даних);
  2. опис соціальних явищ(Побудова моделей явищ, у тому числі і математичних моделей).

У політології метод головних компонентів був основним інструментом проекту «Політичний Атлас Сучасності» для лінійного та нелінійного аналізу рейтингів 192 країн світу за п'ятьма спеціально розробленими інтегральними індексами (рівня життя, міжнародного впливу, загроз, державності та демократії). Для картографії результатів цього аналізу розроблено спеціальну ГІС (Геоінформаційну систему), що поєднує географічний простір з простором ознак. Також створено карти даних політичного атласу, які використовують як підкладку двовимірні головні різноманіття в п'ятивимірному просторі країн. Відмінність карти даних від географічної карти у тому, що у географічної карті поруч виявляються об'єкти, які мають подібні географічні координати, тоді як у карті даних поруч виявляються об'єкти (країни) з подібними ознаками (індексами).

У прагненні гранично точно описати досліджувану область аналітики часто відбирають велику кількість незалежних змінних (p). У цьому випадку може виникнути серйозна помилка: кілька описувальних змінних можуть характеризувати ту саму сторону залежної змінної і, як наслідок, високо корелювати між собою. Мультиколлінеарність незалежних змінних серйозно спотворює результати дослідження, тому її слід позбавлятися.

p align="justify"> Метод головних компонент (як спрощена модель факторного аналізу, оскільки при цьому методі не використовуються індивідуальні фактори, що описують тільки одну змінну x i) дозволяє об'єднати вплив високо корелюваних змінних в один фактор, що характеризує залежну змінну з одного боку. В результаті аналізу, здійсненого за методом головних компонентів, ми досягнемо стиснення інформації до необхідних розмірів, опису залежної змінної m (m

Для початку необхідно вирішити, скільки факторів необхідно виділити у цьому дослідженні. У рамках методу головних компонентів перший головний фактор визначає найбільший відсоток дисперсії незалежних змінних, далі – за спадною. Таким чином, кожна наступна головна компонента, виділена послідовно, пояснює меншу частку мінливості факторів x i . Завдання дослідника полягає в тому, щоб визначити, коли мінливість стає дійсно малою та випадковою. Іншими словами – скільки основних компонентів необхідно вибрати для подальшого аналізу.

Існує кілька методів раціонального виділення необхідної кількості факторів. Найбільш використовуваний із них – критерій Кайзера. Відповідно до цього критерію, відбираються ті чинники, власні значення яких більше 1. Отже, чинник, який пояснює дисперсію, еквівалентну, по крайнього заходу, дисперсії однієї змінної, опускається.



Проаналізуємо Таблицю 19, побудовану у SPSS:

Таблиця 19. Повна пояснена дисперсія

Компоненти Початкові власні значення Суми квадратів навантажень обертання
Разом % Дисперсії Кумулятивний % Разом % Дисперсії Кумулятивний %
dimension0 5,442 90,700 90,700 3,315 55,246 55,246
,457 7,616 98,316 2,304 38,396 93,641
,082 1,372 99,688 ,360 6,005 99,646
,009 ,153 99,841 ,011 ,176 99,823
,007 ,115 99,956 ,006 ,107 99,930
,003 ,044 100,000 ,004 ,070 100,000
Метод виділення: Аналіз основних компонент.

Як видно з Таблиці 19, в даному дослідженні змінні x i високо корелірут між собою (це також виявлено раніше і видно з Таблиці 5 «Парні коефіцієнти кореляції»), а отже, характеризують залежну змінну Y практично з одного боку: спочатку перша головна компонента пояснює 90 ,7 % дисперсії x i , і тільки власне значення, що відповідає першій головній компоненті, більше 1. Звичайно, це є недоліком відбору даних, проте в процесі відбору цей недолік не був очевидний.

Аналіз у пакеті SPSS дозволяє самостійно вибрати число основних компонентів. Виберемо число 6 – рівну кількості незалежних змінних. Другий стовпець Таблиці 19 показує суми квадратів навантажень обертання, саме за цими результатами і зробимо висновок про кількість факторів. Власні значення, що відповідають першим двом головним компонентам, більше 1 (55,246% і 38,396% відповідно), тому, згідно з методом Кайзера, виділимо 2 найбільш значущі головні компоненти.

Другий спосіб виділення необхідної кількості чинників – критерій «кам'янистої осипу». Відповідно до цього методу, власні значення видаються у вигляді простого графіка, і вибирається таке місце на графіці, де спадання власних значень зліва направо максимально уповільнюється:

Малюнок 3. Критерій "кам'янистого осипу"

Як видно на Малюнку 3, спад своїх значень уповільнюється вже з другої компоненти, проте постійна швидкість убування (дуже маленька) починається лише з третьої компоненти. Отже, для подальшого аналізу буде відібрано перші дві основні компоненти. Цей висновок узгоджується з висновком, отриманим під час використання методу Кайзера. Таким чином, остаточно вибираються перші дві послідовно отримані основні компоненти.

Після виділення головних компонентів, які будуть використовуватись у подальшому аналізі, необхідно визначити кореляцію вихідних змінних x i c отриманими факторами і, виходячи з цього, дати назви компонентів. Для аналізу скористаємося матрицею факторних навантажень А, елементи якої є коефіцієнтами кореляції факторів із вихідними незалежними змінними:

Таблиця 20. Матриця факторних навантажень

Матриця компонент a
Компоненти
X1 ,956 -,273 ,084 ,037 -,049 ,015
X2 ,986 -,138 ,035 -,080 ,006 ,013
X3 ,963 -,260 ,034 ,031 ,060 -,010
X4 ,977 ,203 ,052 -,009 -,023 -,040
X5 ,966 ,016 -,258 ,008 -,008 ,002
X6 ,861 ,504 ,060 ,018 ,016 ,023
Метод виділення: Аналіз шляхом основних компонент.
a. Вилучених компонентів: 6

У разі інтерпретація коефіцієнтів кореляції утруднена, отже, досить складно дати назви першим двом головним компонентам. Тому скористаємося методом ортогонального повороту системи координат Варимакс, метою якого є поворот факторів так, щоб вибрати найпростішу для інтерпретації факторну структуру:

Таблиця 21. Коефіцієнти інтерпретації

Матриця повернутих компонентів a
Компоненти
X1 ,911 ,384 ,137 -,021 ,055 ,015
X2 ,841 ,498 ,190 ,097 ,000 ,007
X3 ,900 ,390 ,183 -,016 -,058 -,002
X4 ,622 ,761 ,174 ,022 ,009 ,060
X5 ,678 ,564 ,472 ,007 ,001 ,005
X6 ,348 ,927 ,139 ,001 -,004 -,016
Метод виділення: Аналіз шляхом основних компонент. Метод обертання: Варімакс із нормалізацією Кайзера.
a. Обертання зійшлося за 4 ітерації.

З Таблиці 21 видно, що перша головна компонента найбільше пов'язана зі змінними x1, x2, x3; а друга – зі змінними x4, x5, x6. Таким чином, можна зробити висновок, що обсяг інвестицій у основні кошти у регіоні (змінна Y)залежить від двох факторів:

- обсягу власних та позикових коштів, що надійшли до підприємств регіону за період (перша компонента, z1);

- а також від інтенсивності вкладень підприємств регіону у фінансові активи та кількості іноземного капіталу у регіоні (друга компонента, z2).

Малюнок 4. Діаграма розсіювання

Ця діаграма показує невтішні результати. Ще на початку дослідження ми намагалися підібрати дані так, щоб результуюча змінна Y була розподілена нормально, і нам практично це вдалося. Закони розподілу незалежних змінних були досить далекі від нормального, однак ми намагалися максимально наблизити їх до нормального закону (відповідним чином вибрати дані). Малюнок 4 показує, що початкова гіпотеза про близькість закону розподілу незалежних змінних до нормального закону не підтверджується: форма хмари має нагадувати еліпс, у центрі об'єкти мають бути густіше, ніж по краях. Варто зауважити, що зробити багатовимірну вибірку, в якій усі змінні розподілені за нормальним законом – завдання, здійсненне насилу (більше того, що не завжди має рішення). Однак цієї мети слід прагнути: тоді результати аналізу будуть більш значущими і зрозумілими при інтерпретації. На жаль, у нашому випадку, коли виконано більшу частину роботи з аналізу зібраних даних, змінювати вибірку досить важко. Але далі, у наступних роботах, варто серйозніше підходити у вибірці незалежних змінних і максимально наближати закон їхнього розподілу до нормального.

Останнім етапом аналізу шляхом основних компонентів є побудова рівняння регресії на основні компоненти (у разі – першу і другу основні компоненти).

За допомогою SPSS розрахуємо параметри регресійної моделі:

Таблиця 22. Параметри рівняння регресії на основні компоненти

Модель Нестандартизовані коефіцієнти Стандартизовані коефіцієнти t Знч.
B Стд. Помилка Бета
(Константа) 47414,184 1354,505 35,005 ,001
Z1 26940,937 1366,763 ,916 19,711 ,001
Z2 6267,159 1366,763 ,213 4,585 ,001

Рівняння регресії набуде вигляду:

y=47 414,184 + 0,916*z1+0,213*z2,

(b0) (b1) (b2)

т. о. b0=47 414,184 показує точку перетину прямої регресії з віссю результуючого показника;

b1 = 0,916 -зі збільшенням значення чинника z1 на 1 очікуване середнє значення суми обсягу інвестицій у кошти збільшиться на 0,916;

b2 = 0,213 -зі збільшенням значення чинника z2 на 1 очікуване середнє значення суми обсягу інвестицій у кошти збільшиться на 0,213.

У разі значення tкр («альфа»=0,001, «ню»=53) = 3,46 менше tнабл всім коефіцієнтів «бета». Отже, всі коефіцієнти є значущими.

Таблиця 24. Якість регресійної моделі на основні компоненти

Модель R R-квадрат Коригований R-квадрат Стд. помилка оцінки
dimension0 ,941 a ,885 ,881 10136,18468
a. Предиктори: (конст) Z1, Z2
b. Залежна змінна: Y

У Таблиці 24 відображені показники, що характеризують якість побудованої моделі, а саме: R – множинний к-т кореляції – говорить про те, яка частка дисперсії Y пояснюється варіацією Z; R^2 – к-т детермінації – показує частку поясненої дисперсії відхилень Y від її середнього значення. Стандартна помилка оцінки характеризує помилку збудованої моделі. Порівняємо ці показники з аналогічними показниками статечної регресійної моделі (її якість виявилася вищою за якість лінійної моделі, тому порівнюємо саме зі степеневою):

Таблиця 25. Якість статечної регресійної моделі

Так, множинний к-т кореляції R і к-т детермінації R^2 в статечній моделі дещо вище, ніж у моделі основних компонентів. Крім того, стандартна помилка моделі головних компонент НАМНОГО вище, ніж у статечної моделі. Тому якість статечної регресійної моделі вища, ніж регресійної моделі, побудованої на основних компонентах.

Проведемо верифікацію регресійної моделі основних компонентів, т. е. проаналізуємо її значимість. Перевіримо гіпотезу про незначущість моделі, розрахуємо F(набл.) = 204,784 (розраховано на SPSS), F(крит) (0,001; 2; 53)=7,76. F(набл)>F(крит), отже, гіпотеза про незначущість моделі відкидається. Модель значима.

Отже, в результаті проведення компонентного аналізу, було з'ясовано, що з відібраних незалежних змінних x i можна виділити 2 головні компоненти – z1 та z2, причому на z1 більшою мірою впливають змінні x1, x2, x3, а на z2 – x4, x5, x6 . Рівняння регресії, побудоване на основних компонентах, виявилося значним, хоча й поступається якістю статечному рівнянню регресії. Відповідно до рівняння регресії головні компоненти, Y позитивно залежить як від Z1, і від Z2. Однак початкова мультиколлінеарність змінних xi і те, що вони не розподілені за нормальним законом розподілу, може спотворювати результати побудованої моделі та робити її менш значущою.

Кластерний аналіз

Наступним етапом цього дослідження є кластерний аналіз. Завданням кластерного аналізу є розбиття вибраних регіонів (n=56) на порівняно невелику кількість груп (кластерів) з урахуванням їхньої природної близькості щодо значень змінних x i . Під час проведення кластерного аналізу ми припускаємо, що геометрична близькість двох чи кількох точок у просторі означає фізичну близькість відповідних об'єктів, їх однорідність (у разі - однорідність регіонів за показниками, що впливає інвестиції в основні засоби).

На першій стадії кластерного аналізу необхідно визначитися з оптимальним числом кластерів, що виділяються. Для цього необхідно провести ієрархічну кластеризацію – послідовне об'єднання об'єктів у кластери доти, доки не залишиться два великі кластери, що об'єднуються в один на максимальній відстані один від одного. Результат ієрархічного аналізу (висновок оптимальну кількість кластерів) залежить від способу розрахунку відстані між кластерами. Таким чином, протестуємо різні методи та зробимо відповідні висновки.

Метод «ближнього сусіда»

Якщо відстань між окремими об'єктами ми розраховуємо єдиним способом – як звичайна евклідова відстань – відстань між кластерами обчислюється різними методами. Відповідно до методу «найближчого сусіда», відстань між кластерами відповідає мінімальній відстані між двома об'єктами різних кластерів.

Аналіз у пакеті SPSS проходить в такий спосіб. Спочатку розраховується матриця відстаней між усіма об'єктами, а потім на основі матриці відстаней об'єкти послідовно об'єднуються в кластери (для кожного кроку матриця складається заново). Кроки послідовного об'єднання представлені у таблиці:

Таблиця 26. Кроки агломерації. Метод «найближчого сусіда»

Етап Кластер об'єднаний з Коефіцієнти Наступний етап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,006
,007
,007
,009
,010
,010
,010
,010
,011
,012
,012
,012
,012
,012
,013
,014
,014
,014
,014
,015
,015
,016
,017
,018
,018
,019
,019
,020
,021
,021
,022
,024
,025
,027
,030
,033
,034
,042
,052
,074
,101
,103
,126
,163
,198
,208
,583
1,072

Як видно з Таблиці 26, на першому етапі об'єдналися елементи 7 та 8, тому що відстань між ними була мінімальною – 0,003. Далі відстань між об'єднаними об'єктами збільшується. По таблиці також можна дійти невтішного висновку про оптимальному числі кластерів. Для цього потрібно подивитися, після якого кроку відбувається різкий стрибок у величині відстані, і відняти номер цієї агломерації з досліджуваних об'єктів. У разі: (56-53)=3 – оптимальне число кластерів.

5. Дендрограма. Метод "найближчого сусіда"

Аналогічний висновок про оптимальну кількість кластерів можна зробити і дивлячись на дендрограму (Рис. 5): слід виділити 3 кластери, причому в перший кластер увійдуть об'єкти під номерами 1-54 (всього 54 об'єкти), а в другий і третій кластери - по одному об'єкту (під номерами 55 та 56 відповідно). Цей результатговорить про те, що перші 54 регіони щодо однорідні за показниками, що впливають на інвестиції в основні засоби, тоді як об'єкти під номерами 55 (Республіка Дагестан) та 56 (Новосибірська область) значно виділяються на загальному тлі. Варто зауважити, що ці суб'єкти мають найбільші обсяги інвестицій в основні засоби серед усіх відібраних регіонів. Цей факт ще раз доводить високу залежність результуючої змінної (обсягу інвестицій) від обраних незалежних змінних.

Аналогічні міркування проводяться інших методів розрахунку відстані між кластерами.

Метод «далекого сусіда»

Таблиця 27. Кроки агломерації. Метод "далекого сусіда"

Етап Кластер об'єднаний з Коефіцієнти Етап першої появи кластера Наступний етап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,007
,009
,010
,010
,011
,011
,012
,012
,014
,014
,014
,017
,017
,018
,018
,019
,021
,022
,026
,026
,027
,034
,035
,035
,037
,037
,042
,044
,046
,063
,077
,082
,101
,105
,117
,126
,134
,142
,187
,265
,269
,275
,439
,504
,794
,902
1,673
2,449

При методі «далекого сусіда» відстань між кластерами розраховується як максимальна відстань між двома об'єктами у різних кластерах. Згідно з Таблице 27, оптимальне число кластерів дорівнює (56-53)=3.

Малюнок 6. Дендрограма. Метод "далекого сусіда"

Згідно з дендрограмою, оптимальним рішенням також буде виділення 3 кластерів: у перший кластер увійдуть регіони під номерами 1-50 (50 регіонів), у другий – під номерами 51-55 (5 регіонів), до третього – останній регіон під номером 56.

Метод «центру тяжіння»

При методі «центру тяжкості» за відстань між кластерами приймається евклідова відстань між «центрами тяжкості» кластерів – середніми арифметичними показниками x i .

7. Дендрограма. Метод "центру тяжкості"

На Малюнку 7 видно, що оптимальна кількість кластерів така: 1 кластер – 1-47 об'єкти; 2 кластер - 48-54 об'єкти (всього 6); 3 кластер – 55 об'єктів; 4 кластери – 56 об'єкт.

Принцип «середнього зв'язку»

В даному випадку відстань між кластерами дорівнює середньому значенню відстаней між усіма можливими парами спостережень, причому одне спостереження береться з одного кластеру, а друге відповідно з іншого.

Аналіз таблиці кроків агломерації показав, що оптимальна кількість кластерів дорівнює (56-52) = 4. Порівняємо цей висновок із висновком, отриманим під час аналізу дендрограми. На Малюнку 8 видно, що до 1 кластера увійдуть об'єкти під номерами 1-50, у 2 кластер – об'єкти 51-54 (4 об'єкти), у 3 кластер – 55 регіон, у 4 кластер – 56 регіон.

8. Дендрограма. Метод "середнього зв'язку"

ЗАСТОСУВАННЯ МЕТОДУ ГОЛОВНИХ КОМПОНЕНТ

ДЛЯ ОБРОБКИ БАГАТОМІРНИХ СТАТИСТИЧНИХ ДАНИХ

Розглянуто питання обробки багатовимірних статистичних даних рейтингової оцінки студентів на основі застосування методу основних компонентів.

Ключові слова: багатовимірний аналіз даних, зниження розмірності, метод основних компонентів, рейтинг.

Насправді часто доводиться стикатися з ситуацією, коли об'єкт дослідження характеризується безліччю різноманітних параметрів, кожен із яких вимірюється чи оцінюється. Аналіз отриманого в результаті дослідження кількох однотипних об'єктів масиву вихідних даних є практично нерозв'язним завданням. Тому досліднику необхідно проаналізувати зв'язки та взаємозалежності між вихідними параметрами, щоб відкинути частину з них або замінити їх меншим числом будь-яких функцій від них, зберігши при цьому по можливості всю укладену в них інформацію.

У зв'язку з цим постають завдання зниження розмірності, тобто переходу від вихідного масиву даних до істотно меншої кількості показників, відібраних з числа вихідних або отриманих шляхом деякого їх перетворення (з найменшою втратою інформації, що міститься у вихідному масиві), і класифікації - поділу аналізованої сукупності об'єктів на однорідні (у певному сенсі) групи. Якщо з великому числу різнотипних і стохастично взаємопов'язаних показників було отримано результати статистичного обстеження цілої сукупності об'єктів, то вирішення завдань класифікації та зниження розмірності слід використовувати інструментарій багатовимірного статистичного аналізу, зокрема метод головних компонент .


У статті пропонується методика застосування методу основних компонентів для обробки багатовимірних статистичних даних. Як приклад наводиться вирішення завдання статистичної обробки багатовимірних результатів рейтингової оцінки студентів.

1. Визначення та обчислення головних компонент..png" height="22 src="> ознак. В результаті отримуємо багатовимірні спостереження, кожне з яких можна представити у вигляді векторного спостереження

де https://pandia.ru/text/79/206/images/image005.png" height = "22 src = ">.

Отримані багатовимірні спостереження необхідно статистичною обробкою..png" height="22 src=">.png" height="22 src=">.png" width="132" height="25 src=">.png" width ="33" height="22 src="> допустимих перетворень досліджуваних ознак 0 style="border-collapse:collapse">

- Умова нормування;

- Умова ортогональності

Отримані подібним перетворенням і являють собою головні компоненти. З них при подальшому аналізі виключають змінні з мінімальною дисперсією. , Т. е.. png width="131" height="22 src="> у перетворенні (2)..png" width="13" height="22 src="> цієї матриці рівні дисперсіям головних компонент .

Таким чином, першою головною компонентою називається така нормовано-центрована лінійна комбінація цих показників, яка серед усіх інших подібних комбінацій має найбільшу дисперсію. png width="12" власний вектор матриці https://pandia.ru/text/79/206/images/image025.png" width="15" 22 src=">.png" width="80" "> називається така нормовано-центрована лінійна комбінація цих показників, яка не корелюється з https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src=">. png" width="80" height="23 src="> вимірюються в різних одиницях, то результати дослідження за допомогою головних компонент будуть істотно залежати від вибору масштабу та природи одиниць виміру , а отримані лінійні комбінації вихідних змінних буде важко інтерпретувати. У зв'язку з цим за різних одиниць вимірювання вихідних ознак DIV_ADBLOCK310">


https://pandia.ru/text/79/206/images/image030.png" width="17" height="22 src=">.png" width="56" height="23 src=">. Після такого перетворення проводять аналіз основних компонентів щодо величин https://pandia.ru/text/79/206/images/image033.png" , яка є одночасно кореляційною матрицею https://pandia.ru/text/79/206/images/image035.png" width="162" src="> на i- й вихідна ознака ..png" width="14" height="22 src=">.png" width="10" height="22 src="> дорівнює дисперсії v- й головної компоненти використовуються при змістовній інтерпретації головних компонент. png width="20" height="22 src=">.png" width="251" height="25 src=">

Для проведення розрахунків векторні спостереження агрегуємо у вибіркову матрицю, в якій рядки відповідають контрольованим ознакам, а стовпці – об'єктам дослідження. " height="67 src=">

Після центрування вихідних даних знаходимо вибіркову кореляційну матрицю за формулою

https://pandia.ru/text/79/206/images/image045.png" width="204" height="69 src=">

Діагональні елементи матриці width="206" height="68 src=">

Недіагональні елементи цієї матриці є вибірковими оцінками коефіцієнтів кореляції між відповідною парою ознак.

Складаємо характеристичне рівняння для матриці 0 "border-collapse:collapse">

Знаходимо все його коріння:

Тепер для знаходження компонент головних векторів підставляємо послідовно чисельні значення https://pandia.ru/text/79/206/images/image065.png" width="16" " height="24 src=">

Наприклад, при https://pandia.ru/text/79/206/images/image069.png" width="262" height="70 src=">

Очевидно, що отримана система рівнянь спільна через однорідність і невизначена, тобто має безліч рішень. Для знаходження єдиного рішення, що нас цікавить, скористаємося такими положеннями:

1. Для коріння системи може бути записано співвідношення

https://pandia.ru/text/79/206/images/image071.png" width="20" height="23 src="> – алгебраїчне доповнення j-го елемента будь-який i-й рядки матриці системи.

2. Наявність умови нормування (2) забезпечує єдиність розв'язання системи рівнянь. Власних векторів не відіграють істотної ролі, оскільки їх зміна не впливає на результат аналізу.

Таким чином, отримуємо власний вектор width="15"

https://pandia.ru/text/79/206/images/image024.png" width="12" height="22 src="> перевіряємо по рівності

https://pandia.ru/text/79/206/images/image076.png" width="503" height="22">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png" width="595" height="22 src=">

https://pandia.ru/text/79/206/images/image080.png" width="589" height="22 src=">

де https://pandia.ru/text/79/206/images/image082.png" width="16" height="22 src=">.png" width="23" height="22 src="> - Стандартизовані значення відповідних вихідних ознак.

Складаємо ортогональну матрицю лінійного перетворення.

Так як відповідно до властивостей головних компонентів сума дисперсій вихідних ознак дорівнює сумі дисперсій всіх головних компонентів, то з урахуванням того, що ми розглядали нормовані вихідні ознаки, можна оцінити, яку частину загальної мінливості вихідних ознак пояснює кожна з головних компонентів. Наприклад, для перших двох головних компонентів маємо:

Таким чином, відповідно до критерію інформативності, що використовується для головних компонентів, знайдених за кореляційною матрицею, сім перших головних компонентів пояснюють 88,97% загальної мінливості п'ятнадцяти вихідних ознак.

Використовуючи матрицю лінійного перетворення width="10" (для семи перших головних компонент):

https://pandia.ru/text/79/206/images/image090.png" width="16" height="22 src="> – число дипломів, отриманих у конкурсі наукових та дипломних робіт; .ru/text/79/206/images/image092.png" width="16" height="22 src=">.png" width="22" height="22 src=">.png" width=" 22" height="22 src=">.png" width="22" height="22 src="> – нагороди та призові місця, зайняті на регіональних, обласних та міських спортивних змаганнях.

3..png" width="16" height="22 src=">(кількість грамот за результатами участі в конкурсах наукових та дипломних робіт).

4..png" width="22" height="22 src=">(нагороди та призові місця, зайняті на вузівських змаганнях).

6. Шоста головна компонента позитивно корельована з показником DIV_ADBLOCK311">

4. Третій головний компонент – активність студентів у навчальному процесі.

5. Четверта та шоста компоненти – старанність студентів протягом весняного та осіннього семестрів відповідно.

6. П'ята головна компонента – ступінь участі у спортивних змаганнях університету.

Надалі для проведення всіх необхідних розрахунків при виділенні головних компонентів пропонується використовувати спеціалізовані статистичні програмні комплекси, наприклад STATISTICA, що суттєво полегшить процес аналізу.

Описаний у цій статті процес виділення головних компонентів на прикладі рейтингової оцінки студентів пропонується використовувати для атестації бакалаврів та магістрів.

СПИСОК ЛІТЕРАТУРИ

1. Прикладна статистика: Класифікація та зниження розмірності: довід. вид. / , ; за ред. . - М.: Фінанси та статистика, 1989. - 607 с.

2. Довідник з прикладної статистики: в 2 т.: [Пер. з англ.] / за ред. Еге. Ллойда, У. Ледермана, . - М.: Фінанси та статистика, 1990. - Т. 2. - 526 c.

3. Прикладна статистика. Основи економетрики. У 2 т. т.1. Теорія ймовірностей та прикладна статистика: навч. для вузів /, B. C. Мхітарян. – 2-ге вид., испр.– М: ЮНИТИ-ДАНА, 2001. – 656 з.

4. Афіфі, А. Статистичний аналіз: підхід з використанням ЕОМ: [Пер. з англ.] / А. Афіфі, С. Ейзен. - М.: Світ, 1982. - 488 с.

5. Дронов, статистичний аналіз: навч. допомога / . - Барна3. - 213 с.

6. Андерсон, Т. Введення в багатовимірний статистичний аналіз/Т. Андерсон; пров. з англ. [та ін.]; за ред. . - М.: Держ. вид-во фіз.-мат. літ., 1963. - 500 с.

7. Лоулі, Д. Факторний аналіз як статистичний метод / Д. Лоулі, А. Максвелл; пров. з англ. . - М.: Світ, 1967. - 144 с.

8. Дубров, статистичні методи: підручник /, . - М.: Фінанси та статистика, 2003. - 352 с.

9. Кендалл, М. Багатомірний статистичний аналіз та часові ряди / М. Кендалл, А. Стьюарт;пер. з англ. , ; за ред. , . - М.: Наука,1976. - 736 с.

10. Білоглазов, аналіз у завданнях кваліметрії освіти // Изв. РАН. Теорія та системи управління. - 2006. - №6. - С. 39 - 52.

Матеріал надійшов до редколегії 8.11.11.

Робота виконана в рамках реалізації федеральної цільової програми «Наукові та науково-педагогічні кадри інноваційної Росії» на 2009 – 2013 рр. (Державний договір № П770).