Метод головних компонентів (мгк): основні формули та процедури. Поняття основних компонентів Метод основних компонентів обмеження на використання

Головні компоненти

5.1 Методи множинної регресії та канонічної кореляції припускають розбиття наявного набору ознак на дві частини. Однак, далеко не завжди таке розбиття може бути об'єктивно добре обґрунтованим, у зв'язку з чим виникає потреба в таких підходах до аналізу взаємозв'язків показників, які б передбачали розгляд вектора ознак як єдиного цілого. Зрозуміло, при реалізації подібних підходів у цій батареї ознак може бути виявлено певну неоднорідність, коли об'єктивно виявляться кілька змінних груп. Для ознак з однієї такої групи взаємні кореляції будуть набагато вищими порівняно з поєднаннями показників із різних груп. Однак, це угруповання спиратиметься на результати об'єктивного аналізу даних, а не на апріорні довільні міркування дослідника.

5.2 При вивченні кореляційних зв'язків усередині деякого єдиного набору m ознак


X"= X 1 X 2 X 3 ... X m

можна скористатися тим самим способом, який застосовувався в множинному регресійному аналізі та методі канонічних кореляцій - отриманням нових змінних, варіація яких повно відображає існування багатовимірних кореляцій.

Метою розгляду внутрішньогрупових зв'язків єдиного набору ознак є визначення та наочне уявлення об'єктивно існуючих основних напрямів співвідносної варіації цих змінних. Тому для цих цілей можна ввести деякі нові змінні Y i , що знаходяться як лінійні комбінації вихідного набору ознак X

Y 1 = b 1 "X= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2 "X= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Y 3 = b 3 "X= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = b m "X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

і які мають ряд бажаних властивостей. Нехай для визначеності число нових ознак дорівнює кількості вихідних показників (m).

Однією з таких бажаних оптимальних властивостей може бути взаємна некорелеваність нових змінних, тобто діагональний вид їхньої коваріаційної матриці

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

S y= 0 0 s y3 2 ... 0 (5.2)

... ... ... ... ...

0 0 0 … s ym 2

де s yi 2 - дисперсія i-ї нової ознаки Y i . Некорелеваність нових змінних крім своєї очевидної зручності має важливу властивість - кожна нова ознака Y i буде враховувати тільки свою незалежну частину інформації про мінливість та кореленість вихідних показників X.

Другою необхідною властивістю нових ознак є впорядкований облік варіації вихідних показників. Так, нехай перша нова змінна Y 1 враховуватиме максимальну частку сумарної варіації ознак X. Це, як ми пізніше побачимо, рівносильне вимогі того, щоб Y 1 мала максимально можливу дисперсію s y1 2 . З урахуванням рівності (1.17) ця умова може бути записана у вигляді

s y1 2 = b 1 "Sb 1= max (5.3)

де S- коваріаційна матриця вихідних ознак X, b 1- Вектор, що включає коефіцієнти b 11 , b 12 , b 13 , ..., b 1m за допомогою яких, за значеннями X 1 , X 2 , X 3 , ..., X m можна отримати значення Y 1 .

Нехай друга нова змінна Y 2 описує максимальну частину того компонента сумарної варіації, який залишився після врахування найбільшої його частки мінливості першої нової ознаки Y 1 . Для цього необхідно виконання умови

s y2 2 = b 2 "Sb 2= max (5.4)

при нульовому зв'язку Y 1 з Y 2 (тобто r y1y2 = 0) і при s y1 2 > s y2 2 .

Аналогічним чином, третя нова ознака Y 3 повинна описувати третю за ступенем важливості частину варіації вихідних ознак, для чого його дисперсія повинна бути також максимальною

s y3 2 = b 3 "Sb 3= max (5.5)

за умов, що Y 3 нескорелювання з першими двома новими ознаками Y 1 і Y 2 (тобто r y1y3 = 0, r y2y3 = 0) і s y1 2 > s y2 > s y3 2 .

Таким чином, для дисперсій усіх нових змінних характерна впорядкованість за величиною

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Вектори із формули (5.1) b 1 , b 2 , b 3 , ..., b m , за допомогою яких повинен здійснюватися перехід до нових змінних Y i , можуть бути записані у вигляді матриці


B = b 1 b 2 b 3 ... b m. (5.7)

Перехід від набору вихідних ознак Xдо набору нових змінних Yможе бути представлений у вигляді матричної формули

Y = B" X , (5.8)

а отримання коваріаційної матриці нових ознак і досягнення умови (5.2) некорелювання нових змінних відповідно до формули (1.19) може бути подане у вигляді

B"SB= S y , (5.9)

де коваріаційна матриця нових змінних S yв силу їх некорелювання має діагональну форму. З теорії матриць (розділ А.25Додатки А) відомо, що, отримавши для деякої симетричної матриці Aвласні вектори u iі числа l i і обра-

кликавши з них матриці Uі L, можна відповідно до формули (А.31) отримати результат

U"AU= L ,

де L- діагональна матриця, що включає власні числа симетричної матриці A. Неважко бачити, що остання рівність повністю збігається з формулою (5.9). Тому можна зробити наступний висновок. Бажані властивості нових змінних Yможна забезпечити, якщо вектори b 1 , b 2 , b 3 , ..., b m , за допомогою яких повинен здійснюватися перехід до цих змінних, будуть власними векторами матриці ковараційної вихідних ознак S. Тоді дисперсії нових ознак s yi 2 виявляться власними числами

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Нові змінні, перехід яких за формулами (5.1) і (5.8) здійснюється з допомогою власних векторів ковариационной матриці вихідних ознак, називаються головними компонентами. У зв'язку з тим, що кількість власних векторів ковариационной матриці у випадку дорівнює m - числу вихідних ознак цієї матриці, кількість основних компонент також дорівнює m.

Відповідно до теорії матриць для знаходження власних чисел і векторів матриці кваріації слід вирішити рівняння

(S- l i I)b i = 0 . (5.11)

Це рівняння має рішення, якщо виконується умова рівності нулю визначника

½ S- l i I½ = 0 . (5.12)

Ця умова по суті також виявляється рівнянням, корінням якого є всі власні числа l 1 , l 2 , l 3 ... l m коваріаційної матриці одночасно збігаються з дисперсіями головних компонент. Після отримання цих чисел для кожного i-го з них за рівнянням (5.11) можна отримати відповідний власний вектор b i. На практиці для обчислення власних чисел та векторів використовуються спеціальні ітераційні процедури (Додаток В).

Усі власні вектори можна записати як матриці B, яка буде ортонормованою матрицею, так що (розділ А.24Додатки А) нею виконується

B"B = BB" = I . (5.13)

Останнє означає, що для будь-якої пари власних векторів справедливо b i "b j= 0, а для будь-якого такого вектора дотримується рівність b i "b i = 1.

5.4 Проілюструємо отримання основних компонентів для найпростішого випадку двох вихідних ознак X 1 і X 2 . Коваріаційна матриця для цього набору дорівнює

де s 1 і s 2 - середні квадратичні відхилення ознак X 1 і X 2 а r - коефіцієнт кореляції між ними. Тоді умову (5.12) можна записати у вигляді

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Малюнок 5.1.Геометричний зміст основних компонентів

Розкриваючи визначник, можна отримати рівняння

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

вирішуючи яке, можна отримати два корені l1 і l2. Рівняння (5.11) може бути записано у вигляді


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Підставляючи це рівняння l 1 , отримаємо лінійну систему

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0

рішенням якої є елементи першого власного вектора b11 і b12. Після аналогічної підстановки другого кореня l 2 знайдемо елементи другого власного вектора b 21 і 22 .

5.5 З'ясуємо геометричний зміст основних компонентів. Наочно це можна зробити лише найпростішого випадку двох ознак X 1 і X 2 . Нехай їм характерно двовимірне нормальне розподіл із позитивним значенням коефіцієнта кореляції. Якщо всі індивідуальні спостереження нанести на площину, освічену осями ознак, то відповідні точки розташуються всередині деякого кореляційного еліпса (рис.5.1). Нові ознаки Y 1 та Y 2 також можуть бути зображені на цій же площині у вигляді нових осей. За змістом методу першої головної компоненти Y 1 , що враховує максимально можливу сумарну дисперсію ознак X 1 і X 2 , повинен досягатися максимум її дисперсії. Це означає, що для Y 1 слід знайти та-

ку вісь, щоб ширина розподілу її значень була б найбільшою. Очевидно, що це буде досягатися, якщо ця вісь збігатиметься з найбільшою віссю кореляційного еліпса. Справді, якщо ми спроектуємо всі відповідні індивідуальним спостереженням точки на цю координату, то отримаємо нормальний розподіл із максимально можливим розмахом та найбільшою дисперсією. Це буде розподіл індивідуальних значень першої головної компоненти Y1.

Вісь, що відповідає другій головній компоненті Y 2 повинна бути проведена перпендикулярно до першої осі, так як це випливає з умови некорелюваності головних компонент. Справді, у разі ми отримаємо нову систему координат з осями Y 1 і Y 2 , які збігаються у напрямі з осями кореляційного еліпса. Можна бачити, що кореляційний еліпс при його розгляді в новій системі координат демонструє некорельованість індивідуальних значень Y 1 і Y 2 тоді як для величин вихідних ознак X 1 і X 2 кореляція спостерігалася.

Перехід від осей, пов'язаних з вихідними ознаками X 1 і X 2 до нової системи координат, орієнтованої на головні компоненти Y 1 і Y 2 , рівносильний повороту старих осей на деякий кут j. Його величина може бути знайдена за формулою

Tg 2j = . (5.14)

Перехід від значень ознак X 1 та X 2 до головних компонентів може бути здійснений відповідно до результатів аналітичної геометрії у вигляді

Y 1 = X 1 cos j + X 2 sin j

Y 2 = - X 1 sin j + X 2 cos j.

Цей же результат можна записати у матричному вигляді

Y 1 = cos j sin j X 1 і Y 2 = -sin j cos j X 1 ,

який точно відповідає перетворенню Y 1 = b 1 "Xта Y 2 = b 2 "X. Іншими словами,

= B" . (5.15)

Таким чином, матриця власних векторів може трактуватися як включає тригонометричні функції кута повороту, який слід здійснити для переходу від системи координат, пов'язаної з вихідними ознаками, до нових осей, що спираються на головні компоненти.

Якщо ми маємо m вихідних ознак X 1 , X 2 , X 3 , ..., X m , то спостереження, що складають аналізовану вибірку, розташуються всередині деякого m-мірного кореляційного еліпсоїда. Тоді вісь першої головної компоненти збігається у напрямку найбільшої віссю цього еліпсоїда, вісь другої головної компоненти - з другою віссю цього еліпсоїда і т.д. Перехід від початкової системи координат, пов'язаної з осями ознак X 1 , X 2 , X 3 , ..., X m до нових осей головних компонент виявиться рівносильним здійсненню кількох поворотів старих осей на кути j 1 , j 2 , j 3 , . ., а матриця переходу Bвід набору Xдо системи основних компонент Y, Що складається з власних вік-

торов ковариационной матриці, включає тригонометричні функції кутів нових координатних осей зі старими осями вихідних ознак.

5.6 Відповідно до властивостей власних чисел і векторів сліди коваріаційних матриць вихідних ознак і головних компонент - рівні. Іншими словами

tr S= tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm = l 1 + l 2 + ... + l m ,

тобто. сума власних чисел ковариационной матриці дорівнює сумі дисперсій всіх вихідних ознак. Тому можна говорити про деяку сумарну величину дисперсії вихідних ознак рівної tr S, та враховується системою власних чисел.

Та обставина, що перша головна компонента має максимальну дисперсію, рівну l 1 автоматично означає, що вона описує і максимальну частку сумарної варіації вихідних ознак tr S. Аналогічно, друга головна компонента має другу за величиною дисперсію l 2 що відповідає другий за величиною враховується частці сумарної варіації вихідних ознак і т.д.

Для кожної головної компоненти можна визначити частку сумарної величини мінливості вихідних ознак, яку вона описує

5.7 Вочевидь, уявлення про сумарної варіації набору вихідних ознак X 1 , X 2 , X 3 , ... S, має сенс лише тому випадку, коли всі ці ознаки виміряні в однакових одиницях. В іншому випадку доведеться складати дисперсії, різних ознак, одні з яких будуть виражені у квадратах міліметрів, інші – у квадратах кілограмів, треті – у квадратах радіан чи градусів тощо. Ці труднощі легко уникнути, якщо від іменованих значень ознак X ij перейти до їх нормованих величин z ij = (X ij - Mi). Нормовані ознаки z мають нульові середні, поодинокі дисперсії і пов'язані з будь-якими одиницями виміру. Коваріаційна матриця вихідних ознак Sперетвориться на кореляційну матрицю R.

Все сказане про головні компоненти, що знаходяться для коварійної матриці, залишається справедливим і для матриці R. Тут так само можна, спираючись на власні вектори кореляційної матриці b 1 , b 2 , b 3 , ..., b m , перейти від вихідних ознак z i до головних компонентів y 1 , y 2 , y 3 , ..., y m

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Це перетворення можна також записати у компактному вигляді

y = B"z ,

Малюнок 5.2. Геометричний зміст головних компонент для двох нормованих ознак z1 і z2

де y- Вектор значень головних компонент, B- матриця, що включає власні вектори, z- Вектор вихідних нормованих ознак. Справедливим виявляється і рівність

B"RB= ... ... … , (5.18)

де l 1 , l 2 , l 3 , ..., l m - Власні числа кореляційної матриці.

Результати, що виходять при аналізі кореляційної матриці, відрізняються від аналогічних результатівдля матриці коварійної. По-перше, тепер можна розглядати ознаки, виміряні у різних одиницях. По-друге, власні вектори та числа, знайдені для матриць Rі S, також різні. По-третє, головні компоненти, визначені кореляційної матриці і які спираються на нормовані значення ознак z, виявляються центрованими - тобто. мають нульові середні величини.

На жаль, визначивши власні вектори та числа для кореляційної матриці, перейти від них до аналогічних векторів та числа коваріаційної матриці - неможливо. Насправді зазвичай застосовуються основні компоненти, що спираються на кореляційну матрицю, як універсальні.

5.8 Розглянемо геометричний зміст основних компонентів, визначених за кореляційною матрицею. Наочним тут виявляється випадок двох ознак z1 і z2. Система координат, що з цими нормованими ознаками, має нульову точку, розміщену у центрі графіка (рис.5.2). Центральна точка кореляційного еліпса,

включає всі індивідуальні спостереження, збігається з центром системи координат. Очевидно, що вісь першої головної компоненти, що має максимальну варіацію, збігається з найбільшою віссю кореляційного еліпса, а координата другої головної компоненти буде зорієнтована другої осі цього еліпса.

Перехід від системи координат, пов'язаної з вихідними ознаками z 1 і z 2 до нових осей головних компонент, рівносильний повороту перших осей на деякий кут j. Дисперсії нормованих ознак дорівнюють 1 і за формулою (5.14) можна знайти величину кута повороту j рівну 45 o . Тоді матриця власних векторів, яку можна визначити через тригонометричні функції цього кута за формулою (5.15), дорівнюватиме

Cos j sin j 1 1 1

B" = = .

Sin j cos j (2) 1/2 -1 1

Значення власних чисел для двовимірного випадку також легко знайти. Умова (5.12) виявиться виду

що відповідає рівнянню

l 2 - 2l + 1 - r 2 = 0

яке має два корені

l 1 = 1 + r (5.19)

Таким чином, головні компоненти кореляційної матриці для двох нормованих ознак можуть бути знайдені за дуже простими формулами

Y 1 = (z 1 + z 2) (5.20)

Y 2 = (z 1 - z 2)

Їхні середні арифметичні величини дорівнюють нулю, а середні квадратичні відхилення мають значення

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 Відповідно до властивостей власних чисел та векторів сліди кореляційної матриці вихідних ознак та матриці власних чисел – рівні. Сумарна варіація m нормованих ознак дорівнює m. Іншими словами

tr R= m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m.

Тоді частка сумарної варіації вихідних ознак, що описується i-ою головною компонентоюдорівнює

Можна також запровадити поняття P cn - частки сумарної варіації вихідних ознак, що описується першими n головними компонентами,

n l 1 + l 2 + ... + l n

P cn = S P i =. (5.23)

Та обставина, що для власних чисел спостерігається впорядкованість виду l 1 > l 2 > > l 3 > ... > l m означає, що аналогічні співвідношення будуть властиві і часткам, що описується головними компонентами варіації

P 1 > P 2 > P 3 > ... > P m. (5.24)

Властивість (5.24) тягне у себе специфічний вид залежності накопиченої частки P сn від n (рис.5.3). У разі перші три основні компоненти описують основну частину мінливості ознак. Це означає, що часто деякі перші головні компоненти можуть спільно враховувати до 80 - 90% сумарної варіації ознак, тоді як кожна наступна головна компонента буде збільшувати цю частку дуже незначно. Тоді для подальшого розгляду та інтерпретації можна використовувати лише ці небагато перших головних компонентів з упевненістю, що саме вони описують найважливіші закономірності внутрішньогрупової мінливості та корелюваності.

Малюнок 5.3.Залежність частки сумарної варіації ознак P cn описується n першими головними компонентами, від величини n. Число ознак m = 9

Малюнок 5.4. До визначення конструкції критерію відсіювання основних компонентів

ознак. Завдяки цьому кількість інформативних нових змінних, з якими слід працювати, може бути зменшена в 2 - 3 рази. Таким чином, головні компоненти мають ще одне важливе та корисна властивість- вони значно полегшують опис варіації вихідних ознак і роблять його компактнішим. Таке зменшення кількості змінних завжди бажано, але воно пов'язане з деякими спотвореннями взаємного розташування точок, що відповідають окремим спостереженням, у просторі небагатьох перших головних компонентів порівняно з m-мірним простором вихідних ознак. Ці спотворення виникають через спробу втиснути простір ознак у простір перших головних компонентів. Однак, у математичній статистиці доводиться, що з усіх методів, що дозволяють значно зменшити кількість змінних, перехід до основних компонентів призводить до найменших спотворень структури спостережень пов'язаних із цим зменшенням.

5.10 Важливим питанняманалізу основних компонентів є проблема визначення їх кількості для подальшого розгляду. Очевидно, що збільшення числа головних компонент підвищує накопичену частку мінливості P cn, що враховується, і наближає її до 1. Одночасно, компактність одержуваного опису зменшується. Вибір тієї кількості основних компонент, яка одночасно забезпечує і повноту і компактність опису може базуватися на різних умовах, що застосовуються на практиці. Перерахуємо найпоширеніші їх.

Перший критерій заснований на тому міркуванні, що кількість основних компонент, що враховуються, повинна забезпечувати достатню інформативну повноту опису. Інакше кажучи, аналізовані основні компоненти повинні описувати більшість сумарної мінливості вихідних ознак: до 75 - 90%. Вибір конкретного рівня накопиченої частки P cn залишається суб'єктивним і залежить як від думки дослідника, і від вирішуваного завдання.

Інший аналогічний критерій (критерій Кайзера) дозволяє включати в розгляд основні компоненти зі своїми числами більшими 1. Він заснований на тому міркуванні, що 1 - це дисперсія однієї нормованої вихідної ознаки. Поет-

му, включення до подальшого розгляду всіх головних компонент зі своїми числами великими 1 означає що ми розглядаємо ті нові змінні, які мають дисперсії щонайменше ніж в однієї вихідного ознаки. Критерій Кайзера дуже поширений і його використання закладено в багато пакетів програм статистичної обробкиданих, коли потрібно задати мінімальну величину власного числа, що враховується, і за замовчуванням часто приймається значення рівне 1.

Дещо краще теоретично обгрунтований критерій відсіювання Кеттела. Його застосування ґрунтується на розгляді графіка, на якому нанесено значення всіх власних чисел у порядку їх зменшення (рис.5.4). Критерій Кеттела заснований на тому ефект, що нанесена на графік послідовність величин отриманих власних чисел зазвичай дає увігнуту лінію. Декілька перших власних чисел виявляють непрямолинійне зменшення свого рівня. Однак, починаючи з деякого власного числа, зменшення рівня стає приблизно прямолінійним і досить пологим. Включення основних компонентів у розгляд завершується тієї їх, власне число якої починає прямолінійний пологий ділянку графіка. Так, на малюнку 5.4 у відповідність до критерію Кеттела в розгляд слід включити лише перші три основні компоненти, тому що третє власне число знаходиться на самому початку прямолінійної пологої ділянки графіка.

Критерій Кеттела ґрунтується на наступному. Якщо розглядати дані за m ознаками, штучно отримані з таблиці нормально розподілених випадкових чисел, то для них кореляції між ознаками носитимуть цілком випадковий характер і будуть близькими до 0. При знаходженні тут головних компонентів можна буде виявити поступове зменшення величини їх власних чисел, що має прямолінійну характер. Іншими словами, прямолінійне зменшення власних чисел може свідчити про відсутність у відповідній їм інформації про корелювання ознак невипадкових зв'язків.

5.11 При інтерпретації основних компонентів найчастіше застосовуються власні вектори, представлені у вигляді про навантажень - коефіцієнтів кореляції вихідних ознак з основними компонентами. Власні вектори b i, що задовольняють рівності (5.18), виходять у нормованому вигляді, так що b i "b i= 1. Це означає, що сума квадратів елементів кожного власного вектора дорівнює 1. Власні вектори, елементи яких є навантаженнями, можуть бути легко знайдені за формулою

a i= (l i) 1/2 b i . (5.25)

Іншими словами, примноженням нормованої форми власного вектора на квадратний корінь його власного числа, можна отримати набір навантажень вихідних ознак на відповідну головну компоненту. Для векторів навантажень справедливим виявляється рівність a i "a i= l i , Що означає, що сума квадратів навантажень на i-ю головну компоненту дорівнює i-му власному числу. Комп'ютерні програми зазвичай виводять власні вектори у вигляді навантажень. При необхідності отримання цих векторів у нормованому вигляді b iце можна зробити за простою формулою b i = a i/ (l i) 1/2.

5.12 Математичні властивості власних чисел та векторів такі, що відповідно до розділу А.25Додатки А вихідна кореляційна матриця Rможе бути представлена ​​у вигляді R = BLB", що також можна записати як

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + l m b m b m " . (5.26)

Слід зазначити, що кожен із членів l i b i b i ", відповідний i-ї головноїкомпоненті, є квадратною матрицею

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i "= l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im. (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Тут b ij - елемент i-го власного вектора у j-го вихідного ознаки. Будь-який діагональний член такої матриці l i b ij 2 є деяка частка варіації j-го ознаки, що описується i-ю головною компонентою. Тоді дисперсія будь-якої j-ї ознаки може бути представлена ​​у вигляді

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

що означає її розкладання по вкладах, що залежать від усіх основних компонентів.

Аналогічно, будь-який позадіагональний член l i b ij b ik матриці (5.27) є деякою частиною коефіцієнта кореляції r jk j-го та k-го ознак, що враховується i-ю головною компонентою. Тоді можна виписати розкладання цього коефіцієнта у вигляді суми

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

вкладів у нього всіх m основних компонентів.

Таким чином, з формул (5.28) та (5.29) можна наочно бачити, що кожна головна компонента описує певну частину дисперсії кожної вихідної ознаки та коефіцієнта кореляції кожного їх поєднання.

З урахуванням того, що елементи нормованої форми власних векторів b ij пов'язані з навантаженнями a ij простим співвідношенням (5.25), розкладання (5.26) може бути виписано і через власні вектори навантажень R = AA", що також можна уявити як

R = a 1 a 1" + a 2 a 2" + a 3 a 3" + ... + a m a m" , (5.30)

тобто. як суму вкладів кожної з m основних компонентів. Кожен із цих вкладів a i a i "можна записати у вигляді матриці

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a i "= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

на діагоналях якої розміщені a ij 2 - вклади в дисперсію j-ї вихідної ознаки, а позадіагональні елементи a ij a ik - є аналогічні вклади в коефіцієнт кореляції r jk j-го та k-го ознак.

При моделюванні виробничо-економічних процесів, що нижчий рівень аналізованої виробничої підсистеми (структурного піврозділу, досліджуваного процесу), характерніша для вхідних параметрів відносна незалежність визначальних їх чинників. При аналізі основних якісних показників роботи підприємства (продуктивність праці, собівартості продукції, прибутку та інших показників) доводиться мати справу з моделюванням процесів із взаємозалежною системою вхідних параметрів (факторів). У цьому процес статистичного моделювання систем характеризується сильною корелюваністю, а окремих випадках майже лінійної залежністю визначальних чинників (вхідних параметрів процесу). Це випадок мультиколінеарності, тобто. Суттєвої взаємозалежності (корелювання) вхідних параметрів, модель регресії тут не відображає адекватно реального досліджуваного процесу. Якщо використовувати додавання чи відкидання низки чинників, збільшення чи зменшення обсягу вихідної інформації (кількості спостережень), це істотно змінить модель досліджуваного процесу. Застосування такого підходу може різко змінити і величини коефіцієнтів регресії, що характеризують вплив досліджуваних факторів, і навіть напрямок їхнього впливу (знак при коефіцієнтах регресії може змінитися протилежний при переході від однієї моделі до іншої).

З досвіду наукових досліджень відомо, що більшість економічних процесів відрізняється високим ступенем взаємовпливу (інтеркореляції) параметрів (факторів, що вивчаються). При розрахунках регресії моделей, що моделюються, за цими факторами виникають труднощі в інтерпретації значень коефіцієнтів у моделі. Така мультиколлінеарність параметрів моделі часто носить локальний характер, тобто істотно пов'язані між собою не всі фактори, що досліджуються, а окремі групи вхідних параметрів. Найбільш загальний випадок мультиколлінеарних систем характеризується таким набором досліджуваних факторів, частина з яких утворює окремі групи з сильно взаємопов'язаною внутрішньою структурою і практично не пов'язаних між собою, а частина є окремими факторами, несформованими в блоки і несуттєво пов'язаними як між собою, так і з іншими факторами, що входять до груп з сильною інтеркореляцією.



Для моделювання такого типу процесів потрібно вирішення проблеми про спосіб заміни сукупності суттєво взаємопов'язаних факторів на будь-який інший набір некорельованих параметрів, що має одну важливу властивість: новий набір незалежних параметрів повинен нести в собі всю необхідну інформацію про варіацію або дисперсію початкового набору факторів досліджуваного процесу. Ефективним засобом вирішення такої задачі є використання методу основних компонентів. З використанням цього виникає завдання економічної інтерпретації комбінацій вихідних чинників, які у набори основних компонентів. Метод дозволяє зменшити кількість вхідних параметрів моделі, що спрощує використання регресійних рівнянь, що одержуються в результаті.

Сутність обчислення головних компонентів полягає у визначенні кореляційної (коваріаційної) матриці для вихідних факторів X j і знаходження характеристичних чисел (власних значень) матриці та відповідних векторів. Характеристичні числа є дисперсіями нових перетворених змінних і кожного характеристичного числа відповідний вектор дає вагу, з яким старі змінні входять у нові. Основні компоненти – це лінійні комбінації вихідних статистичних величин. Перехід від вихідних (спостерігаються) факторів до векторів головних компонентів здійснюється за допомогою повороту координатних осей.

Для регресійного аналізу використовують, зазвичай, лише кілька перших основних компонент, які у сумі пояснюють від 80 до 90 % всієї вихідної варіації чинників, інші їх відкидаються. Якщо всі компоненти включені в регресію, результат її, виражений через початкові змінні, буде ідентичний множинному рівнянню регресії.

Алгоритм обчислення основних компонентів

Припустимо, є mвекторів (початкових факторів) розмірністю n(кількість вимірювань), які становлять матрицю Х:

Оскільки, як правило, основні фактори процесу, що моделюється, мають різні одиниці виміру (одні виражені в кг, інші - в км, треті - в грошових одиницях і т. д.), для їх зіставлення, порівняння ступеня впливу, застосовують операцію масштабування і центрування. Перетворені вхідні фактори позначимо через y ij. Як масштаби вибираються найчастіше величини стандартних (середньоквадратичних) відхилень:

де j - середнє квадратичне відхилення X j ; j 2 - дисперсія; - середнє значення вихідних факторів у даній j-ій серії спостережень

(Центрованою випадковою величиною називається відхилення випадкової величини від її математичного очікування. Нормувати величину х – означає перейти до нової величини у, на яку середня величина дорівнює нулю, а дисперсія – одиниці).

Визначимо матрицю парних коефіцієнтів кореляції

де у ij – нормоване та центроване значення x j –і випадкової величини для i-го виміру; y ik – значення для k-й випадковийвеличини.

Значення r jk характеризує ступінь розкиду точок стосовно лінії регресії.

Шукана матриця основних компонент F визначається з наступного співвідношення (тут використовується транспонована, - "повернена на 90 0" - матриця величин y ij):

або використовуючи векторну форму:

,

де F - матриця основних компонент, що включає сукупність nотриманих значень для mосновних компонент; елементи матриці А є ваговими коефіцієнтами, що визначають частку кожної головної компоненти у вихідних факторах.

Елементи матриці А перебувають з наступного виразу

де u j - Власний вектор матриці коефіцієнтів кореляції R; λ j – відповідне власне значення.

Число λ називається власним значенням (або характеристичним числом) квадратної матриці R порядку m, якщо можна підібрати такий m-вимірний ненульовий власний вектор u, що Ru = λu.

Безліч власних значень матриці R збігається з безліччю всіх рішень рівняння |R - λE| = 0. Якщо розкрити визначник det | R - λE |, то вийде характеристичний багаточлен матриці R. Рівняння | = 0 називається характеристичним рівнянням матриці R.

Приклад визначення власних значень та власних векторів. Дано матрицю.

Її характеристичне рівняння

Це рівняння має коріння λ 1 =18, λ 2 =6, λ 3 =3. знайдемо власний вектор (напрямок), що відповідає λ 3 . Підставляючи λ 3 в систему, отримаємо:

8u 1 – 6u 2 +2u 3 = 0

6u 1 + 7u 2 - 4u 3 = 0

2u 1 - 4u 2 + 3u 3 = 0

Оскільки визначник цієї системи дорівнює нулю, то згідно з правилами лінійної алгебри можна відкинути останнє рівняння і вирішувати отриману систему по відношенню до довільної змінної, наприклад u 1 = с= 1

6 u 2 + 2u 3 = - 8c

7 u 2 – 4 u 3 = 6 c

Звідси отримаємо власний напрямок (вектор) для λ 3 =3

1 таким же чином можна знайти власні вектори

Загальний принцип, що лежить в основі процедури знаходження основних компонентів, показаний на рис. 29.



Мал. 29. Схема зв'язку основних компонентів зі змінними

Вагові коефіцієнти характеризують ступінь впливу (і спрямованість) даного “прихованого” узагальнюючого властивості (глобального поняття) значення вимірюваних показників Х j .

Приклад інтерпретації результатів компонентного аналізу:

Назва головної компоненти F 1 визначається наявністю у її структурі значущих ознак Х 1 , Х 2 , Х 4 , Х 6 , вони представляють характеристики ефективності виробничої діяльності, тобто. F 1 - ефективність виробництва.

Назва головної компоненти F 2 визначається наявністю у її структурі значущих ознак Х 3 Х 5 Х 7, тобто. F 2 - це розмір виробничих ресурсів.

ВИСНОВОК

У посібнику дано методичні матеріали, призначені для освоєння економіко-математичного моделювання з метою обґрунтування управлінських рішень, що приймаються. Велику увагу приділено математичному програмуванню, включаючи цілісне програмування, нелінійне програмування, динамічне програмування, задачам транспортного типу, теорії масового обслуговування, методу основних компонентів. Докладно розглянуто моделювання на практиці організації та управління виробничими системами, у підприємницької діяльності та фінансовому менеджменті. Вивчення представленого матеріалу передбачає широке використання техніки моделювання та розрахунків з використанням комплексу програм PRIMA та серед електронної таблиці Excel.

Метод основних компонент

Метод основних компонент(англ. Principal component analysis, PCA ) - один з основних способів зменшити розмірність даних, втративши найменшу кількість інформації. Винайдений К. Пірсон (англ. Karl Pearson ) у р. Застосовується у багатьох галузях, як-от розпізнавання образів , комп'ютерний зір , стиск даних тощо. п. Обчислення основних компонентів зводиться до обчислення власних векторів та власних значень ковариационной матриці вихідних даних. Іноді метод головних компонентів називають перетворенням Кархунена-Лоева(англ. Karhunen-Loeve) або перетворенням Хотеллінга (англ. Hotelling transform). Інші способи зменшення розмірності даних - це метод незалежних компонентів, багатовимірне шкалювання, а також численні нелінійні узагальнення: метод головних кривих і різноманіття, метод пружних карт, пошук найкращої проекції (англ. Projection Pursuit), нейромережевые методи «вузького горла», та інших.

Формальна постановка задачі

Завдання аналізу основних компонентів, має, як мінімум, чотири базові версії:

  • апроксимувати дані лінійними різноманіттями меншої розмірності;
  • знайти підпростори меншої розмірності, в ортогональній проекції на які розкид даних (тобто середньоквадратичне відхилення від середнього значення) максимальний;
  • знайти підпростори меншої розмірності, в ортогональній проекції на які середньоквадратична відстань між точками максимально;
  • для даної багатовимірної випадкової величини побудувати таке ортогональне перетворення координат, що в результаті кореляції між окремими координатами обернуться в нуль.

Перші три версії оперують кінцевими множинами даних. Вони еквівалентні і не використовують жодної гіпотези щодо статистичного породження даних. Четверта версія оперує випадковими величинами. Кінцеві множини з'являються тут як вибірки з даного розподілу, а вирішення трьох перших завдань - як наближення до «справжнього» перетворення Кархунена-Лоева. При цьому виникає додаткове і не цілком очевидне питання про точність цього наближення.

Апроксимація даних лінійними різноманіттями

Ілюстрація до знаменитої роботи К. Пірсона (1901): дано крапки на площині, - відстань від до прямої. Шукається пряма , що мінімізує суму

Метод головних компонентів починався із завдання найкращої апроксимації кінцевої множини точок прямими і площинами (К. Пірсон, 1901). Дана кінцева безліч векторів. Для кожного серед усіх - мірних лінійних різноманіття в знайти таке , що сума квадратів ухилень від мінімальна:

,

де - евклідова відстань від точки до лінійного різноманіття. Будь-яке - мірне лінійне різноманіття може бути задане як безліч лінійних комбінацій , де параметри пробігають речовинну пряму , а - ортонормований набір векторів

,

де евклідова норма, - евклідовий скалярний твір, або в координатній формі:

.

Розв'язання задачі апроксимації для дається набором вкладених лінійних різноманітностей, . Ці лінійні різноманіття визначаються ортонормованим набором векторів (векторами основних компонентів) і вектором. Вектор шукається як вирішення задачі мінімізації для :

.

Вектори головних компонентів можуть бути знайдені як рішення однотипних задач оптимізації :

1) централізуємо дані (віднімаємо середнє): . Тепер; 2) знаходимо першу головну компоненту як розв'язання задачі;.

Якщо рішення не єдине, то вибираємо одне з них.

3) Віднімаємо з даних проекцію першу головну компоненту: ;

4) знаходимо другу головну компоненту як розв'язання задачі.

Якщо рішення не єдине, то вибираємо одне з них.

… 2k-1) Віднімаємо проекцію на -ю головну компоненту (нагадаємо, що проекції на попередні основні компоненти вже віднято): ;

2k) знаходимо k-ю головну компоненту як розв'язання задачі: . Якщо рішення не єдине, то вибираємо одне з них.

На кожному етапі віднімаємо проекцію на попередню головну компоненту. Знайдені вектори ортонормовані просто в результаті розв'язання описаної задачі оптимізації, проте щоб не дати помилкам обчислення порушити взаємну ортогональність векторів головних компонентів, можна включати умови завдання оптимізації.

Неєдиність у визначенні крім тривіального свавілля у виборі знака (і вирішують те саме завдання) може бути більш істотною і відбуватися, наприклад, з умов симетрії даних. Остання головна компонента - одиничний вектор, ортогональний всім попереднім.

Пошук ортогональних проекцій з найбільшим розсіюванням

Перша головна компонента максимізує вибіркову дисперсію проекції даних

B як початкове наближення вектора візьмемо випадковий вектор одиничної довжини, обчислюємо вектор , далі для цього вектора обчислюємо вектор і т. д. Кожен крок зменшує значення . Як критерій зупинки використовується трохи відносного зменшення значення мінімізованого функціоналу за крок ітерації () або трохи самого значення.

У результаті матриці отримали найкраще наближення матрицею виду (тут верхнім індексом позначено номер наближення). Далі, з матриці віднімаємо отриману матрицю і для отриманої матриці ухилень знову шукаємо найкраще наближення цього ж виду і т. д., поки, наприклад, норма не стане достатньо малою. Через війну отримали ітераційну процедуру розкладання матриці як суми матриць рангу 1, тобто . В результаті отримана апроксимація сингулярних чисел і сингулярних векторів (правих - і лівих - ).

До переваг цього алгоритму відноситься його виняткова простота і можливість майже без змін перенести його на дані з пробілами, а також зважені дані.

Існують різні модифікації базового алгоритму, що покращують точність та стійкість. Наприклад, вектори головних компонент при різних повинні бути ортогональні «по побудові», проте при великій кількості ітерації (велика розмірність, багато компонентів) малі відхилення від ортогональності накопичуються і може знадобитися спеціальна корекція на кожному кроці, що забезпечує його ортогональність раніше знайденим головним компонентам.

Сингулярне розкладання тензорів та тензорний метод головних компонент

Часто вектор даних має додаткову структуру прямокутної таблиці (наприклад, плоске зображення) чи навіть багатовимірної таблиці - тобто тензора : , . У цьому випадку також ефективно застосовувати сингулярне розкладання. Визначення, основні формули та алгоритми переносяться практично без змін: замість матриці даних маємо -індексну величину, де перший індекс -номер точки (тензора) даних.

Основна процедура - пошук найкращого наближення тензора тензором виду (де - мірний вектор ( - число точок даних), - вектор розмірності при ) методом найменших квадратів:

Вирішення цієї задачі дається послідовними ітераціями за явними формулами. Якщо задані всі вектори-співмножники крім одного , то цей визначається явно з достатніх умов мінімуму.

B як початкове наближення векторів () візьмемо випадкові вектори одиничної довжини, обчислимо вектор , далі для цього вектора і даних векторів обчислюємо вектор і т. д. (циклічно перебираючи індекси) Кожен крок зменшує значення . Алгоритм, мабуть, сходиться. Як критерій зупинки використовується трохи відносного зменшення значення мінімізованого функціоналу за цикл або трохи самого значення. Далі, з тензора віднімаємо отримане наближення і для залишку знову шукаємо найкраще наближення цього виду і т. д., поки, наприклад, норма чергового залишку не стане достатньо малою.

Це багатокомпонентне сингулярне розкладання (тензорний метод головних компонентів) успішно застосовується при обробці зображень, відеосигналів, і, ширше, будь-яких даних, що мають табличну або тензорну структуру.

Матриця перетворення до основних компонентів

Матриця перетворення даних до основних компонентів складається з векторів основних компонентів, розташованих у порядку зменшення своїх значень:

( означає транспонування),

Тобто, матриця є ортогональною.

Більшість варіації даних буде зосереджено в перших координатах, що дозволяє перейти до простору меншої розмірності.

Залишкова дисперсія

Нехай дані центровані, . При заміні векторів даних на їхню проекцію на перші головні компоненти вноситься середній квадрат помилки з розрахунку на один вектор даних:

де власні значення емпіричної коваріаційної матриці, розташовані в порядку зменшення, з урахуванням кратності.

Ця величина називається залишковою дисперсією. Величина

називається поясненою дисперсією. Їхня сума дорівнює вибірковій дисперсії. Відповідний квадрат відносної помилки – це відношення залишкової дисперсії до вибіркової дисперсії (тобто частка непоясненої дисперсії):

По відносній помилці оцінюється застосування методу основних компонентів з проектуванням на перші компоненти.

Зауваження: у більшості обчислювальних алгоритмів власні числа з відповідними власними векторами - головними компонентами обчислюються в порядку від великих до менших. Для обчислення достатньо обчислити перші власних чисел і слід емпіричної матриці коваріаційної , (суму діагональних елементів , тобто дисперсій по осях). Тоді

Відбір основних компонентів за правилом Кайзера

Цільовий підхід до оцінки числа головних компонент за необхідною часткою поясненої дисперсії формально застосовується завжди, проте неявно він передбачає, що немає поділу на «сигнал» і «шум», і будь-яка задана точність має сенс. Тому часто продуктивніша інша евристика, що ґрунтується на гіпотезі про наявність «сигналу» (порівняно мала розмірність, відносно велика амплітуда) і «шума» (велика розмірність, відносно мала амплітуда). З цього погляду метод головних компонент працює як фільтр: сигнал міститься, переважно, у проекції перші головні компоненти, а інших компонентах пропорція шуму набагато вище.

Питання: як оцінити кількість необхідних основних компонентів, якщо ставлення «сигнал/шум» наперед невідоме?

Найпростіший і найстаріший методвідбору основних компонентів дає правило Кайзера(англ. Kaiser"s rule): значущі основні компоненти, котрим

тобто перевершує середнє значення (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює у найпростіших випадках, коли є кілька основних компонент з , набагато перевершують середнє значення, а інші власні числа менші за нього. У складніших випадках може давати дуже багато значних основних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію по осях, то правило Кайзера набуває особливо простого вигляду: значущі ті основні компоненти, котрим

Оцінка числа основних компонентів за правилом зламаної тростини

Приклад: оцінка числа основних компонентів за правилом зламаної тростини у розмірності 5.

Одним із найбільш популярних евристичних підходів до оцінки кількості необхідних головних компонентів є правило зламаної тростини(англ. Broken stick model). Набір нормованих на одиничну суму власних чисел (, ) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаною у випадковій вибраній точці (точки розлому вибираються незалежно і рівнорозподілені по довжині тростини). Нехай () - Довжини отриманих шматків тростини, занумеровані в порядку зменшення довжини: . Неважко знайти математичне очікування:

За правилом зламаної тростини -й власний вектор (у порядку зменшення своїх чисел ) зберігається у списку головних компонент, якщо

Рис. наведено приклад для 5-вимірного випадку:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Для прикладу вибрано

=0.5; =0.3; =0.1; =0.06; =0.04.

За правилом зламаної тростини в цьому прикладі слід залишати 2 головні компоненти:

За оцінками користувачів, правило зламаної тростини має тенденцію занижувати кількість значних основних компонент.

Нормування

Нормування після приведення до основних компонентів

Післяпроектування на перші основні компоненти зручно зробити нормування на одиничну (вибіркову) дисперсію по осях. Дисперсія вздовж і головної компоненти дорівнює ), тому для нормування треба розділити відповідну координату на . Це перетворення не є ортогональним та не зберігає скалярного твору. Коваріаційна матриця проекції даних після нормування стає одиничною, проекції на будь-які два ортогональних напрямки стають незалежними величинами, а будь-який ортонормований базис стає базисом основних компонентів (нагадаємо, що нормування змінює відношення ортогональності векторів). Відображення з простору вихідних даних на перші головні компоненти разом з нормуванням задається матрицею

.

Саме це перетворення найчастіше називається перетворенням Кархунена-Лоева. Тут – вектори-стовпці, а верхній індекс означає транспонування.

Нормування до обчислення основних компонентів

Попередження: не слід плутати нормування, яке проводиться після перетворення до головних компонентів, з нормуванням та «знерозмірюванням» при передобробці даних, що проводиться до обчислення основних компонентів. Попереднє нормування необхідне для обґрунтованого вибору метрики, в якій обчислюватиметься найкраща апроксимація даних, або шукатимуть напрями найбільшого розкиду (що еквівалентно). Наприклад, якщо дані являють собою тривимірні вектори з «метрів, літрів і кілограм», то при використанні стандартної евклідової відстані різниця в 1 метр по першій координаті вноситиме той самий внесок, що різниця в 1 літр по другій, або в 1 кг по третій . Зазвичай системи одиниць, в яких представлені вихідні дані, недостатньо точно відображають наші уявлення про природні масштаби по осях, і проводиться «обезрозмірювання»: кожна координата поділяється на певний масштаб, який визначається даними, метою їх обробки та процесами вимірювання та збору даних.

Є три істотно різні стандартні підходи до такого нормування: на одиничну дисперсіюпо осях (масштаби по осях дорівнюють середнім квадратичним ухиленням - після цього перетворення коваріаційна матриця збігається з матрицею коефіцієнтів кореляції), на рівну точність виміру(Маштаб по осі пропорційний точності вимірювання даної величини) і на рівні вимогиу завданні (масштаб по осі визначається необхідною точністю прогнозу даної величини або допустимим її спотворенням - рівнем толерантності). На вибір передобробки впливають змістовна постановка завдання, а також умови збору даних (наприклад, якщо колекція даних принципово не завершена і дані ще надходити, то нераціонально вибирати нормування строго на одиничну дисперсію, навіть якщо це відповідає змісту завдання, оскільки це передбачає перенормування всіх даних після отримання нової порції; розумніше вибрати деякий масштаб, що грубо оцінює стандартне відхилення, і далі його не міняти).

Попереднє нормування на одиничну дисперсію по осях руйнується поворотом системи координат, якщо осі є головними компонентами, і нормування при передобробці даних не замінює нормування після приведення до головних компонентів.

Механічна аналогія та метод головних компонент для зважених даних

Якщо зіставити кожному вектору даних одиничну масу, то емпірична матриця коварії збігається з тензором інерції цієї системи точкових мас (поділеним на повну масу), а задача про головні компоненти - із завданням приведення тензора інерції до головних осях. Можна використовувати додаткову свободу у виборі значень мас для врахування важливості точок даних або надійності їх значень (важливими даними або даними з більш надійних джерел приписуються великі маси). Якщо вектору даних надається маса ,то замість емпіричної коваріаційної матриці отримаємо

Всі подальші операції з приведення до основних компонентів виробляються так само, як і в основній версії методу: шукаємо ортонормований власний базис, впорядковуємо його за зменшенням власних значень, оцінюємо середньозважену помилку апроксимації даних першими компонентами (за сумами власних чисел), нормуємо. .

Більше загальний спосібзважування дає максимізація виваженої суми попарних відстанейміж проекціями. Для кожних двох точок даних вводиться вага ; та . Замість емпіричної коваріаційної матриці використовується

При симетричній матриці позитивно визначено, оскільки позитивна квадратична форма:

Далі шукаємо ортонормований власний базис, впорядковуємо його за зменшенням власних значень, оцінюємо середньозважену помилку апроксимації даних першими компонентами і т. д. - точно так, як і в основному алгоритмі.

Цей спосіб застосовується за наявності класів: для різних класів вага вага вибирається більшим, ніж для точок одного класу. У результаті в проекції на зважені головні компоненти різні класи"розсуваються" на більшу відстань.

Інше застосування - зниження впливу великих ухилень(Оутлайєр, англ. Outlier ), які можуть спотворювати картину через використання середньоквадратичної відстані: якщо вибрати , вплив великих ухилень буде зменшено. Таким чином, описана модифікація методу головних компонент є більш робастною, ніж класична.

Спеціальна термінологія

У статистиці під час використання методу головних компонент використовують кілька спеціальних термінів.

Матриця даних; кожен рядок - вектор передопрацьованихданих ( центрованихі вірно нормованих), число рядків – (кількість векторів даних), число стовпців – (розмірність простору даних);

Матриця навантажень(Loadings); кожен стовпець - вектор головних компонент, число рядків - (розмірність простору даних), число стовпців - (кількість векторів головних компонентів, вибраних для проектування);

Матриця рахунків(Scores); кожен рядок – проекція вектора даних на головні компоненти; число рядків - (кількість векторів даних), кількість стовпців - (кількість векторів основних компонентів, вибраних для проектування);

Матриця Z-рахунків(Z-scores); кожен рядок - проекція вектора даних на головні компоненти, нормована на одиничну вибіркову дисперсію; число рядків - (кількість векторів даних), кількість стовпців - (кількість векторів основних компонентів, вибраних для проектування);

Матриця помилок(або залишків) (Errors or residuals) .

Основна формула:

Межі застосування та обмеження ефективності методу

Метод основних компонентів застосовний завжди. Поширене твердження про те, що він застосовний тільки до нормально розподілених даних (або для розподілів, близьких до нормальних) неправильно: у вихідному формулюванні К. Пірсона ставиться завдання про апроксимаціїкінцевої множини даних і відсутня навіть гіпотеза про їхнє статистичне породження, не кажучи вже про розподіл.

Однак метод не завжди ефективно знижує розмірність при заданих обмеженнях на точність. Прямі та площини не завжди забезпечують хорошу апроксимацію. Наприклад, дані можуть з хорошою точністю дотримуватися будь-якої кривої, а ця крива може бути складно розташована в просторі даних. У цьому випадку метод головних компонент для прийнятної точності вимагатиме кількох компонентів (замість однієї), або взагалі не дасть зниження розмірності при прийнятній точності. Для роботи з такими «кривими» головними компонентами винайдено метод головних різноманітностей і різні версії нелінійного методу головних компонентів. Більше неприємностей можуть завдати дані складної топології. Для їх апроксимації також винайдені різні методи, наприклад карти Кохонена, що самоорганізуються, нейронний газ або топологічні граматики. Якщо дані статистично породжені з розподілом, який сильно відрізняється від нормального, то для апроксимації розподілу корисно перейти від головних компонент до незалежним компонентам, які вже не ортогональні у вихідному скалярному творі Нарешті, для ізотропного розподілу (навіть нормального) замість еліпсоїда розсіювання отримуємо кулю, і зменшити розмірність методами апроксимації неможливо.

Приклади використання

Візуалізація даних

Візуалізація даних - подання у наочній формі даних експерименту чи результатів теоретичного дослідження.

Першим вибором у візуалізації безлічі даних є ортогональне проектування на площину перших двох головних компонентів (або 3-мірне простір перших трьох головних компонентів). Площина проектування є, по суті, плоским двовимірним «екраном», розташованим таким чином, щоб забезпечити «картинку» даних з найменшими спотвореннями. Така проекція буде оптимальною (серед усіх ортогональних проекцій на різні двовимірні екрани) у трьох відношеннях:

  1. Мінімальна сума квадратів відстаней від точок даних до проекцій на площину перших головних компонентів, тобто екран розташований максимально близько по відношенню до хмари точок.
  2. Мінімальна сума спотворень квадратів відстаней між усіма парами точок із хмари даних після проектування точок на площину.
  3. Мінімальна сума спотворень квадратів відстаней між усіма точками даних та їх «центром тяжіння».

Візуалізація даних одна із найбільш широко використовуваних додатків методу головних компонент та її нелінійних узагальнень .

Компресія зображень та відео

Для зменшення просторової надмірності пікселів під час кодування зображень та відео використовується лінійні перетворення блоків пікселів. Наступні квантування отриманих коефіцієнтів та кодування без втрат дозволяють одержати значні коефіцієнти стиснення. Використання перетворення PCA як лінійного перетворення є для деяких типів даних оптимальним з погляду розміру отриманих даних при однаковому спотворенні. на Наразіцей метод активно не використовується, в основному через велику обчислювальну складність. Також стиснення даних можна досягти, відкидаючи останні коефіцієнти перетворення.

Придушення шуму на зображеннях

Хемометрика

Метод головних компонентів - один з основних методів у хемометриці (англ. Chemometrics ). Дозволяє розділити матрицю вихідних даних X на дві частини: «змістовну» та «шум». За найбільш популярним визначенням «Хемометрика - це хімічна дисципліна, що застосовує математичні, статистичні та інші методи, засновані на формальній логіці, для побудови або відбору оптимальних методів вимірювання та планів експерименту, а також для отримання найбільш важливої ​​інформаціїпід час аналізу експериментальних даних».

Психодіагностика

  1. аналіз даних (опис результатів опитувань чи інших досліджень, які у вигляді масивів числових даних);
  2. опис соціальних явищ(Побудова моделей явищ, у тому числі і математичних моделей).

У політології метод головних компонентів був основним інструментом проекту «Політичний Атлас Сучасності» для лінійного та нелінійного аналізу рейтингів 192 країн світу за п'ятьма спеціально розробленими інтегральними індексами (рівня життя, міжнародного впливу, загроз, державності та демократії). Для картографії результатів цього аналізу розроблено спеціальну ГІС (Геоінформаційну систему), що поєднує географічний простір з простором ознак. Також створено карти даних політичного атласу, які використовують як підкладку двовимірні головні різноманіття в п'ятивимірному просторі країн. Відмінність карти даних від географічної карти у тому, що у географічної карті поруч виявляються об'єкти, які мають подібні географічні координати, тоді як у карті даних поруч виявляються об'єкти (країни) з подібними ознаками (індексами).

У прагненні гранично точно описати досліджувану область аналітики часто відбирають велику кількість незалежних змінних (p). У цьому випадку може виникнути серйозна помилка: кілька описувальних змінних можуть характеризувати ту саму сторону залежної змінної і, як наслідок, високо корелювати між собою. Мультиколлінеарність незалежних змінних серйозно спотворює результати дослідження, тому її слід позбавлятися.

p align="justify"> Метод головних компонент (як спрощена модель факторного аналізу, оскільки при цьому методі не використовуються індивідуальні фактори, що описують тільки одну змінну x i) дозволяє об'єднати вплив високо корелюваних змінних в один фактор, що характеризує залежну змінну з одного боку. В результаті аналізу, здійсненого за методом головних компонентів, ми досягнемо стиснення інформації до необхідних розмірів, опису залежної змінної m (m

Для початку необхідно вирішити, скільки факторів необхідно виділити у цьому дослідженні. У рамках методу головних компонентів перший головний фактор визначає найбільший відсоток дисперсії незалежних змінних, далі – за спадною. Таким чином, кожна наступна головна компонента, виділена послідовно, пояснює меншу частку мінливості факторів x i . Завдання дослідника полягає в тому, щоб визначити, коли мінливість стає дійсно малою та випадковою. Іншими словами – скільки основних компонентів необхідно вибрати для подальшого аналізу.

Існує кілька методів раціонального виділення необхідної кількості факторів. Найбільш використовуваний із них – критерій Кайзера. Відповідно до цього критерію, відбираються ті чинники, власні значення яких більше 1. Отже, чинник, який пояснює дисперсію, еквівалентну, по крайнього заходу, дисперсії однієї змінної, опускається.



Проаналізуємо Таблицю 19, побудовану у SPSS:

Таблиця 19. Повна пояснена дисперсія

Компоненти Початкові власні значення Суми квадратів навантажень обертання
Разом % Дисперсії Кумулятивний % Разом % Дисперсії Кумулятивний %
dimension0 5,442 90,700 90,700 3,315 55,246 55,246
,457 7,616 98,316 2,304 38,396 93,641
,082 1,372 99,688 ,360 6,005 99,646
,009 ,153 99,841 ,011 ,176 99,823
,007 ,115 99,956 ,006 ,107 99,930
,003 ,044 100,000 ,004 ,070 100,000
Метод виділення: Аналіз основних компонент.

Як видно з Таблиці 19, в даному дослідженні змінні x i високо корелірут між собою (це також виявлено раніше і видно з Таблиці 5 «Парні коефіцієнти кореляції»), а отже, характеризують залежну змінну Y практично з одного боку: спочатку перша головна компонента пояснює 90 ,7 % дисперсії x i , і тільки власне значення, що відповідає першій головній компоненті, більше 1. Звичайно, це є недоліком відбору даних, проте в процесі відбору цей недолік не був очевидний.

Аналіз у пакеті SPSS дозволяє самостійно вибрати число основних компонентів. Виберемо число 6 – рівну кількості незалежних змінних. Другий стовпець Таблиці 19 показує суми квадратів навантажень обертання, саме за цими результатами і зробимо висновок про кількість факторів. Власні значення, що відповідають першим двом головним компонентам, більше 1 (55,246% і 38,396% відповідно), тому, згідно з методом Кайзера, виділимо 2 найбільш значущі головні компоненти.

Другий спосіб виділення необхідної кількості чинників – критерій «кам'янистої осипу». Відповідно до цього методу, власні значення видаються у вигляді простого графіка, і вибирається таке місце на графіці, де спадання власних значень зліва направо максимально уповільнюється:

Малюнок 3. Критерій "кам'янистого осипу"

Як видно на Малюнку 3, спад своїх значень уповільнюється вже з другої компоненти, проте постійна швидкість убування (дуже маленька) починається лише з третьої компоненти. Отже, для подальшого аналізу будуть відібрані перші дві основні компоненти. Цей висновок узгоджується з висновком, отриманим під час використання методу Кайзера. Таким чином, остаточно вибираються перші дві послідовно отримані основні компоненти.

Після виділення головних компонентів, які будуть використовуватись у подальшому аналізі, необхідно визначити кореляцію вихідних змінних x i c отриманими факторами і, виходячи з цього, дати назви компонентів. Для аналізу скористаємося матрицею факторних навантажень А, елементи якої є коефіцієнтами кореляції факторів із вихідними незалежними змінними:

Таблиця 20. Матриця факторних навантажень

Матриця компонент a
Компоненти
X1 ,956 -,273 ,084 ,037 -,049 ,015
X2 ,986 -,138 ,035 -,080 ,006 ,013
X3 ,963 -,260 ,034 ,031 ,060 -,010
X4 ,977 ,203 ,052 -,009 -,023 -,040
X5 ,966 ,016 -,258 ,008 -,008 ,002
X6 ,861 ,504 ,060 ,018 ,016 ,023
Метод виділення: Аналіз шляхом основних компонент.
a. Вилучених компонентів: 6

У разі інтерпретація коефіцієнтів кореляції утруднена, отже, досить складно дати назви першим двом головним компонентам. Тому скористаємося методом ортогонального повороту системи координат Варимакс, метою якого є поворот факторів так, щоб вибрати найпростішу для інтерпретації факторну структуру:

Таблиця 21. Коефіцієнти інтерпретації

Матриця повернутих компонентів a
Компоненти
X1 ,911 ,384 ,137 -,021 ,055 ,015
X2 ,841 ,498 ,190 ,097 ,000 ,007
X3 ,900 ,390 ,183 -,016 -,058 -,002
X4 ,622 ,761 ,174 ,022 ,009 ,060
X5 ,678 ,564 ,472 ,007 ,001 ,005
X6 ,348 ,927 ,139 ,001 -,004 -,016
Метод виділення: Аналіз шляхом основних компонент.
Метод обертання: Варімакс із нормалізацією Кайзера.

a. Обертання зійшлося за 4 ітерації. З Таблиці 21 видно, що перша головна компонента найбільше пов'язана зі змінними x1, x2, x3; а друга – зі змінними x4, x5, x6. Таким чином, можна зробити висновок, щообсяг інвестицій у основні кошти у регіоні (змінна Y)

- залежить від двох факторів:

- обсягу власних та позикових коштів, що надійшли до підприємств регіону за період (перша компонента, z1);

а також від інтенсивності вкладень підприємств регіону у фінансові активи та кількості іноземного капіталу у регіоні (друга компонента, z2).

Малюнок 4. Діаграма розсіювання

Останнім етапом аналізу шляхом основних компонентів є побудова рівняння регресії на основні компоненти (у разі – першу і другу основні компоненти).

За допомогою SPSS розрахуємо параметри регресійної моделі:

Таблиця 22. Параметри рівняння регресії на основні компоненти

Модель Нестандартизовані коефіцієнти Стандартизовані коефіцієнти t Знч.
B Стд. Помилка Бета
(Константа) 47414,184 1354,505 35,005 ,001
Z1 26940,937 1366,763 ,916 19,711 ,001
Z2 6267,159 1366,763 ,213 4,585 ,001

Рівняння регресії набуде вигляду:

y=47 414,184 + 0,916*z1+0,213*z2,

(b0) (b1) (b2)

т. о. b0=47 414,184 показує точку перетину прямої регресії з віссю результуючого показника;

b1 = 0,916 -зі збільшенням значення чинника z1 на 1 очікуване середнє значення суми обсягу інвестицій у кошти збільшиться на 0,916;

b2 = 0,213 -зі збільшенням значення чинника z2 на 1 очікуване середнє значення суми обсягу інвестицій у кошти збільшиться на 0,213.

У разі значення tкр («альфа»=0,001, «ню»=53) = 3,46 менше tнабл всім коефіцієнтів «бета». Отже, всі коефіцієнти є значущими.

Таблиця 24. Якість регресійної моделі на основні компоненти

Модель R R-квадрат Коригований R-квадрат Стд. помилка оцінки
dimension0 ,941 a ,885 ,881 10136,18468
a. Предиктори: (конст) Z1, Z2
b. Залежна змінна: Y

У Таблиці 24 відображені показники, що характеризують якість побудованої моделі, а саме: R – множинний к-т кореляції – говорить про те, яка частка дисперсії Y пояснюється варіацією Z; R^2 – к-т детермінації – показує частку поясненої дисперсії відхилень Y від її середнього значення. Стандартна помилка оцінки характеризує помилку збудованої моделі. Порівняємо ці показники з аналогічними показниками статечної регресійної моделі (її якість виявилася вищою за якість лінійної моделі, тому порівнюємо саме зі степеневою):

Таблиця 25. Якість статечної регресійної моделі

Так, множинний к-т кореляції R і к-т детермінації R^2 в статечній моделі дещо вище, ніж у моделі основних компонентів. Крім того, стандартна помилка моделі головних компонент НАМНОГО вище, ніж у статечної моделі. Тому якість статечної регресійної моделі вища, ніж регресійної моделі, побудованої на основних компонентах.

Проведемо верифікацію регресійної моделі основних компонентів, т. е. проаналізуємо її значимість. Перевіримо гіпотезу про незначущість моделі, розрахуємо F(набл.) = 204,784 (розраховано на SPSS), F(крит) (0,001; 2; 53)=7,76. F(набл)>F(крит), отже, гіпотеза про незначущість моделі відкидається. Модель значима.

Отже, в результаті проведення компонентного аналізу, було з'ясовано, що з відібраних незалежних змінних x i можна виділити 2 головні компоненти – z1 та z2, причому на z1 більшою мірою впливають змінні x1, x2, x3, а на z2 – x4, x5, x6 . Рівняння регресії, побудоване на основних компонентах, виявилося значним, хоча й поступається якістю статечному рівнянню регресії. Відповідно до рівняння регресії головні компоненти, Y позитивно залежить як від Z1, і від Z2. Однак початкова мультиколлінеарність змінних xi і те, що вони не розподілені за нормальним законом розподілу, може спотворювати результати побудованої моделі та робити її менш значущою.

Кластерний аналіз

Наступним етапом цього дослідження є кластерний аналіз. Завданням кластерного аналізу є розбиття вибраних регіонів (n=56) на порівняно невелику кількість груп (кластерів) з урахуванням їхньої природної близькості щодо значень змінних x i . Під час проведення кластерного аналізу ми припускаємо, що геометрична близькість двох чи кількох точок у просторі означає фізичну близькість відповідних об'єктів, їх однорідність (у разі - однорідність регіонів за показниками, що впливає інвестиції в основні засоби).

На першій стадії кластерного аналізу необхідно визначитися з оптимальним числом кластерів, що виділяються. Для цього необхідно провести ієрархічну кластеризацію – послідовне об'єднання об'єктів у кластери доти, доки не залишиться два великі кластери, що об'єднуються в один на максимальній відстані один від одного. Результат ієрархічного аналізу (висновок оптимальну кількість кластерів) залежить від способу розрахунку відстані між кластерами. Таким чином, протестуємо різні методи та зробимо відповідні висновки.

Метод «ближнього сусіда»

Якщо відстань між окремими об'єктами ми розраховуємо єдиним способом – як звичайна евклідова відстань – відстань між кластерами обчислюється різними методами. Відповідно до методу «найближчого сусіда», відстань між кластерами відповідає мінімальній відстані між двома об'єктами різних кластерів.

Аналіз у пакеті SPSS проходить в такий спосіб. Спочатку розраховується матриця відстаней між усіма об'єктами, а потім на основі матриці відстаней об'єкти послідовно об'єднуються в кластери (для кожного кроку матриця складається заново). Кроки послідовного об'єднання представлені у таблиці:

Таблиця 26. Кроки агломерації. Метод «найближчого сусіда»

Етап Кластер об'єднаний з Коефіцієнти Наступний етап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,006
,007
,007
,009
,010
,010
,010
,010
,011
,012
,012
,012
,012
,012
,013
,014
,014
,014
,014
,015
,015
,016
,017
,018
,018
,019
,019
,020
,021
,021
,022
,024
,025
,027
,030
,033
,034
,042
,052
,074
,101
,103
,126
,163
,198
,208
,583
1,072

Як видно з Таблиці 26, на першому етапі об'єдналися елементи 7 та 8, тому що відстань між ними була мінімальною – 0,003. Далі відстань між об'єднаними об'єктами збільшується. По таблиці також можна дійти невтішного висновку про оптимальному числі кластерів. Для цього потрібно подивитися, після якого кроку відбувається різкий стрибок у величині відстані, і відняти номер цієї агломерації з досліджуваних об'єктів. У разі: (56-53)=3 – оптимальне число кластерів.

5. Дендрограма. Метод "найближчого сусіда"

Аналогічний висновок про оптимальну кількість кластерів можна зробити і дивлячись на дендрограму (Рис. 5): слід виділити 3 кластери, причому в перший кластер увійдуть об'єкти під номерами 1-54 (всього 54 об'єкти), а в другий і третій кластери - по одному об'єкту (Під номерами 55 та 56 відповідно). Цей результатговорить про те, що перші 54 регіони щодо однорідні за показниками, що впливають на інвестиції в основні засоби, тоді як об'єкти під номерами 55 (Республіка Дагестан) та 56 (Новосибірська область) значно виділяються на загальному тлі. Варто зауважити, що ці суб'єкти мають найбільші обсяги інвестицій в основні засоби серед усіх відібраних регіонів. Цей факт ще раз доводить високу залежність результуючої змінної (обсягу інвестицій) від обраних незалежних змінних.

Аналогічні міркування проводяться інших методів розрахунку відстані між кластерами.

Метод «далекого сусіда»

Таблиця 27. Кроки агломерації. Метод "далекого сусіда"

Етап Кластер об'єднаний з Коефіцієнти Етап першої появи кластера Наступний етап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,007
,009
,010
,010
,011
,011
,012
,012
,014
,014
,014
,017
,017
,018
,018
,019
,021
,022
,026
,026
,027
,034
,035
,035
,037
,037
,042
,044
,046
,063
,077
,082
,101
,105
,117
,126
,134
,142
,187
,265
,269
,275
,439
,504
,794
,902
1,673
2,449

При методі «далекого сусіда» відстань між кластерами розраховується як максимальна відстань між двома об'єктами у різних кластерах. Згідно з Таблице 27, оптимальне число кластерів дорівнює (56-53)=3.

Малюнок 6. Дендрограма. Метод "далекого сусіда"

Згідно з дендрограмою, оптимальним рішенням також буде виділення 3 кластерів: у перший кластер увійдуть регіони під номерами 1-50 (50 регіонів), у другий – під номерами 51-55 (5 регіонів), до третього – останній регіон під номером 56.

Метод «центру тяжіння»

При методі «центру тяжкості» за відстань між кластерами приймається евклідова відстань між «центрами тяжкості» кластерів – середніми арифметичними показниками x i .

7. Дендрограма. Метод "центру тяжкості"

На Малюнку 7 видно, що оптимальна кількість кластерів така: 1 кластер – 1-47 об'єкти; 2 кластер - 48-54 об'єкти (всього 6); 3 кластер – 55 об'єктів; 4 кластери – 56 об'єкт.

Принцип «середнього зв'язку»

В даному випадку відстань між кластерами дорівнює середньому значенню відстаней між усіма можливими парами спостережень, причому одне спостереження береться з одного кластеру, а друге відповідно з іншого.

Аналіз таблиці кроків агломерації показав, що оптимальна кількість кластерів дорівнює (56-52) = 4. Порівняємо цей висновок із висновком, отриманим під час аналізу дендрограми. На Малюнку 8 видно, що до 1 кластера увійдуть об'єкти під номерами 1-50, у 2 кластер – об'єкти 51-54 (4 об'єкти), у 3 кластер – 55 регіон, у 4 кластер – 56 регіон.

8. Дендрограма. Метод "середнього зв'язку"

Метод основних компонент(PCA – Principal component analysis) – один з основних способів зменшити розмірність даних при найменшій втраті відомостей. Винайдений в 1901 Карлом Пірсоном він широко застосовується в багатьох областях. Наприклад, для стиснення даних, комп'ютерного зору, розпізнавання видимих ​​образів і т.д. Обчислення основних компонентів зводиться до обчислення власних векторів і значень ковариационной матриці вихідних даних. Метод головних компонентів часто називають перетворенням Кархунена-Льові(Karhunen-Loeve transform) або перетворенням Хотеллінгу(Hotelling transform). Також над цим питанням працювали математики Косамбі (1943), Пугачов (1953) і Обухова (1954).

Завдання аналізу головних компонент має на меті апроксимувати (наблизити) дані лінійними різноманіттями меншої розмірності; знайти підпростори меншої розмірності, в ортогональній проекції на які розкид даних (тобто середньоквадратичне відхилення від середнього значення) максимальний; знайти підпростори меншої розмірності, в ортогональній проекції на які середньоквадратична відстань між точками максимально. У цьому випадку оперують кінцевими множинами даних. Вони еквівалентні і не використовують жодної гіпотези щодо статистичного породження даних.

Крім того, завданням аналізу головних компонент може бути мета побудувати для даної багатовимірної випадкової величини таке ортогональне перетворення координат, що в результаті кореляції між окремими координатами звернуться в нуль. Ця версія оперує випадковими величинами.

Рис.3

На наведеному вище малюнку дані точки P i на площині, pi - відстань від Pi до прямої AB. Шукається пряма AB, що мінімізує суму

Метод головних компонентів починався із завдання найкращої апроксимації (наближення) кінцевої множини точок прямими і площинами. Наприклад, дана кінцева множина векторів. До кожного k = 0,1,...,n ? 1 серед усіх k-вимірних лінійних різноманіття знайти таке, що сума квадратів ухилень x i від L k мінімальна:

де? евклідова відстань від точки до лінійного різноманіття.

Будь-яке k-вимірне лінійне різноманіття може бути задане як безліч лінійних комбінацій, де параметри i пробігають речовинну пряму, а? ортонормований набір векторів

де евклідова норма,? евклідово скалярний твір, або в координатній формі:

Розв'язання задачі апроксимації для k = 0,1,...,n? 1 дається набором вкладених лінійних різноманітностей

Ці лінійні різноманіття визначаються ортонормованим набором векторів (векторами головних компонентів) та вектором a 0 . Вектор a 0 шукається як рішення задачі мінімізації для L 0:

У результаті виходить середнє вибіркове:

Французький математик Моріс Фреше Фреше Моріс Рене (02.09.1878 р. - 04.06.1973 р.) - видатний французький математик. Працював у галузі топології та функціонального аналізу, теорії ймовірностей. Автор сучасних понять про метричний простір, компактність і повноту. Авт. в 1948 звернув увагу, що варіаційне визначення середнього, як точки, що мінімізує суму квадратів відстаней до точок даних, дуже зручне для побудови статистики в довільному метричному просторі, і побудував узагальнення класичної статистики для загальних просторів, що отримала назву узагальненого методу найменших.

Вектори основних компонентів можна знайти як рішення однотипних завдань оптимізації:

1) централізуємо дані (віднімаємо середнє):

2) знаходимо першу головну компоненту як розв'язання задачі;

3) Віднімаємо з даних проекцію на першу головну компоненту:

4) знаходимо другу головну компоненту як розв'язання задачі

Якщо рішення не єдине, то вибираємо одне з них.

2k-1) Віднімаємо проекцію на (k ? 1)-ю головну компоненту (нагадаємо, що проекції на попередні (k ? 2) головні компоненти вже віднято):

2k) знаходимо k-ю головну компоненту як розв'язання задачі:

Якщо рішення не єдине, то вибираємо одне з них.

Мал. 4

Перша головна компонента максимізує вибіркову дисперсію проекції даних.

Наприклад, нехай нам дано центрований набір векторів даних, де середнє арифметичне значення x i дорівнює нулю. Завдання? знайти таке отртогональне перетворення на нову систему координат, котрій були б вірні такі условия:

1. Вибіркова дисперсія даних уздовж першої координати (головної компоненти) максимальна;

2. Вибіркова дисперсія даних уздовж другої координати (друга головна компоненти) максимальна за умови ортогональності першої координати;

3. Вибіркова дисперсія даних уздовж значень k-ої координати максимальна за умови ортогональності першим k? 1 координатам;

Вибіркова дисперсія даних уздовж напрямку, заданого нормованим вектором a k це

(оскільки дані центровані, вибіркова дисперсія тут збігається із середнім квадратом ухилення від нуля).

Розв'язання задачі про найкращу апроксимацію дає те саме безліч основних компонент, як і пошук ортогональних проекцій з найбільшим розсіюванням, з дуже простої причини:

і перший доданок не залежить від a k .

Матриця перетворення даних до основних компонентів будується із векторів «A» основних компонентів:

Тут a i - ортонормовані вектори-стовпці основних компонентів, розташовані в порядку зменшення своїх значень, верхній індекс T означає транспонування. Матриця A є ортогональною: AA T = 1.

Після перетворення більшість варіації даних буде зосереджено у перших координатах, що дозволяє відкинути що залишилися і розглянути простір зменшеної розмірності.

Найстарішим способом відбору основних компонентів є правило Кайзера, Кайзер Йоган Генріх Густав (Kaiser Johann Henrich Gustav, 16.03.1853 р., м.Брезно, Пруссія - 14.10.1940 р., Німеччина) - видатний німецький математик, фізик, дослідник у галузі спектрального аналізу. Авт. за яким значущі основні компоненти, котрим

тобто л i перевищує середнє значення л (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює у простих випадках, коли є кілька головних компонент з л i , набагато перевершують середнє значення, а інші власні числа менші за нього. У складніших випадках може давати дуже багато значних основних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію по осях, правило Кайзера набуває особливо простий вигляд: значущі ті основні компоненти, котрим л i > 1.

Одним із найбільш популярних евристичних підходів до оцінки кількості необхідних головних компонентів є правило зламаної тростиниколи набір нормованих на одиничну суму власних чисел (, i = 1,...n) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаною в n ? 1-й випадково обраної точки (точки розлому вибираються незалежно і рівнорозподілені по довжині тростини). Якщо L i (i = 1,...n) - довжини отриманих шматків тростини, занумеровані в порядку зменшення довжини: , тоді математичне очікування L i:

Розберемо приклад, що полягає в оцінці числа основних компонентів за правилом зламаної тростини в розмірності 5.

Мал. 5.

За правилом зламаної тростини k-й власнийвектор (у порядку зменшення своїх чисел л i) зберігається у списку основних компонент, якщо

На малюнку вище наведено приклад для 5-вимірного випадку:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 =(1/3+1/4+1/5)/5;

l 4 =(1/4+1/5)/5; l 5 =(1/5)/5.

Для прикладу вибрано

0.5; =0.3; =0.1; =0.06; =0.04.

За правилом зламаної тростини в цьому прикладі слід залишати 2 головні компоненти:

Слід лише пам'ятати, що правило зламаної тростини має тенденцію занижувати кількість значних основних компонент.

Після проектування на перші k головних компонент із зручно зробити нормування на одиничну (вибіркову) дисперсію по осях. Дисперсія вздовж i головної компоненти дорівнює), тому для нормування треба розділити відповідну координату на. Це перетворення не є ортогональним та не зберігає скалярного твору. Коваріаційна матриця проекції даних після нормування стає одиничною, проекції на будь-які два ортогональних напрямки стають незалежними величинами, а будь-який ортонормований базис стає базисом основних компонентів (нагадаємо, що нормування змінює відношення ортогональності векторів). Відображення з простору вихідних даних на перші k головних компонентів разом з нормуванням задається матрицею

Саме це перетворення найчастіше називається перетворенням Кархунена-Лоева, тобто, власне, методом головних компонентів. Тут a i - вектори-стовпці, а верхній індекс T означає транспонування.

У статистиці під час використання методу головних компонент використовують кілька спеціальних термінів.

Матриця даних, де кожен рядок - вектор попередньо оброблених даних (центрованих і правильно нормованих), число рядків - m (кількість векторів даних), число стовпців - n (розмірність простору даних);

Матриця навантажень(Loadings) , де кожен стовпець - вектор головних компонентів, число рядків - n (розмірність простору даних), число стовпців - k (кількість векторів головних компонентів, вибраних для проектування);

Матриця рахунків(Scores)

де кожен рядок - проекція вектора даних на головних компонент; число рядків - m (кількість векторів даних), число стовпців - k (кількість векторів основних компонентів, вибраних для проектування);

Матриця Z-рахунків(Z-scores)

де кожен рядок - проекція вектора даних на k головних компонент, нормована на одиничну вибіркову дисперсію; число рядків - m (кількість векторів даних), кількість стовпців - k (кількість векторів основних компонентів, вибраних для проектування);

Матриця помилок (залишків) (Errors or residuals)

Основна формула:

Тому метод головних компонентів є одним з основних методів математичної статистики. Основним призначенням його є розмежування між необхідністю дослідження масивів даних за мінімуму їх використання.