Кластерний аналіз в економічних процесах
Якщо виділення кластерів по цій мітці утруднене (на ній відбувається злиття декількох дрібних кластерів в один великий), то можна вибрати іншу позначку. Така методика пропонується Олдендерфером і Блешфілдом .Тепер виникає питання стійкості прийнятого кластерного рішення. По суті, перевірка стійкості кластеризації зводиться до перевірки її достовірності. Тут існує емпіричне правило — стійка… Читати ще >
Кластерний аналіз в економічних процесах (реферат, курсова, диплом, контрольна)
Реферат на тему: «Кластерний аналіз в економічних процесах»
Кластерний аналіз виконує такі основні завдання:
Розробка типології або класифікації.
Дослідження корисних концептуальних схем групування об'єктів.
Породження гіпотез на основі дослідження даних.
Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим чи іншим способом, присутні у наявних даних .
Незалежно від предмета вивчення застосування кластерного аналізу припускає наступні етапи:
Відбір вибірки для кластеризації.
Визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці.
Обчислення значень тієї чи іншої міри подібності між об'єктами.
Застосування методу кластерного аналізу для створення груп схожих об'єктів.
Перевірка достовірності результатів кластерного рішення
Кластерний аналіз пред’являє наступні вимоги до даних:
показники не повинні корелювати між собою показники повинні бути безрозмірними розподіл показників має бути близько до нормального показники повинні відповідати вимогу «стійкості», під якою розуміється відсутність впливу на їх значення випадкових факторів вибірка повинна бути однорідна, не містити «викидів» .
Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «ремонту» — викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна перевага — z-стандартизація без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити за собою зменшення чіткості поділу груп). В іншому випадку вибірку потрібно коригувати.
При аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз методами ієрархічного агломеративного сімейства, а саме методом Уорда, при якому всередині кластерів оптимізується мінімальна дисперсія, у результаті створюються кластери приблизно рівних розмірів.
Метод Уорда найбільш вдалий для аналізу соціологічних даних. В якості міри відмінності краще квадратичне евклидово відстань, що сприяє збільшенню контрастності кластерів.
Головним підсумком ієрархічного кластерного аналізу є Дендрограмма або «сосульчатая діаграма».
При її інтерпретації дослідники стикаються з проблемою того ж роду, що і тлумачення результатів факторного аналізу — відсутністю однозначних критеріїв виділення кластерів. В якості головних рекомендується використовувати два способи — візуальний аналіз дендрограми і порівняння результатів кластеризації, виконаної різними методами. Візуальний аналіз дендрограми передбачає «обрізання» дерева на оптимальному рівні подібності елементів вибірки."Виноградну гілка" доцільно «обрізати» на позначці 5 шкали Rescaled Distance Cluster Combine, таким чином буде досягнуто 80% рівень подібності.
Якщо виділення кластерів по цій мітці утруднене (на ній відбувається злиття декількох дрібних кластерів в один великий), то можна вибрати іншу позначку. Така методика пропонується Олдендерфером і Блешфілдом .Тепер виникає питання стійкості прийнятого кластерного рішення. По суті, перевірка стійкості кластеризації зводиться до перевірки її достовірності. Тут існує емпіричне правило — стійка типологія зберігається при зміні методів кластеризації. Результати ієрархічного кластерного аналізу можна перевіряти ітеративним кластерним аналізом за методом k-середніх.
Якщо порівнювані класифікації груп респондентів мають частку збігів більше 70% (більше 2 / 3 збігів), то кластерне рішення приймається. Перевірити адекватність рішення, не вдаючись до допомоги іншого виду аналізу, не можна. По крайней мере, в теоретичному плані ця проблема не вирішена. У класичній роботі Олдендерфера і Блешфілда «Кластерний аналіз» докладно розглядаються і в підсумку відкидаються додаткові п’ять методів перевірки стійкості: 1) кофенетіческая кореляція — не рекомендується і обмежена у використанні, 2) тести значущості (дисперсійний аналіз) — завжди дають значимий результат, 3) методика повторних (випадкових) вибірок, що, тим не менш, не доводить обгрунтованість рішення; 4) тести значущості для зовнішніх ознак придатні тільки для повторних вимірювань; 5) методи Монте-Карло дуже складні і доступні тільки досвідченим математикам .
Для класифікації шести підприємств, які характеризуються чотирма економічними показниками (Y1, Y2, Y3, X1), потрібно:
1) знайти матрицю нормованих значень вихідних даних Z;
2) побудувати матрицю відстаней між спостереженнями;
3) реалізувати ієрархічну агломеративну процедуру кластерного аналізу;
4) побудувати дендрограму;
5) описати економічне значення отриманих результатів.
Значення показників виробничо-господарської діяльності підприємств АПК приводяться в таблиці.
ОСНОВНІ ПОКАЗНИКИ ВИРОБНИЧО-ГОСПОДАРСЬКОЇ ДІЯЛЬНОСТІ СІЛЬСЬКОГОСПОДАРСЬКИХ ПІДПРИЄМСТВ
Позначення і найменування показників:
Y1 — продуктивність праці, тис. грн./чол.;
Y2 — індекс зниження собівартості продукції;
Y3 — рентабельність, %;
X1 — трудомісткість одиниці продукції, чол. — год.
кластерний алгоритм дендрограма Таблиця Значення показників виробничо-господарської діяльності машинобудівних підприємств
Номер підприємства | Y1 | Y2 | Y3 | X1 | |
9,4 | 62,0 | 10,6 | 0,23 | ||
9,9 | 53,1 | 9,1 | 0,43 | ||
9,1 | 56,5 | 23,4 | 0,26 | ||
5,5 | 30,1 | 9,7 | 0,43 | ||
6,6 | 18,1 | 9,1 | 0,38 | ||
4,3 | 13,6 | 5,4 | 0,42 | ||
7,4 | 89,8 | 9,9 | 0,30 | ||
6,6 | 76,6 | 19,1 | 0,37 | ||
5,5 | 32,3 | 6,6 | 0,34 | ||
9,4 | 199,6 | 14,2 | 0,23 | ||
5,7 | 90,8 | 8,0 | 0,41 | ||
5,2 | 82,1 | 17,5 | 0,41 | ||
10,0 | 76,2 | 17,2 | 0,22 | ||
6,7 | 37,1 | 12,9 | 0,31 | ||
9,4 | 51,6 | 13,2 | 0,24 | ||
АЛГОРИТМ КЛАСТЕРНОГО АНАЛІЗУ
Кластерний аналіз — це сукупність методів класифікації багатомірних спостережень або об'єктів, заснованих на визначенні поняття відстані між об'єктами з наступним виділенням з них груп, «згустків» спостережень (кластерів, таксонів). При цьому не потрібно апріорної інформації про розподіл генеральної сукупності.
Вибір конкретного методу кластерного аналізу залежить від мети класифікації.
Кластерний аналіз використовується при дослідженні структури сукупностей соціально-економічних показників або об'єктів: підприємств, регіонів, соціологічних анкет, колективів і под.
Від матриці вихідних даних переходимо до матриці нормованих значень Z з елементами
(1)
де j = 1, 2, 3, 4 — номер показника, і = 1, 2, …, n — номер спостереження;
(2)
.(3)
В якості відстані між двома спостереженнями zi і zv використовують «зважену» евклідову відстань, яка визначається по формулі
(4)
де wl — «вага» показника; .
Якщо для всіх то отримуємо звичайну евклідову відстань
(5)
Отримані значення зручно представити у вигляді матриці відстаней
Так як матриця R симетрична, тобто, то досить обмежитися записом наддіагональних елементів матриці.
Використовуючи матрицю відстаней, можна реалізувати агломеративну ієрархічну процедуру кластерного аналізу. Відстані між кластерами визначають за принципом " найближчого сусіда" чи " далекого сусіда" . У першому випадку за відстань між кластерами приймають відстань між найближчими елементами цих кластерів, а в другому — між найбільш віддаленими один від одного.
Принцип роботи ієрархічних агломеративних процедур складається в послідовному об'єднанні груп елементів спочатку найближчих, а потім все більш віддалених один від одного.
На першому кроці алгоритму кожне спостереження zі (i = 1, 2,…, n) розглядається як окремий кластер. Надалі на кожному кроці роботи алгоритму відбувається об'єднання двох найближчих кластерів, і знову будується матриця відстаней, розмірність якої знижується на одиницю. Робота алгоритму закінчується, коли всі спостереження об'єднані в один клас.
Приклад класифікації економічних об'єктів за допомогою алгоритму кластерного аналізу
Провести класифікацію п’яти підприємств АПК (табл.), кожне з яких характеризується наступними економічними показниками: X1 — прибуток від реалізації (млн. грн.); Х2 — питома вага продукції вищої категорії якості (%); Х3 — виробіток товарної продукції на одного працівника промислово-виробничого персоналу (тис. грн.); Х4 — середньорічна вартість основних виробничих фондів (млн. грн.).
Таблиця Значення основних економічних показників підприємств АПК
Номер підприємства | X1 | X2 | X3 | X4 | |
3,338 | 78,46 | 5,013 | 7,312 | ||
1,909 | 50,83 | 3,423 | 17,785 | ||
6,653 | 26,12 | 3,314 | 21,544 | ||
2,105 | 72,11 | 2,534 | 8,125 | ||
6,178 | 13,70 | 1,863 | 1,780 | ||
Для усунення розходження в одиницях виміру показників нормуємо їх. В результаті розрахунків за формулами (1−3) одержуємо матрицю нормованих вихідних даних, а також середні значення показників X1, X2, X3, X4 і їх середні квадратичні відхилення:
В якості відстані між об'єктами візьмемо зважену евклідову відстань, причому " ваги" wj задамо пропорційно ступеню важливості економічного показника: w1 = 0,4; w2 = 0,3; w3 = 0,2; w4 = 0,1. За формулами (4 — 5) розраховуємо матрицю відстаней між усіма п’ятьма підприємствами:
З матриці R1 випливає, що об'єкти 2 і 4 найбільш близькі (0,78) і тому поєднуються в один кластер. Після об'єднання маємо чотири кластери:
Відстань між кластерами будемо знаходити за принципом " найближчого сусіда" . За відстань між кластерами S1 і S2,4 беремо мінімальну з відстаней = 1,159 804 і = 1,1 311 047. Аналогічно знаходимо відстані між S3, S5 і S (2,4), які відповідно рівні: = 1,6 262 618 і = 1,8 968 315. Відстань між іншими кластерами залишається без зміни. Таким чином, одержуємо матрицю відстаней З матриці R2 випливає, що кластери S3 і S5 найбільш близькі (= 1,1 126 867) і тому поєднуються в новий кластер S (3,5). Після об'єднання будемо мати три кластери S1, S (2,4) і S (3,5). Відстані між новим кластером S (3,5) і кластерами S1, S (2,4) відповідно рівні: = 1,9 283 079 (= 1,9 283 079 менше = 2,298 073) і = 1,6 262 618. Матриця відстаней має вигляд:
З цієї матриці випливає, що кластери S1 і S (2,4) поєднуються в новий кластер S (1,2,4), тому що відстань між ними мінімальна = 1,1 311 047. Тоді одержимо матрицю відстаней:
Таким чином на відстані = 1,6 262 618 два кластери S (1,2,4) і S (3,5), поєднуються в один.
Результати ієрархічної класифікації спостережень представлені на рис. 1 у вигляді дендрограми, де по осі ординат приводяться відстані між поєднуваними на даному етапі кластерами.
Рис. 1. Дендрограма У задачі перевагу варто надати передостанньому етапу класифікації, коли всі об'єкти об'єднані в два кластери S (1,2,4) і S (3,5), що наочно видно на рис. 1.
Список використаної літератури
1. Є.В. Кочура, М. В. Косарев Моделювання макроекономічної динаміки — Київ: Центр навчальної літератури, 2003. — 236 с.
2. Е. В. Бережная, В. И. Бережной Математические методы моделирования економических системМосква: Финансы и статистика, 2003 — 368 с.
3. А. В. Катренко Системний аналіз об'єктів та процесів комп’ютеризації - Львів: Новий світ, 2003 — 424 с.
4. Э. Ферстер, Б. Ренц Методы корреляционного и регрессионного анализа., М.:Финансы и статистика, 1983. — 186 с.
5. Шимко П. Д. Оптимальное управление экономическими системами — Санкт-Петербург: Издательский дом «Бизнес-пресса», 2004. — с. 43−76.
6. В. В. Федосеев, А. Н. Гармаш, Д. М. Дайитбегов и др. Экономико-математические методы и прикладные модели / Под ред. В. В. Федосеева — М.: ЮНИТИ, 2002. — 456 с.
7. Албанская Л. В., Бабешко Л. О., Баусов Л. И и др. Экономико-математическое моделирование / Под ред. И. Н. Дрогобыцкого — М.: Экзамен, 2004. — 246 с.