Статистические методи аналізу результатів психолого-педагогічних досліджень
Регрессионный аналіз. Завданням регресійного аналізу є будування моделі функціональної зв’язок між групою незалежних змінних (що можуть бути номінальні параметри — регрессоры або випадкові перемінні, звані предикторами чи предсказательными перемінними) і одномірної перемінної Y, званої відгуком. Розглянемо рівняння зв’язку Y = f (X1, X2,…Xk ,) + (7), де f — n-мерная вектор-функция від k змінних… Читати ще >
Статистические методи аналізу результатів психолого-педагогічних досліджень (реферат, курсова, диплом, контрольна)
Статистические методи аналізу результатів психолого-педагогічних исследований.
Д. Ю. Кузнецов Специфика статистичної обробки результатів психолого — педагогічних досліджень у тому, що анализируемая база даних характеризується великим кількістю показників різних типів, їхньою високою варіативністю під впливом неконтрольованих випадкових чинників, складністю кореляційних перетинів поміж перемінними вибірки, необхідністю обліку об'єктивних і піддається, які впливають результати діагностики, особливо в вирішенні питання репрезентативності вибірки й оцінки гіпотез, що стосуються генеральної сукупності. Дані досліджень їх типу може бути розбитий на 3 групи. Перша — це номінальні перемінні (підлогу, анкетні дані тощо. буд.). Арифметичні операції над такими величинами позбавлені здорового глузду, отже результати описової статистики (середнє, дисперсія) до таких величинам неприйнятні. Класичний спосіб їх аналізу — розбивка на класи сполученості щодо тих чи інших номінальних ознак і перевірка значних розбіжностей за класами. Друга ж група даних має кількісну шкалу виміру, але це шкала є порядковой (ординальной). При аналізі ординальных змінних використовують як розбивка на подвыборки, і рангові технології. Деяким обмеженнями можна й параметричні методи. Третю групу — кількісні перемінні, відбивають ступінь виразності замеряемого показника, — це тести Амтхауэра, Кеттелла, успішність та інші оціночні тести. Працюючи зі змінними цієї групи застосовні все стандартні види аналізу, і за достатньому обсязі вибірки їх розподіл зазвичай близько до нормальному. Отже, розмаїтість типів змінних вимагає застосування широкого спектра використовуваних математичних методов.
Одной з головних цілей дослідження є аналіз змін, происходяших в процесі навчання, оцінка значимості і соціальної спрямованості цих змін виявлення основних чинників, які впливають процес. У цьому можливі два підходу. Можна розглядати тривалість навчання як випадковий параметр і обраховувати його кореляцію (лінійну чи рангову) з важливими нас індивідуальними характеристиками випробуваного. Проте проведені дослідження показують, у процесі професіоналізації змінюються найчастіше самі показники, а структура взаємозв'язків і взаємозалежностей з-поміж них (що, наприклад, при корреляционном аналізі проявляється через зміна кореляційних матриць, а при факторном аналізі - через зміна факторних навантажень явних і латентних чинників). Тому найкращим методом є розбивка даних на групи (подвыборки), їх самостійний, та був з порівняльного аналізу і перевірка значимості відмінностей у группах.
Процедуру аналізу може бути розбитий ми такі этапы:
Подготовка бази даних до аналізу. Цей етап включає у собі конвертацію даних в електронний формат, перевірка їх на наявність викидів, вибір методу роботи з пропущеними значеннями.
Описательная статистика (обчислення середніх, дисперсій, ассиметрии і ексцесу, центральних моментів, за необхідності моди, медіани, квартилей і розподілу і розкиду, матриць ковариации і кореляції тощо.). Результати описової статистики визначають характеристики параметрів аналізованої вибірки або подвыборок, поставлених тим чи іншим розбивкою.
Разведочный аналіз. Завданням цього етапу є змістовне дослідження різних груп показників вибірки, їх взаємозв'язків, виявлення основних явних і прихованих (латентних) чинників, які впливають дані, відстеження змін показників, їх взаємозв'язків та значущості чинників при розбивці бази даних із курсів, факультетам, навчальних закладів тощо. буд. Інструментом дослідження є різні засоби та технології кореляційного, факторного і кластерного аналізу. Метою аналізу є формулювання гіпотез, що стосуються як даної вибірки, і генеральної сукупності.
Детальный аналіз отриманих результатів і статистична перевірка висунутих гіпотез. На цьому етапі перевіряються гіпотези щодо планів функції розподілу випадкових змінних, значимості відмінностей середніх і дисперсій в подвыборках, тобто. їх однорідності, значимості відмінностей кореляційних матриць і факторних навантажень в факторном поданні до подвыборках, інтерпретація латентних факторів, і т.д. Будуються довірчі інтервали для середніх, дисперсій і коефіцієнтів кореляції, застосовуються підходящі критерії згоди. Використовуються методи дисперсионного, факторного і регресійного аналізу. При узагальненні результатів дослідження вирішується питання репрезентативності выборки.
Необходимо відзначити, що ця послідовність дій, слід сказати, перестав бути хронологічної, крім першим етапом. Принаймні результатів описової статисти та виявлення тих чи інших закономірностей виникає необхідність перевірити виникаючі гіпотези й одразу можливість перейти до їх детальному аналізу, отже всього спектра досліджень здійснюватиметься одночасно чи режимі итерационного взаємодії: результати реалізації пізніших етапів дослідження можуть утримувати висновки необхідність повернення до попередніх етапах. Але за будь-якого разі за перевірці гіпотез рекомендується здійснити їхню аналіз різними математичними засобами, адекватно відповідними моделі, і приймати гіпотезу у тому чи рівні значимості слід тільки тоді ми, коли він підтверджується кількома різними методами.
Опишем тепер докладніше запропоновану процедуру дослідження та використовувані математичні методи.
Подготовка даних до анализу.
Прежде ніж братися до аналізу, необходомо виконати такі дії: 1) перевірити дані на наявність істотних помилок; 2) вибрати метод роботи з пропущеними значеннями; 3) за необхідності згладити викиди. Розглянемо кожен із моментов.
1) Помилки введення можна умовно розбити на дві категорії. Перша — це незначні (лише на рівні 20%) помилки при наборі чи шкалировании. Будучи випадковим чинником, такі помилки у силу рівної ймовірності відхилень у той чи інший бік не зміщують оцінки для вибіркових середніх і спотворюють принципово розподіл відповідних змінних. Помилки другого роду — це суттєві помилки (>50%), що впливають розподіл (викиди). Завданням електронної перевірки бази даних є повне усунення істотних помилок. І тому перспективами кожного із змінних рекомендується переглянути діаграму розсіювання на так званої «нормальної вероятностной папері «, відзначити викиди і, проаналізувавши їх, виправити помилкові значення, або, якщо викид має об'єктивну природу, вирішити питання згладжуванні (див. нижче). У цьому одночасно вирішується питання близькості вибіркового розподілу до нормальному. (При докладний аналіз і перевірці гіпотез нормальність розподілу необхідно підтверджувати критеріями согласия).
2) Існує три основні варіанти роботи з пропущеними значеннями. Перший — ігнорувати при конкретних обчисленнях відповідні випадки. Однак цьому немає частина корисною інформації та знижується валідність вибірки, так що спосіб можна використовувати за значного обсязі вибірки (>100 людина) і невеличкому (0−10%) числі перепусток. Другий спосіб залежить від заміні пропущених значень змінних їх середніми значеннями. Така процедура не змінює валідність і вибіркове середнє навіть трохи зменшує дисперсию. До її недоліків можна віднести усунення оцінок елементів ковариационной і кореляційної матриць, що, віддзеркалюється в результатах кореляційного і факторного аналізу. Проте цей спосіб є поширеним при середніх обсягах вибірки не надто великому числі перепусток. Третій варіант роботи з пропущеними значеннями залежить від їх екстраполяції за даними. Це здійснюється засобами корреляционно — регресійного чи кластерного аналізу. У першому випадку за даними визначається рівняння множинної регресії заданих змінних на аналізовану, і пропущені дані заповнюються як значення цього рівняння. Другий підхід грунтується на використанні відстані між парами об'єктів (випадків) у певній метриці, що визначається по значенням змінних, вимірюваних У цих об'єктів. Передбачається, що й два випадку близькі в просторі вимірюваних змінних (потрапляють у один кластер), те з цього слід забувати і їх близькість з невідомих змінним. Ці методи технічно досить складні, і їх доцільно використовувати лише за невеликий обсяг вибірки, значному числі перепусток та високої значимості проведеного исследования.
3) Іноді викид — не слідство помилки, а обьективный результат дослідження. Однак у будь-якому випадку він істотно спотворює розподіл перемінної, тож коли викид має випадковий і відбиває деяку закономірність, рекомендується згладити його шляхом заміни відповідного значення на середнє чи экстраполированное однією з перелічених вище способів.
Описательная статистика.
Результаты проведеного дослідження інтерпретуються як матриця даних T розміру n р, рядки якої відповідають учасникам дослідження (випадки), а стовпчики — значенням змінних чи параметрів. Нехай X — кількісна змінна з набором значень xi, i=1,2,…n. Тоді основними параметрами її розподілу є:
Показатели становища. До них належать вибіркове середнє Xср=(xi)/n, мінімальний і максимальний елементи, верхній і нижній квартили (вони сьогодні визначають кордону зони, у якому потрапляє 50% вибірки), вибіркова медіана (квантиль, відповідна значенням p=0.5).
Показатели розкиду і ассимметрии. Це першу чергу виправлене вибіркове відхилення p. s, дисперсія D, коефіцієнт варіації Квар, розмах (різницю між максимальним і мінімальним елементами), межквартильный розмах (різницю між верхньої і нижньої квартилью), центральні відхилення і, ассимметрия Ass (X), ексцес Eks (X), вычисляемые по формулам.
D = 1/(n-1) ((xi — Xср)2)½, p. s = D, (1).
k = ((xi — Xср) k) / n, Ass (X)=? 3 / s3, Eks (X)= 4/s4 — 3. (2).
Отметим, що 1=0, 2= 2, й у нормально розподіленої випадкової перемінної Х справедливі рівності Ass (X)=Eks (X)=0 (значні відхилення цих параметрів від нуля свідчить про ненормальності распределения).
Показатели, описують закон розподілу. Ця група показників включає діаграми розсіювання, графіки гистограммы і емпіричну функції розподілу, таблиці частот.
Для двох випадкових змінних X, Y параметрами їх спільного розподілу служать кореляційний момент xy (чи коефіцієнт ковариации), коефіцієнт лінійної кореляції r, кореляційні відносини xy, yx, зумовлені наступним образом:
xy = 1/ n (((xi — Xср) (yiYср) = (XY) порівн — Xср Yср, (3).
r = xy /(sxsy) = (nxy xy — n Xср Yср)/(n sxsy), (4).
yx = sмежгр / sy = ((nx (yx — Y)2/(ny (y — Y)2)½, (5).
xy = sмежгр / sx = ((ny (xy — Xср)2/(nx (x — Xср)2)½. (6).
Здесь nx ny — частоти значень відповідно ознаки x в X і y в Y, xy, yx — умовні середні. У багатьох статистичних пакетів разом з коефіцієнтом кореляції визначається її державний рівень значимості. Основне різницю між коефіцієнтом кореляції r і кореляційними відносинами у тому, перший вимірює тісноту лінійної зв’язок між перемінними, тоді як корреляционнное ставлення служить мірою рівня будь-який, зокрема і лінійної, залежності. Недоліком ж кореляційного відносини і те, що його Демшевського не дозволяє визначити аппроксимирующую криву зв’язок між X і Y, бо за визначенні кореляційного відносини конкретний вид залежності до уваги не приймається. При аналізі ординальных змінних замість коефіцієнта лінійної кореляції К. Пирсона r використовуються коефіцієнти ранговій кореляції Спирмена і Кенделла. І тому набір значень змінних Х і Y попередньо ранжируется, і як значень змінних беруться відповідні ранги. Отже, набір значень ранжированого перемінної є певна перестановка натуральних чисел від 1 до n. Коефіцієнт для рядів числових значень xi і yi (і = 1,., n) обчислюється за такою формулою = 1- 6S/(n3 — n), де P. S = (xi — yi)2. Для визначення коефіцієнта вводиться статистика Кенделла До, обумовлена і кількість інверсій у низці xi, упорядкованому значеннями yi. Тоді = 1- 4K/(n (n -1)). Як можна і r, ці числа задовольняють неравенствам -1<, < 1, і крайні значення приймаються у разі повної передбачуваності однієї ранговій послідовності з іншої. Для виявлення зв’язку номінальних ознак використовуються таблиці сопряженности.
Параметрами багатовимірного розподілу системи змінних {Хi}, обумовленою матрицею даних T чи його подматрицей Tk, є вектор середніх і матриці ковариаций М і кореляцій R, елементами яких відповідно будуть кореляційні моменти i, j і коефіцієнти парної кореляції ri, j. Діагональні елементи i, i ковариационной матриці М — це вибіркові дисперсії Di. Обидві матриці симетричні, матриця R власне є нормування М обидві вони служать базою на подальше регресійного і факторного анализа.
Регрессионный аналіз. Завданням регресійного аналізу є будування моделі функціональної зв’язок між групою незалежних змінних (що можуть бути номінальні параметри — регрессоры або випадкові перемінні, звані предикторами чи предсказательными перемінними) і одномірної перемінної Y, званої відгуком. Розглянемо рівняння зв’язку Y = f (X1, X2,…Xk ,) + (7), де f — n-мерная вектор-функция від k змінних Xi і - параметра зв’язку; -n-мерный випадковий параметр, який відбиває відхилення від функціональної залежності (вектор залишків чи помилок). У класичної моделі передбачається, що координати незалежні і однаково розподілені по нормальному закону N (0, 2). Рассматрим ситуацію, коли f лінійно залежить від, тобто. завдання лінійного регресійного аналізу (з методами нелінійного аналізу можна ознайомитися в [4]). Тоді рівняння (7) можна як Y = 1 + 2X1 + 3X2 +…+ k+1Xk +, (8) чи матричної формі Y = A +. Тут А={ai, j} - матриця розміру n (k+1), звана регресійної матрицею, у якій ai, 1=1, ai, j =хi, j-1 — компоненти вектора Xj-1 при j>1. Однією з основних методів отримання оцінки є метод найменших квадратів, що полягає в мінімізації залишкової суми квадратів (RSS) = i2 стосовно. Застосовуючи його, ми матимемо значення (2 ,… k+1)= M-1CyX, 1=Yср — 2X1 — 3X2 -…- k+1Xk, де М — матриця ковариаций для Xi, CyX = (Y, Xi, i=1,.k) — вектор оцінок ковариаций між Y і Xi. Оцінкою для залишку буде е =YA, a RSS= |e|. Довірчий інтервал для і лише на рівні значимості окреслюється і + (D (i)t1- /2())½, де t1- /2() — квантиль для t-распределения з = n-k ступенями свободи. Визначимо квадрат коефіцієнта множинної кореляції між Y і Xi як R2 = CyXT M-1CyX = (CyX) / Y2. Його статистичний сенс можна пояснити, розглянувши дисперсию умовного розподілу Y при заданих Xi: (yXi)2 = Y2 (1- R2). Таким чином, величина R2 є частка дисперсії Y, пояснена перемінними Xi. Параметри R2, RSS, довірчі інтервали для з оцінкою для дисперсій помилок, і коефіцієнтів регресії ([5, 7.1.3]) визначають якість наближення Y рівнянням регресії і важливі параметрами анализа.
Наряду із викладеною вище параметрическим підходом існують непараметричні методи побудови рівнянь регресії. Їх перевагою є припущень щодо нормальності розподілу предикторов і прямих помилок, а недоліком — менша потужність критеріїв. Дехто з таких методів використовують ідею кластерного групування змінних щодо заданої метрики у просторі предикторов [5, 7.1.9], інші засновані на ранжируванні змінних й використовують рангові коефіцієнти кореляції Спирмена і Кендалла [9, 8.5]. Вибір одного чи іншого методу залежить від типу аналізованих змінних в кожній ситуації вирішується окремо.
Дисперсионный аналіз (ТАК). Припустимо, що у рівнянні лінійної регресії (8) параметри і можуть приймати відвідувачів значення лише 0 чи 1. Тоді ми матимемо модель, у якій враховується не ступінь впливу змінних Хi на Y, а сам собою факт цього впливу — модель дисперсионного аналізу. Змінні Хi у цій моделі назывются чинниками, Y — відгуком. Залежно від кількості чинників розрізняють однофакторный, двухфакторный, мультифакторный види аналізу. Передбачається, що залишки і незалежні і однаково розподілені згідно із законом N (0, 2). Друге істотне умова — змінна Y мусить бути нормально розподілено. Загальна ідеологія ТАК у тому, аби уявити загальну дисперсию Y як суми дисперсій, обумовлених впливом чинників Хi і залишкового випадкового параметра, і, оцінюючи дисперсионные відносини, визначити наявність і ступінь впливу чинників Хi на Y. Розглянемо найпростішу, й те водночас досить поширену модель однофакторного аналізу. Згрупуємо значення Y в k груп, параметризованных значеннями чинника Х, позначимо через nj обсяги відповідних груп, через yi, j — i-е значення перемінної Y в j-й групі, а yj порівн — середнє в j-й групі. Тоді рівняння (8) можна як yi, j = aj + i, j, j=1,., k, і =1,., n, де аj — невідомі константи (генеральні середні за групами), i, j незалежні із розподілом N (0, 2). Буде перевірятися гіпотеза Н0: а1=…=аk. І тому розглянемо дві оцінки дисперсії 2. Перша має вигляд: * 2 = ((yi, j — yj ср)2)/(n-k). Вона залежить від гіпотези і ассимптотически прагне 2. Друга оцінка виходить через розбивка на групи, зумовлені значеннями чинника: 2 =(nj (yj порівн — Y порівн)2)/(k-1). Вона залежить від Н0 і за її порушенні має тенденцію до зростання. Ставлення цих оцінок F = 2 / *2 має F — розподіл з (k-1, n-k) ступенями волі народів і залежить від. Отже, при що спостерігається значенні F більшому, ніж відповідна — відсоткова точка розподілу F ((1-) — квантиль F) гіпотеза Н0 відхиляється і приймається припущення щодо вплив чинника Х на Y. Тоді можна порушувати питання про довірчих інтервалах для аi. Відповідь наступний: |yj ср-aj | < t1- / nj з довірчій ймовірністю 1−2, де t1- - квантиль рівня (1-) розподілу Стьюдента з n-k ступенями свободы.
Отметим, що їхні висновки ТАК про рівність чи нерівності сj досить стійкі навіть за порушенні основних припущень про нормальному розподілі і рівність дисперсій залишків i, j. Якщо ж розподіл перемінної Y сильно відрізняється від нормального, чи Y — ординальная змінна, краще використовувати непараметричні критерії зв’язку, такі, як ранговий критерій Фрідмана чи критерій Пейджа для двухфакторного аналізу (див. [8, 7.4.9]), і навіть рангові критерії Краскела-Уоллеса і Джонхиера для однофакторного аналізу ([8, 6.2]).
Факторный аналіз (ФА). Розглянемо набір нормованих випадкових змінних Х1,., Хk як векторів в n-мерном просторі V. Завдання ФА у тому, аби уявити Хi як лінійних комбінацій небагатьох загальних чинників Fj, тобто. як Хi = ai, j Fj + Ei (9), де і= 1,., k, p < k. Змінні Ei називаються залишком (невязкой) чи залишковими чинниками. Зазвичай передбачається, що загальні чинники або некоррелированные випадкові величини з дисперсией 1, або невідомі випадкові параметри. Залишкові чинники мають нормальне розподіл і корелюють між собою й загальними чинниками. Коефіцієнти ai, j називаються факторными навантаженнями і збігаються з коефіцієнтами кореляції між Xi і Fj. Інтерпретуючи коефіцієнт кореляції ri, j як скалярне твір (Xi, Хj), ми за цих припущеннях одержимо геометричну модель ФА: рівняння (9) є розкладання системи нормованих векторів Х1,…, Хk через ортогональную систему Ei, F1,., Fp з максимальною сумарною інформативністю I = D (Fj) / D (Xi). Матриця ковариации М для змінних Xi наводиться до диагональному виду в базисі, що складається власними векторів, і як Fj вибираються власні вектори з максимальними власними значеннями j (метод головних компонент). У цьому j інтерпретуються як дисперсії відповідних чинників. Критерій інформативності I то, можливо записаний у вигляді I = j / k, тобто. він дорівнює частці сумарною дисперсії змінних Хi, обьясненных першими p головними компонентами — чинниками. Чим ближче до це значення до 1, тим точніше чинники Fj описують перемінні Хi. Крім методу головних компонент, є й інші способи виділення чинників Fj — методи мінімальних залишків, максимального правдоподібності, центроидный метод та інших. Усі вони, зазвичай, призводять до близьким результатам, отож понад важливим питанням ФА не вибір способу вилучення чинників, а визначення їх кількості та інтерпретація латентних чинників змістовному плані (що можуть бути психофізіологічні властивості особистості, і навіть соціальні, економічні чинники та т.п.). При виборі числа чинників корисно керуватися такими соображениями:
Имеет сенс враховувати ті чинники, котрим власні числа більше 1, тобто. внесок чинника в сумарну дисперсию більше вкладу будь-який перемінної.
Критерий «кам'янистої осипу «рекомендує обмежитися чинником, після якого убування власних чисел сповільнюється найсильніше.
На заданому числі чинників критерій інформативності I перевищує 0.75 (тобто. чинники обьясняют 75% розкиду змінних).
Матрица интеркорреляции для Ei немає значимих на заданому рівні (зазвичай = 0.05) недиагональных коэффициентов.
Построенная факторная структура у просторі V визначено неоднозначно. Роблячи Оберти систему координат в V, можна одержувати різні розкладання змінних Хi через Fj. Є різноманітні критерії визначення найкращою позиції системи координат — критерії погодження з результатами, отриманими іншими методами, із загальною гіпотезою щодо природи латентних факторів, і т.п. Є і суто математичний критерій, який базується на принципі «простий структури «Терстона. У його основі лежить ідея, що з кількох рівносильних гіпотез слід вибирати найбільш просту, що в разі означає, кожна змінна повинен мати максимально просте факторне зміст, тобто у ній домінує навантаження одного будь-якого чинника, і навпаки — даний чинник виявляється лише у певній мінімальному числі змінних. Інакше кажучи, обертанням базису необхідно одержати одночасно найбільше максимальних по модулю і мінімальних (близьких нанівець) факторних навантажень. Цю процедуру реалізується тим чи іншим итерационным методом (варимакс, квартимакс, эквимакс) в статистичних електронних пакетах, містять модулі ФА (Statistica і др.).
Кластерный аналіз (КА). У цілому нині алгоритми КА можна розділити на дві основні напрями — це розбивка даних певні групи (кластери) і ієрархічна класифікація даних. Як об'єктів аналізу можуть виступати як випадки (суб'єкти дослідження), і випадкові перемінні. Загальна ідея першого напрями КА у тому, що факти (чи перемінні) розглядаються як точки векторного простору з певною у ньому метрикою (функцією відстаней) d (X, Y) і далі розбиваються на групи близьких щодо цієї метрики об'єктів, званих кластерами. Як метрики використовуються евклидово відстань ((xi — yi)2)½, відстань Чебишева max{|xi — yi |} та інших. Обьекты аналізу визначаються вихідної матрицею Т або матрицею відстаней. Нехай задана матриця Т. Виділимо классифицирующее безліч ознак — перемінні Х1,., Хk. Тоді кожен конкретний випадок уявімо як точка в k-мерном просторі V. Природно припускати, що геометрична близькість точок в V відповідає близькості відповідних об'єктів за своїми характеристикам. Це визначає геометричний підхід, який вимагає ніяких ймовірнісних припущень. Інший підхід грунтується на припущенні, що матриця Т визначає вибірку з суміші унимодальных розподілів, і завдання виділення груп зводиться або для оцінювання параметрів цих розподілів (параметричні методи), або для пошуку модальних значень (точок локального максимуму) непараметричної оцінки Парзена для функції щільності ймовірності. Параметричні методи, наприклад, алгоритм Дея (див. [5, 9.1.4]), близькі методам дискриминантного анализа. Обычно у своїй передбачається, що розподіл вибірки є зважена сума багатомірних нормальних розподілів. У другому разі розглядається функція Парзена P (X, h) = c (h, p) exp (-1/h2 (X — Xj) T (XXj)), дає непараметрическую оцінку щільності розподілу випадкових величин Х1,., Хk. Тут c (h, p) — нормирующая константа, p — параметр згладжування. Якщо є утворюють згущення в n-мерном просторі, то P (X, h) матиме локальний максимум (модальное значення) у точці, близька до центру згущення. Отже, визначаючи модальні точки функції P (X, h), ми визначаємо кількість класів, куди може бути розбитий дані, і центри цих класів, навколо яких потім группируем данные.
Иерархические методи класифікації засновані на включенні груп даних Di, аналізованих як поодинокі об'єкти, в деяку ієрархічну структуру, яка відображатиме близькість цих груп. Як Di можуть виступати окремий випадок чи змінна. Визначаючи відстань між групами d (Di, Dj) (наприклад, як відстань між центрами груп d (Ci, Cj)) і розглядаючи Di як вершини деякого графа G з ребрами між Di і Dj довжини di, j = d (Di, Dj), ми матимемо інтерпретацію завдання мовою теорії графів. Ієрархічна структура на безлічі об'єктів {Di} визначається шляхом перебування мінімального який покриває дерева, тобто. графа без циклів, такого, що сумарна довжина його ребер мінімальна. Цю процедуру реалізується за правилом «найближчого сусіда «- виділяється ребро мінімальної довжини di, j, відповідна пара об'єктів Di, Dj об'єднується в об'єкта (тобто. додається нова вершина графа, сполучена з вершинами Di, Dj,), в получившемся графі знову виділяється ребро мінімальної довжини тощо. У результаті ми маємо ієрархічне дерево, у якому вершини нижчого рівня є вихідні об'єкти, інші ж вершини визначають рівні ієрархічної структури. За інших алгоритми використовуються методи розрізування дерева з самого довгому ребру (вроцлавская класифікація) або за ребру з максимальним вагою w=dn1n2, де d — довжина ребра, а n1, n2 — кількість вершин поддеревьев, які утворюються після розтину дерева, що містить дане ребро (див. [11]).
Критерии згоди. Критерії згоди призначені щоб виявити розбіжностей між гіпотетичної моделлю та даними, які ця модель покликана описати. Вони йдуть на перевірки застосовності припущення законі розподілу випадкової величини або для перевірки гіпотези про однорідності вибірки. Зазвичай, вважаючи вибіркові середнє і відхилення оцінкою параметрів гіпотетичного розподілу, використовують критерії Колмогорова-Смирнова, омега-квадрат для змінних з великою варіативністю значень, і хи-квадрат К. Пирсона чи Р. Фішера для дискретних змінних з гаком числом значень. Для перевірки однорідності розподілів в подвыборках, добутих із генеральної поєднанні з нормальним розподілом, використовують t-критерий Стьюдента для середніх і критерій Бартлетта для дисперсій. Під час перевірки однорідності вибірок щодо ординальных змінних використовують рангові критерії однорідності - критерій Вилкоксона і критерій нормальних міток Фишера-Йэтса (див. [2]).
В висновок відзначимо, що є велика кількість різних статистичних компъютерных пакетів, дозволяють проводити стандартні види аналізу — Statistica, SPSS, Stadia, Statgraphics та інших. Особистий досвід автора дозволяє рекомендувати в практичних дослідженнях пакети Statistica версії 4.5 і від і SPSS версії 7.0.
Список литературы
Айвазян С.А., Бухштабер В. М., Енюков І.С., Мешалкин Л. Д. Прикладна статистика: Класифікація й відповідне зниження розмірності. — М.: Фінанси і статистика, 1989. — 607с.
Айвазян С.А., Енюков І.С., Мешалкин Л. Д. Прикладна статистика: Основи моделювання і первинна обробка даних.- М.: Фінанси і статистика, 1983. — 471с.
Боровиков В.П., Боровиків І.П. Statistika. Статистичний аналіз стану і обробка даних в середовищі Windows. — М.: Информ.-издат. Будинок «Филинъ », 1997. — 608 з.
Демиденко Є.З. Лінійна і нелінійна регресія. — М.: Фінанси і статистика, 1982. — 302 з.
Енюков І.С. Методи, алгоритми, програми багатовимірного статистичного аналізу. — М.: Фінанси і статистика, 1986. — 232 з.
Кокс Д., Хинкли Д. Теоретична статистика. — М.: Світ, 1978. — 560 з.
Крамер Р. Математичні методи статистики. — М.: Світ, 1975. — 648 з.
Себер Дж. Лінійний регресійний аналіз. — М.: Світ, 1980. — 456 з.
Тюрин Ю.Н., Макаров А. А. Статистичний аналіз даних за комп’ютером. — М.: ИНФРА-М, 1998. — 528 з.
Факторный, дискриминантный і кластерний аналіз. — М.: Фінанси і статистика, 1989. — 215 з.
Жамбю М. Ієрархічний кластерний аналіз політики та відповідності. — М.: Фінанси і статистика, 1988.
Список литературы
Для підготовки даної роботи було використані матеріали із російського сайту internet.