Основні етапи технології аналізу даних
Всі ознаки поділяються на якісні і кількісні. Якісні ознаки не піддаються безпосередньому вимірюванню і враховуються за наявністю їх властивостей у окремих членів досліджуваної групи. Наприклад, серед рослин можна підрахувати кількість екземплярів з різним кольором квітів — білим, жовтим, рожевим і т. д. Кількісні ознаки піддаються безпосередньому вимірюванню або підрахунку, виражаються цілими… Читати ще >
Основні етапи технології аналізу даних (реферат, курсова, диплом, контрольна)
На сьогоднішній день дані, ЕОМ і користувач складають ту тріаду, що лежить в основі аналізу даних. Аналіз даних — це сукупність методів і засобів отримання з певним чином організованих даних інформації для прийняття рішень. Оптимальні принципи аналізу даних черпаються з математичної статистики (головним чином теорії статистичних рішень, теорії оцінок і теорії ігор).У вітчизняній літературі «аналіз даних» часто синонімічний терміну «прикладна статистика», що підкреслює практичну спрямованість відповідних методів обробки даних.
ЕОМ — це електронна обчислювальна машина, в якій електронні пристрої відіграють роль функціональних елементів. У наш час цю абревіатуру використовують, як правило, в юридичних документах. Прийнято вважати, що першу електронну обчислювальну машину винайшли на початку 1943 року.
У нашому випадку будемо віддавати перевагу терміну «аналіз даних», оскільки основна увага буде надалі зосереджена не на статистичних методах, а на особливостях їх використання. Застосування формальних методів аналізу даних (або прикладної статистики) не дає належного результату, якщо не розібратися з тим, як і які дані можна і потрібно вводити в обробку, для чого потрібен результат і що з ним можна, а чого не можна робити.
Якісний аналіз даних
Роль ЕОМ у процесі аналізу даних характеризується двома аспектами: вона служить інструментом для швидкого рахунку й акумулятором знань, тому що машинні програми дають можливість використовувати знання й уміння інших людей. Тому використання ЕОМ — це фактично використання накопиченого досвіду фахівців з аналізу даних, помноженого на швидкість виконання рутинної роботи.
Останньою складовою названої тріади є користувачі, під якими мають на увазі усіх тих, хто використовує ЕОМ для вирішення своїх прикладних задач. Клас користувачів дуже неоднорідний. Більшість його складають так звані «наївні» користувачі, що не мають навичок програмування. Але «наївність» в інформатиці, аналізі даних, обчислювальній статистиці (тобто в областях їх некомпетентності) аж ніяк не означає відсутності в такого користувача знань в інших областях, і він, як правило, є професіоналом у своїй предметній області (економіці, фізиці, медицині, соціології і т. п.) і має глибокі знання про природу тих даних, які він хоче опрацьовувати.
До появи ЕОМ дані оброблялися переважно вручну або з застосуванням простих механічних пристроїв. Спеціаліст-статистик був єдиним у трьох особах — вія був і тим, хто ставить задачу, і методологом її вирішення, і технічним виконавцем. З появою і розвитком ЕОМ функції розділилися: математик-програміст створював програми, а збирав дані і ставив завдання щодо обробки фахівець предметної області. Він же в тісному контакті з математиком інтерпретував результати обробки.
На даний час існує не так багато відмінних один від одного і стійко працюючих на реальних даних математичних методів. Назвемо умовно такі методи базовими, їх описи можна знайти в літературі з математичної статистики. Є також методи, аналогічні базовим, що дають приблизно такі ж результати в більшості практичних ситуацій і відрізняються від них у деталях, та методи для «витончених» і «ідеальних» даних, що звичайно не можуть застосовуватися на практиці через відсутність необхідних умов, але дозволяють фахівцю з аналізу даних оцінювати шляхом зіставлення структуру вихідних даних. На жаль, дві останні групи переважаютьнадвомапершими (рис. 3.1).
Якщо глибше вникнути в причини виникнення цієї ситуації, то неважко переконатися, що вона викликана неоднаковим підходом до процесу обробки даних і споконвічного розуміння «даних». Для математики дані — це, насамперед, деяка математична абстракція — не величина сили вітру, а дійсне число, не опис знайдених в експедиції зразків гірських порід, а вибірка з якоїсь генеральної сукупності за певним законом розподілу. Але будь-яка абстрактна модель побудована на системі чітких і однозначних понять, принципів, аксіом, що забезпечують завбачення поведінки моделей, однозначність висновків і наслідків, одержання строгих результатів, але лише в рамках цієї формальної системи.
Проте, як тільки мова заходить про реальні дані користувача, а не про абстрактні дані математика, що явно укладаються в прийняту модель, виникає маса питань, найголовніше з яких — чи відповідають засади, покладені в основу моделі, реальній ситуації.
Математика це питання не хвилює, оскільки воно виходить за рамки його традиційної області діяльності. У користувача, особливо початківця, таке питання не виникає в силу глибокої віри в досконалість машини і надійність розроблених для неї програм. Задають його лише стурбовані фахівці, що постійно стикаються з необхідністю обробки саме реальних, а не ідеальних даних.
Останнім часом підвалини класичної статистики систематично розхитуються через те, що багато дослідників вважають цілий ряд її аксіом і засад неадекватними реальності [3]. З іншого боку, багато існуючих формальних методів, хоча і грунтуються на перевірених моделях, але мають обмежене застосування через те, що реальні дані, які відповідають цим моделям, зустрічаються не досить часто.
Очевидно, сьогодні можна говорити про новий етап розвитку прикладних статистичних методів, направлених на дослідження природи опрацьовуваних даних із позицій визначення їхньої реальності і системності [17]. Реальність передбачає використання передумов і порівняння результатів, завжди орієнтуючись на єдиний критерій істинності. Системність припускає всебічний (і, як правило, багатократний) розгляд не тільки самих реальних даних, але і неформальних знань фахівця предметної області і фахівця з аналізу даних, врахування зовнішніх чинників і зв’язків об'єкта досліджень і т. д. Таким чином, у даний час починаються спроби ліквідувати розрив між даними формальними і даними реальними за допомогою наведення додаткових зв’язків між дійсністю і формалізмом машинної обробки.
Якісний аналіз даних
Зафіксовані дані про досліджуваний об'єкт (явище) являють собою той первинний фактичний матеріал, який потребує відповідної обробки. Обробка починається з упорядкування або систематизації зібраних даних. Процес систематизації результатів масових спостережень, об'єднання їх у відносно однорідні групи за деякою ознакою називається групуванням. Перш ніж детально зупинитись на способах групування даних, розглянемо основні властивості ознак. В загальному розумінні під словом «ознака» мають на увазі властивість, за якою один предмет відрізняється від іншого. Наприклад, якщо в якості об'єкта дослідження вибрано поняття «люди», то ознаками можуть виступати: «зріст», «вага», «вік» та ін.
Характерною властивістю ознак є варіювання, коли їх величини коливаються, утворюючи сукупність числових значень. Ці коливання величини однієї і тієї ж ознаки, що спостерігаються в масі однорідних членів статистичної сукупності, називають варіаціями (від лат. variatio — зміни, коливання), а окремі числові значення варіюючої ознаки прийнято називати варіантами (від. лат. varians, variatis — той, що змінюється, відрізняється).
Всі ознаки поділяються на якісні і кількісні. Якісні ознаки не піддаються безпосередньому вимірюванню і враховуються за наявністю їх властивостей у окремих членів досліджуваної групи. Наприклад, серед рослин можна підрахувати кількість екземплярів з різним кольором квітів — білим, жовтим, рожевим і т. д. Кількісні ознаки піддаються безпосередньому вимірюванню або підрахунку, виражаються цілими або дробними числами. Ці числа показують, наскільки один об'єкт відрізняється від іншого за ступенем інтенсивності ознак (температура в градусах), або у скільки разів відрізняються об'єкти за величиною (маса в грамах, кілограмах, тоннах; час в годинах, хвилинах, секундах, і т. д.).
Кількісні ознаки піддаються арифметичним перетворенням, їх значення можна підсумовувати, множити, ділити (наприклад, знаходячи середню місячну температуру).
Повернемося тепер до питання групування значень ознак. Групування — це не просто технічний прийом, але й глибоко змістовна дія, направлена на вияв зв’язків між об'єктами (явищами). В основі групування лежить вже раніш розглянута схема «об'єкт» — «ознака», яка формується наступною матрицею [1J:
де — значення j-їознаки, що характеризує стан i-то об'єкта (оскільки і-й стовпчик матриці (3.1) характеризує об'єкт Оі тобто представляє результат його дослідження за всіма аналізованими змінними).
Нерідко і, в першу чергу, в ситуаціях, коли вихідні дані отримують за допомогою спеціальних опитувань, анкет, експертних оцінок, можливі випадки, коли елементом первинного спостереження є не просто стан і-го об'єкта, а характеристика pjjпопарної близькості (віддаленості) двох об'єктів (або ознак) відповідно з номерами iта j.
У цьому випадку формується матриця розміром пхп (якщо розглядати характеристики попарної близькості ознак) вигляду:
Матриці даних (3.1) та (3.2) в практичному застосуванні представляються вже згадуваними раніше таблицями експериментальних даних (ТЕД), які можуть бути простими і складними. До простих належать, наприклад, чотирьохпільні таблиці, що використовуються при альтернативному групуванні, коли одна група варіант протиставляється іншій (наприклад, здорові — хворим, високі — низьким). До складних відносяться багатопільні таблиці, що використовуються при вивченні кореляційної залежності і при з’ясуванні причинно-наслідкових співвідношень між варіюючими ознаками. Особливий клас таблиць складають таблиці спряженості ознак (рис. 3.3). Часто виникають ситуації, коли дані збираються одночасно для характеристики двох змінних. Прикладом може служити інформація про колір очей та волосся індивіда. Так, у вибірці даних об'єму п1…, пijлюдей мають волосся «класу» іта очі «класу» jТакого роду дані можуть бути представлені у вигляді спряженості ознак.
Особливу форму групування представляють так звані статистичні ряди, під якими розуміють ряди числових значень ознак, розташованих в певному порядку. В залежності від того, які ознаки вивчаються, статистичні ряди ділять на атрибутивні, варіаційні, ряди динаміки та регресії, а також ряди ранжируваних значень ознак і ряди накопичених частот, що є похідними варіаційних рядів [30]. Серед групувань варіаційні ряди займають значне місце, тому на їх описі слід зупинитись більш детально.
Варіаційним рядом, або рядом розподілу, називають подвійний ряд чисел, що показує, яким чином числові значення ознаки пов’язані з їх повторюваністю в даній ситуації.
Наприклад, з врожаю картоплі, зібраної на одній ділянці випадковим способом, було відібрано 25 клубнів, в яких підрахували число вічок. Результати підрахунку виявились наступними: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 12, 9, 8, 10, 11, 9, 10, 8, 10,7,9, 11, 9, 10. Щоб розібратись в цих даних, розташуємо їх в ряд (в порядку реєстрації результатів спостереження) з урахуванням повторюваності варіант в цій сукупності:
Варіанти хі, …6 9 5 10 8 11 12.
Число варіант fi…1 7 1 2 6 4 3 1.
Це і є варіаційний ряд. Числа, які показують, скільки разів окремі варіанти зустрічаються в даній сукупності, називаються частотами або вагами варіацій і позначаються малою літерою латинського алфавіту f. Загальна сума частот варіаційного ряду дорівнює об'єму даної сукупності, тобтоозначає складання частот варіаційного ряду від першого (i=1) до k-гокласу, an — загальне число спостережень, або об'єм сукупності.
Частоти (ваги) виражають не тільки абсолютними, але і відносними числами — в долях одиниці або в процентах від загальної чисельності варіант, що складають дану сукупність. В таких випадках ваги називають відносними частотами або частками. Загальна сума часток дорівнює одиниці, тобтоякщо частота варіанти виражається в процентах від загального числа спостережень п. Розподіл вихідних даних в варіаційний ряд має певні цілі. Одна з них — прискорення технології обчислення узагальнюючих числових характеристик — середніх величин і показників варіацій. Інша полягає у з’ясуванні закономірностей варіювання певної ознаки. Наведений вище ряд задовольняє першій цілі, але не задовольняє досягненню другої. Щоб ряд розподілу повністю задовольняв вказаним вимогам, його потрібно будувати за ранжованими значеннями ознак.
Під ранжуванням (від франц. ranger — ставити в ряд за ранжиром, тобто за зростом) розуміють розташування членів в ряд у порядку зростання (або спадання). Так, в даному випадку результати спостереження мають розподілитись так: комп’ютер даний прикладний статистичний Варіанти хі …5 6 8 9 10 11 12.
Число варіант fі… 1 1 1 2 3 4 6 7.
Цей впорядкований ряд розподілу однаковою мірою задовольняє досягненню і першої, і другої мети. Він добре розглядається і щонайкраще ілюструє закономірності варіювання ознаки.