Теорія статистики (Станкін)
Кінцевою метою обробки інформації методами математичної статистика, якщо йдеться про великих вибірках, є отримання закону розподілу досліджуваної випадкової величини. Це з тим, що довгоочікуваний Закон розподілу є фактично, тим апаратом, що дозволяє визначити можливість появи (чи, навпаки, непояви) випадкової величини на той чи іншого період чи можливість, що випадкова величина потрапить у той чи… Читати ще >
Теорія статистики (Станкін) (реферат, курсова, диплом, контрольна)
Тема 1. Статистична зведення. Группировка.
Статистична зведення є другим етапом статистичного дослідження після спостереження. Вона у цьому, що первинні матеріали, отримані внаслідок спостереження, обробляються, зводяться разом і характеризуються підсумковими узагальнюючими показателями.
Складовими елементами зведення є: 1) програма зведення; 2) підрахунок групових підсумків; 3) оформлення кінцевих результатів зведення як таблиць і графиков.
Програма статистичної зведення містить перелік груп, куди розчленована яка вивчалася сукупність за ознаками, і навіть перелік показників, необхідні характеристики кожної групи. Програма зведення має, зазвичай, вид вільних статистичних таблиць, які треба заповнити розрахунковими данными.
У зведенню статистичного матеріалу важливий ланцюг займають угруповання, оскільки простий підрахунок підсумків без розподілу одиниць сукупності на групи з тим чи іншим ознаками це не дає повної характеристики об'єкта изучения.
До статистичним угрупованням вдаються під час вирішення наступних завдань: а) аналіз структури досліджуваної сукупності; б) виявлення зв’язків і взаємозалежностей між економічними явлениями.
Аби вирішити першого завдання будують структурні группировки.
Аби вирішити другий завдання будують аналітичні группировки.
Угруповання бувають прості і комбінаційні. Проста угруповання утворюється за однією ознакою, комбінаційна — з двох і більше ознаками. Можна здійснювати угруповання як у кількісному ознакою, і по атрибутивному. У кількісної угрупованню группировочный ознака виражається варіантами чисел. У атрибутивної угрупованню группировочный ознака кількісного висловлювання немає, оскільки характеризує якість досліджуваного явления.
У экономико-статистическом аналізі робляться угруповання і з рівними, і з нерівними інтервалами. При побудові угруповання із рівними інтервалами величину інтервалу груп визначають за такою формуле:
[pic], де Xmax — максимальне значення ознаки в досліджуваної сукупності; Xmin — мінімальне значення ознаки в досліджуваної сукупності; n — число групп.
При виборі числа груп необхідно враховувати таке: 1) у кожну групу може потрапити наскільки можна досить багато одиниць; 2) число одиниць на групах на повинен різко відрізнятися одне від друга, тобто. має бути приблизно однотипні; 3) груп має не більше 6−7.
Угруповання з нерівними інтервалами доцільно запровадити у тих випадках, коли вихідні статистичні дані відрізняються за значну величину, тобто. коли дуже великий розмах варіації в вихідної совокупности.
Розглянемо приклад на побудова аналітичної группировки.
Таблиця 1.1.
Дані вартість основних фондів і товарної продукції предприятий.
|198 — 237,6 |6 |2381,7 |396,9 | |237,6 — 277,2 |2 |1049,4 |524,2 | |277,2 — 316,8 |6 |3433,6 |572,3 | |316,8 — 356,4 |4 |2499,8 |624,7 | |356,4 — 396,0 |2 |1844,6 |922,7 |.
За підсумками побудованої угруповання видно чітка залежність обсягу товарної продукції з середньої річний вартості основних виробничих фондів предприятия.
Використовуючи умова даного завдання, побудуємо структурну группировку.
Для побудови структурної угруповання необхідно сформувати групи з другому ознакою — величині товарної продукції. Візьмемо число груп n = 5; кордону інтервалів груп визначаємо за такою формулою величини інтервалу угруповання h, где.
[pic]126,52 млн руб.
Групи підприємств, освічені за обсягом товарної продукції, такі: 315,0 — 441,52; 441,52 — 568,04; 568,04 — 694,56; 694,56 — 821,08; 821,08 — 947,6.
Надалі, здійснюючи розподіл підприємств у групах по середньої річний вартості основних виробничих фондів на підгрупи за обсягом товарної продукції, сформуємо структурну угруповання (табл. 1.3).
За підсумками структурної угруповання чітко видно розподіл підприємств із обсягу товарної продукції, залежно від тій чи іншій середньої річний вартості виробничих фондов.
Таблиця 1.3.
Структурна угруповання підприємств із двом показниками |Група |Кількість |зокрема з обсягом товарної продукції,| |підприємств із |предприяти|млн. крб. | |середньої річний |і | | |вартості ОПФ, | | | |млн. крб. | | | | |людина |у відсотках| | | |від виробленого | |1 |3 |1,5 | |2 |12 |6,1 | |3 |63 |32,0 | |4 |68 |34,5 | |5 |34 |17,3 | |6 |17 |8,6 | |Разом: |197 |100,0 |.
Для характеристики структури робочих щодо тарифних розрядам (у відсотках) визначають питому вагу чисельності робочих по відповідним розрядам в від кількості робочих. Так, питому вагу чисельності робочих 1 розряду становить (3: 197) (100 = 1,5% тощо. (див. табл. 4.2).
При обчисленні відносних величин координації за базу порівняння приймається якась друга досліджуваного явища, інші ж частини співвідносні з ней.
Наприклад скористаємося даними табл. 4.2. Якщо взяти за базу порівняння чисельність робочих 2 розряду, тоді відносні величини координації становитимуть: [pic] = 0,25; [pic] = 5,3; [pic] = 5,7; [pic] = 2,8; [pic] = 1,4, тобто. кожного робочого 2 розряду доводиться вчетверо менше робочих 1 розряду, 5 робочих 3 розряду; 6 робочих 4 розряду і т.д.
При обчисленні відносних величин інтенсивності пам’ятаймо, що є именованными показниками: так, коефіцієнт фондовіддачі показує, який обсяг продукції посідає одиницю вартості основних виробничих фондів; показник продуктивність праці характеризує величину обсягу продукції розрахунку одиницю трудових витрат і т.д.
При обчисленні відносних величин порівняння потрібно запам’ятати, що порівнянню між собою піддаються однойменні величини, які стосуються різним об'єктах, взяті, зазвичай, за і той період часу. Наприклад, співвідношення випуску своєї продукції двох підприємствах, у звітному періоді становило 102%.
Тема 5. Середні величины.
Середні величини в статистиці виконують роль узагальнюючих показників, характеризуючих досліджувану сукупність одиниць по якомусь признаку.
У статистиці використовують різні види середніх величин: середня арифметична проста, середня арифметична зважена; середня гармонійна, середня геометрична; структурні середні - мода і медиана.
Під час вивчення цієї теми особливу увагу варто привернути до себе те, що кожен вид середнього розміру визначається залежність від конкретного економічного умови і південь від поставленого завдання. Інакше середня величина дасть помилковий результат і буде перекрученою характеристикою досліджуваної статистичної совокупности.
Середній розмір розраховується за якісно однорідної сукупності, важливості якої приблизно одного порядка.
Це — основну умову застосування средней.
Не можна забувати у тому, що середні величини в статистиці є величинами именованными і виражаються у тієї ж одиницях, у яких виражений признак.
Слід також усвідомити значення середніх моди і медіани, з допомогою яких вивчають структуру досліджуваної совокупности.
Проілюструємо на конкретні приклади порядку розрахунку кожного виду середніх величин.
1. Розподіл рабочих-наладчиков ділянки однієї з цехів промислового підприємства з стажу праці та кваліфікаційним розрядам характеризується такими данными:
Таблиця 5.1.
Дані про склад робітників |Стаж |Кількість робочих, чол. | |роботи,| | |років | | | |Усього |в тому числі мають | | | |розряд | | | |4 |5 |6 | |До 10 |9 |2 |4 |3 | |10−20 |7 |- |2 |5 | |20−30 |3 |- |1 |2 | |30−40 |2 |- |- |2 |.
Визначити: а) середній розряд робочих кожної вікової групи; б) середній стаж робочих участка.
Рішення: а) Для перебування середнього розряду робочих кожної вікової групи слід застосувати середню арифметичну взвешенную:
[pic]; як ваги (m) виступає конкретний розряд робочих. Так, для робочих зі стажем роботи до 10 років середній тарифний розряд составит:
[pic] = [pic] = [pic] = 5 разряд.
І далі за іншим за віковими групами. б) Для перебування середнього стажу робочих дільниці застосовують таку ж середню арифметичну зважену, але вже настав для интервального низки распределения.
Причому, як «x «будуть серединні значення ознаки в групах, а ролі ваги (m) приймають чисельність робочих відповідної группы:
[pic] = [pic] = [pic] = 14 лет.
2. По наступним даним розподілу робочих цехи з відсотку виконання місячного завдання визначити моду і медиану.
Таблиця 5.2.
Дані про виконання виробничого завдання |Виконання месячного|Число рабочих,|Накопленные | |завдання, відсоток |чол. |частоти з початку | | | |ряд | |95−100 |3 |3 | |100−105 |20 |23 | |105−110 |10 |33 | |110−115 |5 |38 | |115−120 |4 |42 | |Разом |42 |- |.
Модою в статистиці називають найчастіше що надибуємо в досліджуваної сукупності значення ознаки. Отже, у цій завданню модальним буде інтервал від 100 до 105 відсотків, бо в на нього припадає найбільше робочих (20 чел.).
Моду визначають по формуле:
Mo = x0 + [pic]? (x1 — x0), де x0 і x1 — відповідно нижня і верхня кордону модального інтервалу; m2 — частота модального інтервалу; m1 і m3 — частоти інтервалу, відповідно, попереднього і наступного за модальным.
Підставимо значення формулу:
Mo = 100 + [pic]((105 — 100) = 103,1%.
Інакше висловлюючись, найбільше робочих виконують місячне завдання на 103,1%.
Медианой в статистиці називають серединна значення ознаки в досліджуваної сукупності. Отже, медианным є інтервал, який доводиться 50% накопичених частот даного низки, що у умові завдання 42: 2 = 21.
У нашій завданню медіана перебуває у інтервалі від 100 до 105%, бо в даний інтервал доводиться нагромаджена частота 23.
Медіану визначають по формуле:
Me = x0 + [pic]? (x1 — x0), де x0 і x1 — відповідно нижня і верхня кордону медианного интервала;
N — сума частот ряда;
N0 — сума частот, нагромадження на початок медианного интервала;
N1 — частота медианного интервала.
Підставимо відповідне значення в формулу:
Me = 100 + [pic] (5 = 104,5%.
Отже, 50% всіх робочих виконують виробниче завдання менш ніж 104,5%; 50% - понад 104,5%.
Тема 6. Лави динамики.
Рядами динаміки називають ряди, які характеризують зміна явища у часі. Лави динаміки бувають моментные і интервальные. Моментные ряди характеризують зміна явища у поступовій динаміці визначений час (частіше — початку чи кінець періоду). Интервальные ряди характеризують зміна явища у поступовій динаміці за певний період (місяць, квартал, год).
У економічному аналізі використовують аналітичні показники динаміки. До ним відносять абсолютний приріст, середній абсолютний приріст, темпи зростання, темп приросту, середній темпи зростання, абсолютне значення один відсоток приросту. Дані показники широко використовують у статистичної практиці, що зумовлює необхідність докладного вивчення порядку їхнього расчета.
Розглянемо з прикладу розрахунок аналітичних показників низки динаміки (табл. 6.1).
Таблиця 6.1.
Дані про виробництві в цеху |Місяць |Випуск |Показники динаміки | | |цехом | | | |товарної | | | |продукції| | | |, тис. | | | |крб. | | | | |Абсолютный|Темп зростання |Темп прироста|Абсолютное | | | |приріст |(Тр) |(Тпр) |значення 1%| | | |((), тис. | | |приросту | | | |крб. | | |(А), тис. | | | | | | |крб. | | | | |Ланцюговий |Базисн|Цепной|Базисн| | | | | | |ый | |ый | | |1 |236 |- |- |100,0 |- |- |- | |2 |244 |8 |103,4 |103,4 |3,4 |3,4 |2,4 | |3 |246 |2 |100,8 |104,2 |0,8 |4,2 |2,5 | |4 |249 |3 |101,2 |105,5 |1.2 |5,5 |2,5 | |5 |250 |1 |100,4 |105,9 |0,4 |5,9 |2,5 | |6 |252 |2 |100,8 |106,8 |0,8 |6,8 |2,5 |.
Абсолютний приріст (() окреслюється різницю між звітним і попереднім рівнями низки динаміки, тобто. по формуле:
(= yi — yi-1, де yi, yi-1 — рівні низки динамики.
Приміром, абсолютний приріст продукції цеху у лютому порівняно з січнем становив: 244 — 236 = 8 тис. крб., а березні проти лютим: 246 — 244 = 2 тис. крб. і т.д.
Середній абсолютний приріст ([pic]) визначається з урахуванням даних абсолютних приростів за такою формуле:
[pic] чи [pic], де n — число рівнів низки динаміки; y1 і yn — відповідно першій і останній рівні низки динамики.
Темп зростання (Тр) визначається по формуле:
Тр = [pic] (100%, де y0 — рівень низки динаміки, узятий за базу сравнения.
Темп зростання розраховується за принципу цепних і базисних співвідношень. У тому числі, коли, використовуючи базу порівняння приймається період — це ланцюгові показники темпу зростання, коли порівняння здійснюється із кожним іншим рівнем низки динаміки, узятим за базу порівняння — базисні темпи роста.
Так було в лютому проти січнем випускати продукцію в цеху становив: Тр2 = (244: 236) (100% = 103,4%, а березні проти лютим: Тр3 = (246: 244) (100% = 100,8% і т.д.
Якщо за базу порівняння взяти січень, то випускати продукцію в цеху у березні проти січнем становив: (246: 236) (100% = 104,2%, а квітні по порівнянню з січнем: (249: 236) (100% = 105,5% і т.д.
Темп приросту (Тпр) на відміну темпу зростання характеризує відносний приріст явища у звітній періоді проти тим рівнем, з яким здійснюється порівняння і определяется:
Тпр = Тр — 100.
Так було в березні обсяг продукції цехи з порівнянню до лютого збільшився на 0,8% (100,8 — 100), а, по бою з січнем — на 4,2% (104,2 — 100) і т.д.
Абсолютна значення один відсоток приросту (А) характеризує абсолютний еквівалент один відсоток приросту й по формуле:
А = [pic].
Так було в березні абсолютне значення один відсоток приросту становило: (2: 0,8) = 2,4 млн. крб. і т.д.
Середній темпи зростання ([pic]) у період динаміки визначають за такою формулою середньої геометричній двояким способом — з урахуванням даних цепних коефіцієнтів динаміки, або з урахуванням даних абсолютних рівнів низки динаміки по формуле:
[pic]?100 или.
[pic]?100, де x1, x2, …, xn — коефіцієнти динаміки стосовно попередньому періоду; n — число коефіцієнтів динаміки; k — число абсолютних рівнів низки динамики.
Так, за перше півріччя середній річний темпи зростання продукції цеху становив: [pic] = [pic] = [pic] = 1,014 (100 = 101,4% чи [pic] = [pic] = [pic] = 1,014 (100 = 101,4%.
Одне з найважливіших питань, які виникають за вивченні рядів динаміки — це виявлення тенденції розвитку економічної закономірності у поступовій динаміці. З цією метою застосовуються різноманітні статистичні методи, зокрема, метод укрупнення інтервалів, метод ковзної середньої, метод аналітичного выравнивания.
Найпростішим використання є метод укрупнення інтервалів, заснований на укрупненні періодів часу, до яких належать рівні низки. Виявлення тенденції здійснюється за новому укрупненному ряду динамики.
Інший метод — метод ковзної середньої залежить від заміні початкових рівнів низки динаміки середніми арифметичними, знайденими за способом ковзання, починаючи з першого рівня низки із включенням наступних уровней.
Найбільш досконалим методом виявлення тенденції низки динаміки є метод аналітичного вирівнювання, який залежить від заміні початкових рівнів низки новими, знайденими у часі «t «побудовою аналітичного рівняння связи.
Розглянемо з прикладу можливість застосування кожного з методів вирівнювання при виявленні тенденції низки динамики.
Відомі такі дані виконання програми ділянкою «молдінги «цеху ЗИЛ-130 пресового корпусу за 1989 р. (табл.6.2).
Таблиця 6.2 | |Базисний |Звітний |Базисный|Отчетный| | |період |період |період |період | |А |15 |20 |0,8 |0,7 | |Б |1,5 |2 |2,0 |1,5 | |У |5 |10 |1,0 |0,8 |.
Розрахуємо індивідуальні індекси продукції і на індивідуальні індекси цен.
Індивідуальні індекси по відповідним видам продукції составят:
Iq (А) = [pic] = [pic] (100 = 133,3%;
Iq (Б) = [pic] = [pic] (100 = 133,3%;
Iq (В) = [pic] = [pic] (100 = 200%.
Тобто звітному періоді проти базисним вироблено продукції виду «А «і «Б », відповідно, на 33,3% більше, а виду «У «- на 100% больше.
Індивідуальні індекси цін по відповідним видам продукції составят:
Ip (А) = [pic] = [pic] (100 = 87,5%;
Ip (Б) = [pic] = [pic] (100 = 75,0%;
Ip (В) = [pic] = [pic] (100 = 80,0%.
Тобто ціна одиниці виробленої продукції виду «А «у звітній періоді порівняно з базисним знизилася на 12,5% (100 — 87,5), виду «Б «- на 25% (100 — 75) і виду «У «- на 20% (100 — 80).
Індивідуальні індекси конкретної продукції вартісному вираженні, відповідно, составят:
Ip (А) = [pic] = [pic] (100 = [pic] (100 = 116,7%;
Ip (Б) = [pic] = [pic] (100 = [pic] (100 = 100%;
Ip (В) = [pic] = [pic] (100 = [pic] (100 = 160%.
Отже, обсяг продукції вартісному вираженні виду «А «в звітному періоді проти базисним збільшиться на 16,7% (116,7 — 100), виду «У «- на 60% (160 — 100) і виду «Б «- залишиться без зміни (100 — 100).
А, аби цей питання, як зменшився обсяг всієї продукції підприємства у звітному періоді проти базисним, необхідно розрахувати зведені індекси продукції, цін, і фізичного обсягу продукции.
Зведений індекс обсягу продукції вартісному вираженні составит:
Jqp = [pic] = [pic] (100 = [pic] (100 = 125%;
Зведений індекс цін составит:
Jp = [pic] = [pic] (100 = [pic] (100 = 83,3%;
Зведений індекс фізичного обсягу продукції составит:
Jq = [pic] = [pic] (100 = [pic] (100 = 150%.
Використовуючи перше властивість індексів, имеем:
Jqp = Jq? Jp; 125% = 1,5 (0,833 (100%.
Використовуючи друге властивість індексів, имеем:
(qp (qp) = (qp (q) + (qp (p), тобто. (25 — 20) = (30 — 20) + (25 — 30) чи (+5) = (+10) + (-5).
Отже, можна дійти невтішного висновку: обсяг продукції вартісному вираженні зріс у цілому на 25%, чи 5((25 — 20) тис. крб., у цьому числі з допомогою зниження ціни 16,7% (83,3 — 100) обсяг знизився 5 тис. крб. (25 — 30), а й за рахунок збільшення фізичного обсягу своєї продукції 50% (150 — 100) обсяг продукції вартісному вираженні збільшився на 10 тис. руб.
Тема 9. Взаємозв'язку явлений.
Перший етап вивчення зв’язку явищ — виділення основних причиннослідчих зв’язків відділення їхнього капіталу від другорядних. Другий етап — побудова моделі. Останній етап — інтерпретація результатов.
Признаки-аргументы називаються чинниками, а признаки-функции — результатами (результативними признаками).
Зв’язки між явищами ділять за рівнем тісноти зв’язку (повна чи функціональна зв’язок, неповна чи статистична зв’язок), в напрямі (пряма, зворотна), по аналітичного вираженню (лінійна, нелинейная).
Для виявлення зв’язку, її характеру, напрями використовують методи приведення паралельних даних, балансовий, аналітичних угруповань, графічний. Суть методу приведення паралельних даних: наводять два низки даних про перші два ознаках, зв’язок між якими хочуть виявити, і за характером змін роблять висновок про наявність зв’язку. Балансовий метод залежить від побудові балансів — таблиць, де підсумок частині дорівнює підсумку другой.
Методи аналітичних угруповань і графічний викладені у відповідних темах.
Зручна форма викладу даних — кореляційна таблиця (табл. 9.1).
Таблиця 9.1.
Кореляційна таблиця |Годинна |Кількість верстатів, обслуговуваних однієї | |выработк|работницей, прим. | |а тканини,| | |м | | |з |d |з + d | |a + з |b + d |a + b + з| | | |+ d |.
Для визначення тісноти зв’язку двох якісних ознак, кожен із яких тільки тільки з дві групи, застосовуються коефіцієнти асоціацію та контингенции. Для їх обчислення будується таблиця, що описує зв’язок між двома явищами, кожна з яких має бути альтернативним, тобто. що складається з двох якісно відмінних друг від друга значень ознаки (наприклад, хороший, плохой).
Коефіцієнти обчислюються по формулам:
A = [pic] - ассоциации;
K = [pic] - контингенции.
Коефіцієнт контингенции завжди менше коефіцієнта асоціації. Зв’язок вважається підтвердженої, якщо A (0,5, чи K (0,3.
Якщо кожен із якісних ознак перебуває понад ніж із дві групи, то тут для визначення тісноти зв’язку можливо застосування коефіцієнта взаємної сполученості Пірсона. Цей коефіцієнт обчислюється по формуле:
З = [pic], де (2 — показник взаємної сопряженности.
Розрахунок коефіцієнта взаємної сполученості проходить за наступній схеме:
|Группа |Група признака|Итого| |признака|В | | |A | | | | |B1 |B2 |B3 | | |A1 |f1 |f2 |f3 |n1 | |A2 |f4 |f5 |f6 |n2 | |A3 |f7 |f8 |f9 |n3 | | |m1 |m2 |m3 | |.
Розрахунок (2 проводиться так: по першої рядку [pic]: n1 = L1; за другою рядку [pic]: n2 = L2; по третьої рядку [pic]: n3 = L3;
Отже, (2 = L1 + L2 + L3 — 1.
Інтерпретація непараметрических коефіцієнтів зв’язку деяких випадках, особливо коли вони мають негативного значення, скрутна. Їх абсолютні значення можуть змінюватися не більше від 0 до 1. Чим ближче до абсолютні значення до одиниці, то тісніше зв’язок між досліджуваними признаками.
Кореляція і регресія. Традиційні методи корреляционно-регрессионного аналізу дозволяють як оцінити тісноту зв’язку, а й висловити цей зв’язок аналітично. Застосуванню корреляционно-регрессионного аналізу повинен передувати якісний, теоретичний аналіз досліджуваного соціальноекономічного явища чи процесса.
Зв’язок між двома чинниками аналітично виражається рівняннями: прямий [pic]= a0 + a1x; гіперболи [pic]= a0 + [pic]; параболи [pic]= a0 + a1x + a2x2 (або інший її ступеня); статечної функції [pic].
Параметр a0 показує усереднений впливом геть результативний ознака неврахованих (не виділених на дослідження) чинників. Параметр a1 — коефіцієнт регресії показує, наскільки змінюється загалом значення результативного ознаки зі збільшенням факторного на одиницю. За підсумками цього параметра обчислюються коефіцієнти еластичності, які показують зміна результативного ознаки у відсотках залежно через зміну факторного ознаки на 1%:
Еге = a1?[pic].
Для визначення параметрів рівнянь використовується метод найменших квадратів, виходячи з якого будується відповідна система уравнений.
Тіснота зв’язку при лінійної залежності вимірюється з допомогою лінійного коефіцієнта кореляції: r = [pic], а при криволінійної залежності з допомогою кореляційного отношения:
(= [pic].
Розрахунок коефіцієнтів регресії кілька ускладнюється, якщо ряди по досліджуваним чинникам згруповані, а зв’язок криволинейная.
Якщо залежність між двома чинниками виражається рівнянням гиперболы.
[pic]= a0 + [pic], то система рівнянь визначення параметрів a0 і a1 така: na0 + a1S[pic] = Sy; a0S[pic] + a1S[pic] = Sy[pic].
Для визначення параметрів рівняння регресії, вираженого статечної функцією [pic], наводять функцію до лінійному виду: lg[pic]= lga0 + a1lgx, звідси система рівнянь визначення параметрів запишеться: n? lga0 + a1Slgx = Slgy; lga0Slgx + a1S (lgx)2 = Slgy? lgx.
Залежність між трьома і більше чинниками називається множинної чи многофакторной кореляційної залежністю. Лінійна зв’язок між трьома чинниками виражається уравнением:
[pic] = a0 + a1x + a2z, а система нормальних рівнянь визначення невідомих параметрів a0, a1, a2 буде такою: na0 + a1Sx + a2Sz = Sy; a0Sx + a1Sx2 + a2Szx = Syx; a0Sz + a1Sxz + a2Sz2 = Syz.
Тіснота зв’язок між трьома чинниками вимірюється з допомогою множинного (сукупного) коефіцієнта корреляции:
R = [pic], де rij — парні коефіцієнти кореляції між відповідними факторами.
Для поглибленого аналізу обчислюються приватні коефіцієнти корреляции.
Дисперсионный аналіз зв’язку. При невеличкому числі спостережень досліджувати вплив однієї чи кількох факторних ознак на результативний можна, використовуючи методи дисперсионного аналізу. Дисперсионный аналіз проводиться розрахунком дисперсій: загальної, межгрупповой і внутрішньогруповий. Загальну дисперсию називають дисперсией комплексу, межгрупповую — факторной, внутригрупповую — остаточной.
Дисперсионный аналіз залежить від порівнянні факторной і залишкової дисперсій. Якщо різницю між ними значимо, то факторний ознака, тобто. ознака, призначений у фундамент угруповання, істотно впливає на результативний. При дослідженні на результативний ознака лише одну факторного, тобто. однофакторного комплексу дисперсії обчислюються: дисперсія комплексу [pic]; факторная дисперсія [pic]; залишкова дисперсія [pic], де n — 1, r — 1, n — r — відповідні числа ступенів свободи; r — число рівнів (групп).
З дисперсій проводиться розрахунок критерію Фішера Fp. Якщо розрахункове значення більше табличного, тобто. Fp (F (, то суттєвість впливу факторного ознаки подтверждается.
Тема 10. Вибіркове наблюдение.
Головними питаннями теорії вибіркового спостереження, які вимагають практичного закріплення з урахуванням вирішення завдань і виконання вправ, являются:
— визначення краю випадкової помилки репрезентативності щодо різноманітних типів вибіркових характеристик з урахуванням особливостей отбора;
— визначення обсягу вибірки, забезпечував необхідну репрезентативність вибіркової характеристики, з урахуванням особливостей отбора.
Помилка репрезентативності, чи різницю між вибіркової і генеральної характеристикою (середньої, часткою), що виникає з несплошного спостереження, основу якого випадковий відбір, розраховується як межа наивероятной помилки. Як рівня гарантійній ймовірності зазвичай береться 0,954 чи 0,997. Тоді межа помилки визначається величиною подвоєною чи потроєною середньої помилки вибірки: (= 2(при P = 0,954; (= 3(при P = 0,997, чи загальному вигляді (= t ((t — коефіцієнт, пов’язані з ймовірністю, що гарантує результат).
Величина середньої помилки вибірки різна окремих різновидів випадкового відбору. При найпростіший системі - собственно-случайном повторному відборі - середня помилка такими формулами: індивідуальний отбор:
(= [pic] = [pic], де ?2 — загальна дисперсія ознаки; n — число відібраних одиниць спостереження; груповий (гніздовий, серійний) отбор:
(= [pic] = [pic], де ?2 — межгрупповая дисперсія; r — число відібраних груп (гнізд, серій) одиниць наблюдения.
При практичних розрахунках помилок репрезентативності необхідно враховувати следующее:
1. Замість генеральної дисперсії використовується відповідна вибіркова дисперсія. Отак замість загальної дисперсії частки генеральної сукупності береться загальна дисперсія частости:
[pic] = ((1 — () замість [pic] = pq.
2. Що стосується бесповторного способу відбору (і навіть механічного) слід пам’ятати поправки (K) до помилці повторної вибірки на бесповторность отбора:
K = [pic] (1 чи K = [pic](1.
Вочевидь, що користуватися цією поправкою доцільне лише тоді, коли відносний обсяг вибірки становить помітну частина генеральної сукупності (щонайменше 10%, тоді K (0,95).
3. При районированном відборі з типових груп одиниць генеральної сукупності використовується середня з приватних (групових) дисперсій. Так, при індивідуальному відборі, пропорційному розмірам типових груп, имеем:
(= 2(= [pic]= [pic] при P = 0,954, де [pic] - приватна дисперсія i-го групи; ni — обсяг вибірки в i-го группе.
Визначення помилок вибіркових характеристик дозволяє визначити наивероятные кордону перебування відповідних генеральних показників: для середньої: [pic], де [pic] - генеральна средняя;
[pic] - вибіркова средняя;
[pic] - помилка вибіркової середньої; для частки: p = ((((, де p — генеральна доля;
(- вибіркова частка (частость);
((- помилка вибіркової доли.
Приклад. З імовірністю 0,954 слід визначити кордону середнього ваги пачки чаю для всієї партії, що надійшла до торговельної мережі, якщо контрольна вибіркова перевірка дала такі результати (два графи табл. 10.1).
Таблиця 10.1.
Результати зважування чаю |Вага, р |Количеств|Расчетные графи | |(x) |про пачок | | | |(m) | |.
| |x (|m (|x (m (|(x ()2m (| |48 — 49 |20 |-1 |2 |-2 |2 | |49 — 50 |50 |0 |5.
|0 |0 | |50 — 51 |20 |+1 |2 |2 |2 | |51 — 52 |10 |+2 |1 |2 |4 | |Разом: |100 |- |10 |2 |8 | |.
1. Середній вагу пачки чаю по выборке:
[pic] = [pic](K + x0 = [pic] (1 + 49,5 = 49,7 г.
2. Вибіркова дисперсія ваги пачки чая:
?2 = [pic]= [pic]= 0,76.
3. Середня помилка вибіркової средней:
[pic]= [pic] = [pic] = 0,087 г.
4. Межа для помилки з імовірністю 0,954:
(= 2(= 0,174 р (0,2 г.
5. Кордони генеральної средней:
[pic] = [pic]((= 49,7 (0,2 г.
Отже, з імовірністю 0,954 можна стверджувати, вага пачки чаю загалом для всієї партії трохи більше 49,9 р і проінвестували щонайменше 49,5 г.
Визначення обсягу вибірки при заданої її точності проблема, зворотної розглянутим нами — визначенню помилки вибірки при даному її обсязі. Формула обсягу вибірки виходить з відповідної формули граничною помилки. Так, отримуємо для індивідуального бесповторного відбору: n =[pic]; групового бесповторного відбору: r =[pic].
За позитивного рішення завдань визначення необхідного обсягу вибірки слід пам’ятати, що замість генеральної дисперсії певного виду береться її оцінка — зразкову значення, отримане речей чи іншого джерела. Розглянемо наступний загальний пример.
Приклад. Потрібно визначити абсолютний і відносний обсяги індивідуального відбору на дослідження генеральної частки, щоб помилка частости з імовірністю 0,954 не перевищувала 0,02, якщо вибірка виробляється з генеральної сукупності обсягу: а) 1000; б) 100 000 единиц.
Використовуючи формулу n =[pic], у якій вважаємо t = 2 (гарантійна ймовірність дорівнює 0,954), а pq = 0,25, маємо: а) n = [pic] = 714, чи 71,4%; б) n = [pic] = 2439, чи 2,44%.
Тема 11. Закони распределения.
Кінцевою метою обробки інформації методами математичної статистика, якщо йдеться про великих вибірках, є отримання закону розподілу досліджуваної випадкової величини. Це з тим, що довгоочікуваний Закон розподілу є фактично, тим апаратом, що дозволяє визначити можливість появи (чи, навпаки, непояви) випадкової величини на той чи іншого період чи можливість, що випадкова величина потрапить у той чи інший інтервал її можливих значенні. Цей етап статистичної обробки одна із найважливіших, оскільки помилка під час виборів тієї чи іншої закону розподілу призводить до помилок при подальшому рішенні практичних задач.
Коли проаналізувати все етапи статистичної обробки, можна дійти невтішного висновку, що манливими у себе найважливіші помилки, а, отже, найбільш відповідальними, є етапи, у яких вирішуються такі задачи:
1. Чи можливо об'єднання кількох малих чи середніх вибірок в одну.
2. Відкидати чи враховувати різко відмінні результаты.
3. Чи зроблене припущення щодо законі розподілу випадкової величины.
Розглянемо цих етапів більш подробно.
1. Оскільки задля встановлення закону розподілу необхідні великі вибірки, то, на практиці часто постає питання об'єднанні кількох вибірок, кожна з яких мала на вирішення поставленого завдання й отримання однієї загальної вибірки, задовольняє які подані проти ній вимогам. Тому, що властиво для статистичної обробки, будь-який з неправильних рішень (як позитивне, і негативне) щодо об'єднання вибірок призводить до небажаним результатам, або до неможливості встановити закон розподілу, якщо вибірки не об'єднуються, або до неправильного висновку про характер закону распределения.
Аби вирішити це завдання використовують критерії, з допомогою яких з різною формулюванням фактично дається у відповідь і той само вважають: належать або належать досліджувані вибірки однієї генеральної сукупності, то є автоматично вирішується завдання про можливість чи неможливості їх об'єднання. Зазвичай, всі ці критерії засновані на порівнянні вибіркових характеристик (вибіркових дисперсій чи середніх величин) між собою, чи з відповідними генеральними характеристиками. Найчастіше використання цих критеріїв передбачає нормальний чи логарифмическинормальний закон розподілу кожної вибірки. За інших ж законах розподілу вони некоректні і їх використання можуть призвести до помилковим результатам.
Найбільш використовуваними є такі критерії: а) критерії, засновані на порівнянні дисперсій: критерій [pic], критерій Фішера (F = [pic]), критерій Хартлея (Fmax = [pic]), критерій Кочрена (Gmax = [pic]), критерій Бартлета (?2); б) критерії, засновані на порівняннях середніх величин: критерій Стьюдента (t), критерій Z і другие.
Всім критеріїв як нульової гіпотези (H0) висувається припущення щодо приналежності вибірки генеральної сукупності чи про однорідності вибірок між собой.
2. За наявності вибірки, задовольняє вимогам щодо неї придатності задля встановлення закону розподілу до того, як приступити до визначення статистичних характеристик, необхідно перевірити, чи належать до цієї вибірці її члени, різко які від більшості даних, якщо є. Така перевірка суворо обов’язкова, оскільки будь-яке неправильне рішення щодо різко відмінних результатів наводить до спотворення виду кривою закону і розподілу і до наступним помилок, про яких зазначалося вище. Описана перевірка також здійснюється з допомогою відповідних критеріїв: критерію Груббса (для малих вибірок), критерію Ірвіна та інших. Як нульової гіпотези переважають у всіх випадках приймається те, що різко котрі виділяються результати належать даної выборке.
3. Заключній і найбільш трудомісткою перевіркою є перевірка гіпотез про вигляді функції розподілу чи, що таке, відповідності гаданого закону теоретичного розподілу емпіричному. Ця перевірка здійснюється з допомогою про критеріїв згоди. Існують критерії для перевірки відповідності як гаданому нормальному чи логарифмически-нормальному закону розподілу, і будь-якої іншої закону распределения.
Найбільш використовуваними при практичних розрахунках є такі критерії: а) критерій Пірсона (?2); він справедливий на великих обсягах вибірок і для будь-яких законів розподілу; б) критерій Колмогорова-Смирнова (Du); цей критерій використовується для перевірки гіпотези відповідності емпіричного розподілу кожному теоретичного закону розподілу із відомими параметрами, що накладає певні обмеження з його використання. У той самий час Du є потужнішим, ніж критерій ?2; в) критерій Крамера-Мизеса ((2); даний критерій використовується для обсягів вибірок 50 (n (200 і є потужним, ніж ?2, проте, при застосуванні потрібно більший обсяг обчислень. Тому, за n > 200 цей критерій доцільно використовувати лише у випадках, коли перевірки гіпотези за іншими критеріями не призводять до безумовним результатам; р) критерій Шапиро-Уилкса (W); він призначений для перевірки гіпотези про нормальному чи логарифмически нормальному законі розподілу при обмежений обсяг вибірки (n (50) і є потужним, ніж інші критерии.
Укрупненно порядок проведення статистичної обробки інформації можна уявити так: після винесення рішення питання про обсяг вибірки і приналежності до неї різко відмінних результатів, будується гистограмма, розраховуються статистичні характеристики досліджуваної випадкової величини, і встановлюється закон її распределения.
За позитивного рішення технічних і ступінь економічних завдань є досить широке коло законів розподілу, яким підкоряються ті чи інші процеси. До них належать закони Вейбулла, Релея, експонентний, гамарозподілу, проте, найпоширенішими є нормальний (Гаусса) і логарифмически-нормальный закони розподілу. Отримавши математичне вираз закону розподілу, тобто співвідношення, встановлює зв’язок між можливими значеннями випадкової розміру й відповідними їм імовірностями, можна стверджувати, що з вероятностной погляду, випадкова величина описана полностью.