Огляд існуючих методів інтелектуального аналізу даних
Технологію DataMining достатньо точно визначає Григорій Піатецкий — Шапіро (Gregory Piatetsky-Shapiro) — один із засновників цього напряму: «DataMining — це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для ухвалення рішень в різних сферах людської діяльності». DataMining — це процес, мета якого — знайти нові значущі… Читати ще >
Огляд існуючих методів інтелектуального аналізу даних (реферат, курсова, диплом, контрольна)
Визначення поняття DataMining
DataMining — це процес підтримки ухвалення рішень, заснований на пошуку в даних прихованих закономірностей (шаблонів інформації).
Технологію DataMining достатньо точно визначає Григорій Піатецкий — Шапіро (Gregory Piatetsky-Shapiro) — один із засновників цього напряму: «DataMining — це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для ухвалення рішень в різних сферах людської діяльності» [4].
Суть і мету технології DataMining можна визначититак: це технологія, яка призначена для пошуку у великих об'ємах даних неочевидних, об'єктивних і корисних на практиці закономірностей.
Неочевидних — це значить, що знайдені закономірності не виявляються стандартними методами обробки інформації або експертним шляхом.
Об'єктивних — це значить, що знайдені закономірності повністю відповідатимуть дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.
Практично корисних — це значить, що висновки мають конкретне значення, якому можна знайти практичне застосування.
Знання — сукупність відомостей, яка утворює цілісний опис, відповідний деякому рівню обізнаності про описуване питання, предмет, проблему і т.д.
Використовування знань (knowledgedeployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).
Приведемо ще декілька визначень поняття DataMining.
DataMining — це процес виділення з даних неявної і неструктурованої інформації і представлення її у вигляді, придатному для використовування.
DataMining — це процес виділення, дослідження і моделювання великих об'ємів даних для виявлення невідомих до цього шаблонів (patterns) з метою досягнення переваг в бізнесі (визначення SAS Institute).
DataMining — це процес, мета якого — знайти нові значущі кореляції, зразки і тенденції в результаті просівання великого об'єму бережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення GartnerGroup).
«Mining» англійською означає «видобуток корисних копалин», а пошук закономірностей у величезній кількості даних дійсно схожий на цей процес.
Перш ніж використовувати технологію DataMining, необхідно ретельно проаналізувати її проблеми [4]:
DataMining не може замінити аналітика;
не може складати розробки і експлуатації додатку DataMining;
потрібна підвищена кваліфікація користувача;
витягання корисних відомостей неможливе без доброго розуміння суті даних;
складність підготовки даних;
висока вартість;
вимога наявності достатньої кількості репрезентативних даних.
DataMining тісно пов’язана з різними дисциплінами, що засновані на інформаційних технологіях та математичних методах обробки інформаціі (рисунок 1.1).
Рисунок 1.1 — DataMining як мультідісциплінарна область
Кожний з напрямів, що сформували DataMining, має свої особливості. Проведемо порівняння з деякими з них.