Ім'я файлу: Реферат Суть Data Mining.docx
Розширення: docx
Розмір: 38кб.
Дата: 04.12.2020
скачати

Зміст

  1. Data Mining

  2. Задачі Data Mining

  3. Застосування Data Mining

  4. Базові методи

  5. Основні тезіси

Висновки

  1. Data Mining


Знання є не тільки у людини, але і в накопичених даних, які піддаються аналізу. Такі знання часто називають "прихованими", т. К. Вони містяться в гигабайтах і терабайт інформації, які людина не в змозі дослідити самостійно. У зв'язку з цим існує висо¬кая ймовірність пропустити гіпотези, які можуть принести значну вигоду.

Очевидно, що для виявлення прихованих знань необхідно застосовувати спе-ціальні методи автоматичного аналізу, за допомогою яких доводиться практично здобувати знання з "завалів" інформації. За цим направлені¬ем міцно закріпився термін видобуток даних або Data Mining. Класичне визначення цього терміна дав в 1996 р один із засновників цього направле¬нія - Григорій Пятецкий-Шапіро.

Data Mining - дослідження і виявлення "машиною" (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, які раніше не були відомі, нетривіальні практично корисні, доступні для інтерпретації людиною.

Розглянемо властивості виявляються знань, дані для визначення, більш докладно..

  • Знанні повинні бути нові, раніше невідомі. Витрачені зусилля на відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність представляють саме нові, раніше невідомі знання.

  • Знання повинні бути нетривіальні. Результати аналізу повинні отра¬жать неочевидні, несподівані закономірності в даних, составляю¬щіе так звані приховані знання. Результати, які могли б бути отримані більш простими способами (наприклад, візуальним просмот¬ром), не виправдовують залучення потужних методів Data Mining.

  • Знання повинні бути практично корисні. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим ступенем достовірності. Корисність полягає в тому, щоб ці знання могли принести певну вигоду при їх застосуванні.

  • Знаннях повинні бути доступні для розуміння людині. Знайдені закономірності повинні бути логічно пояснити, в іншому випадку існує ймовірність, що вони є випадковими. Крім того, обна-Ружені знання повинні бути представлені в зрозумілому для людини вигляді.


В Data Mining для представлення отриманих знань служать моделі. Види моделей залежать від методів їх створення. Найбільш поширеними є при-чиною: правила, дерева рішень, кластери і математичні функції.


  1. Завдання Data Mining

Методи Data Mining допомагають вирішити багато завдань, з якими сталківа¬ется аналітик. З них основними є: класифікація, регресія, пошук асоціативних правил і кластеризація. Далі наведено короткий опис основних завдань аналізу даних.

  1. Завдання класифікації зводиться до визначення класу об'єкта по його ха-рактеристики. Необхідно зауважити, що в цьому завданні безліч клас¬сов, до яких може бути віднесений об'єкт, відомо заздалегідь.

  2. Завдання регресії подібно задачі класифікації дозволяє визначити за відомими характеристиками об'єкта значення деякого його параметра. На відміну від завдання кпассіфікаціі значенням параметра є не ко¬нечное безліч класів, а множина дійсних чисел.

  3. При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Най¬денние залежності представляються у вигляді правил і можуть бути ісполь¬зовани як для кращого розуміння природи аналізованих даних, так і для передбачення появи подій.

  4. Завдання кластеризації полягає в пошуку незалежних груп (кластерів) і їх характеристик у всьому безлічі аналізованих даних. Реше¬ніе цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

  5. Перераховані завдання за призначенням поділяються на описові і передбачальні.

Описові (descriptive) завдання приділяють увагу поліпшенню поніма¬нія аналізованих даних. Ключовий момент у таких моделях - легкість і прозорість результатів для сприйняття людиною. Можливо, обнаружен¬ние закономірності будуть специфічною рисою саме конкретних іссле¬дуемих даних і більше ніде не зустрінуться, але це все одно може бути корисно і тому має бути відомо. До такого виду завдань відносяться кла¬стерізація і пошук асоціативних правил.

Рішення Предсказательная (predictive) завдань розбивається на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. Па другому етапі вона використовується для передбачення результатів на підставі нових наборів даних. При цьому, природно, потрібно, что¬би побудовані моделі працювали максимально точно. До даного виду завдань відносять завдання класифікації і регресії. Сюди можна віднести і завдання пошуку асоціативних правил, якщо результати її рішення можуть бути ис-користані для передбачення появи деяких подій.

За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя). Така назва походить від терміна Machine Learning (машинне навчання), часто викорис-зуемое в англомовній літературі і позначає всі технології Data Mining.

У разі supervised learning завдання аналізу даних вирішується в кілька ця-пов. Спочатку за допомогою будь-якого алгоритму Data Mining будується модель аналізованих даних - класифікатор. Потім класифікатор піддається навчанню. Іншими словами, перевіряється якість його роботи, і, якщо воно незадовільне, відбувається додаткове навчання классіфікато¬ра. Так триває до тих пір, поки не буде досягнутий необхідний рівень якості або не стане ясно, що обраний алгоритм не працює коректно з даними, або ж самі дані не мають структури, яку можна виявити. До цього типу завдань відносять завдання класифікації і регресії.

Unsupervised learning об'єднує завдання, що виявляють описові моделі, наприклад закономірності в покупках, скоєних клієнтами великого магазину. Очевидно, що якщо ці закономірності є, то модель повинна їх представити і недоречно говорити про її навчанні. Перевагою таких завдань є можливість їх вирішення без будь-яких попередніх знань про аналізованих даних. До цих завдань відносяться кластеризація і пошук асоціативних правил.


  1. Застосування Data Mining

Інтернет-технології

У системах електронного бізнесу, де особливу важливість мають питання при-потягу і утримання клієнтів, технології Data Mining часто застосовуються для побудови рекомендаційних систем інтернет-магазинів і для вирішення проблеми персоналізації відвідувачів web-сайтів.

Торгівля

Для успішного просування товарів завжди важливо знати, що і як продает¬ся, а також хто є споживачем. Вичерпну відповідь на перший во¬прос дають такі кошти Data Mining, як аналіз ринкових кошиків і сик-венціальний аналіз.

Телекомунікації

способів використання методів Data Mining- це аналіз записів про докладних характеристиках викликів. Призначення такого аналізу-виявлення категорій клієнтів зі схожими стереотипів користування послугами та розробка привабливих наборів цін і послуг.

Промислове виробництво

Промислове виробництво створює ідеальні умови для застосування технологій Data Mining. Причина - в самій природі технологічного про-процесу, який повинен бути відтвореним і контрольованим.
Медицина

У медичних і біологічних дослідженнях, так само як і в практичній медицині, спектр вирішуваних завдань настільки широкий, що можливо вико-вання будь-яких методологій Data Mining. Прикладом може служити построе¬ніе діагностичної системи або дослідження ефективності хірургіче¬ского втручання.

Банківська справа

Класичним прикладом застосування Data Mining на практиці є вирішення проблеми про можливу некредитоспроможності клієнтів банку. Data Mining обробляють персональні дані, і отримані результати використовуються далі для прийняття рішень.

Страховий бізнес

У страхуванні, також як в банківській справі і маркетингу, виникає задача обробки великих обсягів інформації для визначення типових груп (профілів) клієнтів. Ця інформація використовується для того, щоб предла¬гать певні послуги страхування з найменшим для компанії ризиком і, можливо, з користю для клієнта.

Інші області застосування

Data Mining може застосовуватися практично скрізь, де виникає завдання ав-томатически аналізу даних. Як приклад наведемо такі популяр¬ние напрямки, як аналіз і последуюшіе фільтрація спаму. а також раз¬работка так званих віртуальних співрозмовників.


  1. Базові методи

До базових методів Data Mining прийнято відносити, перш за все, алгоритми, засновані на переборі. Простий перебір всіх досліджуваних об'єктів требу¬ет 0 (2'v) операцій, де N- кількість об'єктів. Отже, з увеліче¬ніем кількості даних обсяг обчислень зростає експоненціально, що при великому обсязі робить рішення будь-якого завдання таким методом практично неможливим.

Для скорочення обчислювальної складності в таких алгоритмах, як прави ¬ ло, використовують різного виду евристики, що призводять до скорочення перебору. Оптимізація подібних алгоритмів зводиться до приведення залежності кількості операцій від кількості досліджуваних даних до функції лінійного виду. У той же час, залежність від кількості атрибутів, як правило, осту-ється експоненційної. За умови, що їх небагато (в переважній біль-шинстве випадків їх значно менше, ніж даних), така залежність є прийнятною.

Основною перевагою даних алгоритмів є їх простота, як з точ¬кі зору розуміння, так і реалізації. До недоліків можна віднести отсут¬ствіе формальної теорії, на підставі якої будуються такі алгоритми, а отже, і складнощі, пов'язані з їх дослідженням і розвитком.

До базових методів Data Mining можна віднести також і підходи, викорис-зующие елементи теорії статистики. У зв'язку з тим, що Data Mining є розвитком статистики, таких методів досить багато. Їх основна ідея зводиться до корреляционному, регрессионному і іншим видам статістіче¬ского аналізу. Головним недоліком є ​​усереднення значень, що прі¬водіт до втрати інформативності даних. Це в свою чергу призводить до зменшення кількості видобуваються знань.

Основні етапи аналізу

Для виявлення знань в даних недостатньо просто застосувати методи Data Mining, хоча, безумовно, цей етап є основним в процесі ін-інтелектуальних аналізу. Весь процес складається з кількох етапів. Рас-дивимося основні з них, щоб продемонструвати, що без спеціальної підготовки аналітика методи Data Mining самі по собі не вирішують існуючих проблем проблем. Отже, весь процес можна розбити на наступні етапи:

• Розуміння і формулювання завдання аналізу;

• Підготовка даних для автоматизованого аналізу (препроцессінг); Про застосування методів Data Mining і побудова моделей;

• Про перевірка побудованих моделей;

• Інтерпретація моделей людиною.

На першому етапі виконується осмислення поставленої задачі і уточнення цілей, які повинні бути досягнуті методами Data Mining. Важливо пра-вильно сформулювати цілі і вибрати необхідні для їх досягнення ме-тоди, т. К. Від цього залежить подальша ефективність всього процесу.

Другий етап полягає у приведенні даних до форми, придатної для прімене¬нія конкретних методів Data Mining. Даний процес далі буде описаний більш детально, тут зауважимо тільки, що вид перетворень, совершае¬мих над даними, багато в чому залежить від використовуваних методів, обраних на попередньому етапі.

Третій етап - це власне застосування методів Data Mining. Сценарії цього застосування можуть бути самими різними і можуть включати слож¬ную комбінацію різних методів, особливо якщо використовуються методи по¬зволяют проаналізувати дані з різних точок зору.

Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає в тому, що всі наявні дані, кото ¬ риє необхідно аналізувати, розбиваються на дві групи. Як правило, одна з них більшого розміру, інша - меншого. На більшій групі, прі¬меняя ті чи інші методи Data Mining, отримують моделі, а на меншій - перевіряють їх. За різницею в точності між тестової та навчальної групами можна судити про адекватність побудованої моделі.

Останній етап - інтерпретація отриманих моделей людиною з метою їх використання для прийняття рішень, додавання одержані правил і залежностей в бази знань і т. Д. Цей етап часто має на увазі використаних методів методів, які перебувають на стику технології Data Mining і технології експертних систем. Від того, наскільки ефективним він буде, в значітель¬ной мірі залежить успіх вирішення поставленого завдання.

Цим етапом завершується цикл Data Mining. Остаточна оцінка цінності видобутого нового знання виходить за рамки аналізу, автоматизованого або традиційного, і може бути проведена тільки після втілення в життя рішення, прийнятого на основі здобутого знання, після перевірки нового зна¬нія практикою. Дослідження досягнутих практичних результатів завер¬шает оцінку цінності видобутого засобами Data Mining нового знання.

Засоби Data Mining

В даний час технологія Data Mining представлена ​​цілим рядом когось мерційних і вільно розповсюджуваних програмних продуктів. Класифікувати програмні продукти Data Mining можна за тими ж принципами, що поло¬жени в основу класифікації самої технології. Однак подібна классі¬фікація не матиме практичної цінності. Внаслідок високої конку¬ренціі на ринку і прагнення до повноти технічних рішень багато з продуктів Data Mining охоплюють буквально всі аспекти застосування ана¬літіческіх технологій. Тому доцільніше класифікувати продукти Data Mining по тому, яким чином вони будуть реалізовані і, відповідно, який потенціал для інтеграції вони надають. Очевидно, що і це умовність, оскільки такий критерій не дозволяє окреслити чіткі межі між продуктами. Однак у подібної класифікації є одне несомнен¬ное перевага. Вона дозволяє швидко прийняти рішення про вибір того чи іншого готового рішення при ініціалізації проектів в області аналізу даних, розробки систем підтримки прийняття рішень, створення храні¬ліщ даних і т. Д.

Отже, продукти Data Mining умовно можна розділити на три великі кате-горії:

входять, як невід'ємна частина, в системи управління базами даних;

бібліотеки алгоритмів Data Mining із супутньою інфраструктурою;

коробкові або настільні рішення ( "чорні ящики").

Продукти перших двох категорій надають найбільші можливості для інтеграції і дозволяють реалізувати аналітичний потенціал практіче¬скі в будь-якому додатку в будь-якій області. Коробкові додатки, в свою чергу, можуть надавати деякі унікальні досягнення в області Data Mining або бути спеціалізованими для будь-якої конкретної сфери застосування. Однак в більшості випадків їх проблематично інтегрувати в ширші рішення.

Включення аналітичних можливостей до складу комерційних систем управління базами даних є закономірною і має величезний по-тенціал тенденцією. Дійсно, де, як не в місцях концентрації дан¬них, має найбільший сенс розміщувати кошти їх обробки. Виходячи з цього принципу, функціональність Data Mining зараз реалі¬зована в наступних комерційних базах даних:

  • Oracle;

  • Microsoft SQL Server;

  • IBM DB2.

  1. Основні тезіси

• Інтелектуальний аналіз даних дозволяє автоматично, грунтуючись на великій кількості накопичених даних, генерувати гіпотези, котрі можуть бути перевірені іншими засобами аналізу (наприклад. OLAP).

• Data Mining- дослідження і виявлення машиною (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні і доступні для інтерпретації людиною.

• Методами Data Mining вирішуються три основні завдання: завдання класифікації і регресії, завдання пошуку асоціативних правил і завдання кластеризаціі. За призначенням вони поділяються на описові і передбачення. За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя).

• Завдання класифікації і регресії зводиться до визначення значення за-Вісім змінної об'єкта по його незалежним змінним. Якщо залежна змінна приймає чисельні значення, то говорять про завдання регресії, в іншому випадку - про завдання класифікації.

• При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності представляються у вигляді правил і можуть бути використані як для кращого розуміння природи аналізованих даних, так і для передбачення подій.

• Завдання кластеризації полягає в пошуку незалежних груп (кластерів) і їх характеристик у всьому безлічі аналізованих даних. Рішення цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

• Методи Data Mining знаходяться на стику різних напрямків інформаційних технологій: статистики, нейронних мереж, нечітких множин, ге-генетичних алгоритмів і ін.

• Інтелектуальний аналіз включає в себе наступні етапи: розуміння і формулювання завдання аналізу, підготовка даних для автоматизованого аналізу, застосування методів Data Mining і побудова моделей, перевірка побудованих моделей, інтерпретація моделей людиною.

• Перед застосуванням методів Data Mining вихідні дані повинні бути перетворені. Вид перетворень залежить від застосовуваних методів.

• Методи Data Mining можуть ефективно використовуватися в різних областях людської діяльності: в бізнесі, медицині, науці, телекомунікаціях і т. д.

Висновки


Інтелектуальний аналіз даних є одним з найбільш актуальних і затребуваних напрямів прикладної математики. Сучасні процеси бізнесу і виробництва породжують величезні масиви даних, і людям стає все важче інтерпретувати і реагувати на велику кількість даних, які динамічно змінюються в часі виконання, не кажучи вже про попередження критичних ситуацій. «Інтелектуальний аналіз даних» витягти максимум корисних знань з багатовимірних, різнорідних, неповних, неточних, суперечливих, непрямих даних. Допомагає зробити це ефективно, якщо обсяг даних вимірюється гігабайтами або навіть терабайтами. Допомагає будувати алгоритми, здатні навчатися прийняття рішень в різних професійних областях.

Засоби «Інтелектуального аналізу даних» оберігають людей від інформаційного перевантаження, переробляючи оперативні дані в корисну інформацію так, щоб потрібні дії могли бути прийняті в потрібні часи.

Прикладні розробки ведуться за наступними напрямками: прогнозування в економічних системах; автоматизація маркетингових досліджень і аналіз клієнтських середовищ для виробничих, торгових, телекомунікаційних та Інтернет-компаній; автоматизація прийняття кредитних рішень і оцінка кредитних ризиків; моніторинг фінансових ринків; автоматичні торговельні системи.
скачати

© Усі права захищені
написати до нас