Зміст Data Mining Задачі Data Mining Застосування Data Mining Базові методи Основні тезіси Висновки Data MiningЗнання є не тільки у людини, але і в накопичених даних, які піддаються аналізу. Такі знання часто називають "прихованими", т. К. Вони містяться в гигабайтах і терабайт інформації, які людина не в змозі дослідити самостійно. У зв'язку з цим існує висо¬кая ймовірність пропустити гіпотези, які можуть принести значну вигоду. Очевидно, що для виявлення прихованих знань необхідно застосовувати спе-ціальні методи автоматичного аналізу, за допомогою яких доводиться практично здобувати знання з "завалів" інформації. За цим направлені¬ем міцно закріпився термін видобуток даних або Data Mining. Класичне визначення цього терміна дав в 1996 р один із засновників цього направле¬нія - Григорій Пятецкий-Шапіро. Data Mining - дослідження і виявлення "машиною" (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, які раніше не були відомі, нетривіальні практично корисні, доступні для інтерпретації людиною. Розглянемо властивості виявляються знань, дані для визначення, більш докладно.. Знанні повинні бути нові, раніше невідомі. Витрачені зусилля на відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність представляють саме нові, раніше невідомі знання. Знання повинні бути нетривіальні. Результати аналізу повинні отра¬жать неочевидні, несподівані закономірності в даних, составляю¬щіе так звані приховані знання. Результати, які могли б бути отримані більш простими способами (наприклад, візуальним просмот¬ром), не виправдовують залучення потужних методів Data Mining. Знання повинні бути практично корисні. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим ступенем достовірності. Корисність полягає в тому, щоб ці знання могли принести певну вигоду при їх застосуванні. Знаннях повинні бути доступні для розуміння людині. Знайдені закономірності повинні бути логічно пояснити, в іншому випадку існує ймовірність, що вони є випадковими. Крім того, обна-Ружені знання повинні бути представлені в зрозумілому для людини вигляді. В Data Mining для представлення отриманих знань служать моделі. Види моделей залежать від методів їх створення. Найбільш поширеними є при-чиною: правила, дерева рішень, кластери і математичні функції. Завдання Data Mining Методи Data Mining допомагають вирішити багато завдань, з якими сталківа¬ется аналітик. З них основними є: класифікація, регресія, пошук асоціативних правил і кластеризація. Далі наведено короткий опис основних завдань аналізу даних. Завдання класифікації зводиться до визначення класу об'єкта по його ха-рактеристики. Необхідно зауважити, що в цьому завданні безліч клас¬сов, до яких може бути віднесений об'єкт, відомо заздалегідь. Завдання регресії подібно задачі класифікації дозволяє визначити за відомими характеристиками об'єкта значення деякого його параметра. На відміну від завдання кпассіфікаціі значенням параметра є не ко¬нечное безліч класів, а множина дійсних чисел. При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Най¬денние залежності представляються у вигляді правил і можуть бути ісполь¬зовани як для кращого розуміння природи аналізованих даних, так і для передбачення появи подій. Завдання кластеризації полягає в пошуку незалежних груп (кластерів) і їх характеристик у всьому безлічі аналізованих даних. Реше¬ніе цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз. Перераховані завдання за призначенням поділяються на описові і передбачальні. Описові (descriptive) завдання приділяють увагу поліпшенню поніма¬нія аналізованих даних. Ключовий момент у таких моделях - легкість і прозорість результатів для сприйняття людиною. Можливо, обнаружен¬ние закономірності будуть специфічною рисою саме конкретних іссле¬дуемих даних і більше ніде не зустрінуться, але це все одно може бути корисно і тому має бути відомо. До такого виду завдань відносяться кла¬стерізація і пошук асоціативних правил. Рішення Предсказательная (predictive) завдань розбивається на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. Па другому етапі вона використовується для передбачення результатів на підставі нових наборів даних. При цьому, природно, потрібно, что¬би побудовані моделі працювали максимально точно. До даного виду завдань відносять завдання класифікації і регресії. Сюди можна віднести і завдання пошуку асоціативних правил, якщо результати її рішення можуть бути ис-користані для передбачення появи деяких подій. За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя). Така назва походить від терміна Machine Learning (машинне навчання), часто викорис-зуемое в англомовній літературі і позначає всі технології Data Mining. У разі supervised learning завдання аналізу даних вирішується в кілька ця-пов. Спочатку за допомогою будь-якого алгоритму Data Mining будується модель аналізованих даних - класифікатор. Потім класифікатор піддається навчанню. Іншими словами, перевіряється якість його роботи, і, якщо воно незадовільне, відбувається додаткове навчання классіфікато¬ра. Так триває до тих пір, поки не буде досягнутий необхідний рівень якості або не стане ясно, що обраний алгоритм не працює коректно з даними, або ж самі дані не мають структури, яку можна виявити. До цього типу завдань відносять завдання класифікації і регресії. Unsupervised learning об'єднує завдання, що виявляють описові моделі, наприклад закономірності в покупках, скоєних клієнтами великого магазину. Очевидно, що якщо ці закономірності є, то модель повинна їх представити і недоречно говорити про її навчанні. Перевагою таких завдань є можливість їх вирішення без будь-яких попередніх знань про аналізованих даних. До цих завдань відносяться кластеризація і пошук асоціативних правил. Застосування Data Mining Інтернет-технології У системах електронного бізнесу, де особливу важливість мають питання при-потягу і утримання клієнтів, технології Data Mining часто застосовуються для побудови рекомендаційних систем інтернет-магазинів і для вирішення проблеми персоналізації відвідувачів web-сайтів. Торгівля Для успішного просування товарів завжди важливо знати, що і як продает¬ся, а також хто є споживачем. Вичерпну відповідь на перший во¬прос дають такі кошти Data Mining, як аналіз ринкових кошиків і сик-венціальний аналіз. Телекомунікації способів використання методів Data Mining- це аналіз записів про докладних характеристиках викликів. Призначення такого аналізу-виявлення категорій клієнтів зі схожими стереотипів користування послугами та розробка привабливих наборів цін і послуг. Промислове виробництво Промислове виробництво створює ідеальні умови для застосування технологій Data Mining. Причина - в самій природі технологічного про-процесу, який повинен бути відтвореним і контрольованим. Медицина У медичних і біологічних дослідженнях, так само як і в практичній медицині, спектр вирішуваних завдань настільки широкий, що можливо вико-вання будь-яких методологій Data Mining. Прикладом може служити построе¬ніе діагностичної системи або дослідження ефективності хірургіче¬ского втручання. Банківська справа Класичним прикладом застосування Data Mining на практиці є вирішення проблеми про можливу некредитоспроможності клієнтів банку. Data Mining обробляють персональні дані, і отримані результати використовуються далі для прийняття рішень. Страховий бізнес У страхуванні, також як в банківській справі і маркетингу, виникає задача обробки великих обсягів інформації для визначення типових груп (профілів) клієнтів. Ця інформація використовується для того, щоб предла¬гать певні послуги страхування з найменшим для компанії ризиком і, можливо, з користю для клієнта. Інші області застосування Data Mining може застосовуватися практично скрізь, де виникає завдання ав-томатически аналізу даних. Як приклад наведемо такі популяр¬ние напрямки, як аналіз і последуюшіе фільтрація спаму. а також раз¬работка так званих віртуальних співрозмовників. Базові методи До базових методів Data Mining прийнято відносити, перш за все, алгоритми, засновані на переборі. Простий перебір всіх досліджуваних об'єктів требу¬ет 0 (2'v) операцій, де N- кількість об'єктів. Отже, з увеліче¬ніем кількості даних обсяг обчислень зростає експоненціально, що при великому обсязі робить рішення будь-якого завдання таким методом практично неможливим. Для скорочення обчислювальної складності в таких алгоритмах, як прави ¬ ло, використовують різного виду евристики, що призводять до скорочення перебору. Оптимізація подібних алгоритмів зводиться до приведення залежності кількості операцій від кількості досліджуваних даних до функції лінійного виду. У той же час, залежність від кількості атрибутів, як правило, осту-ється експоненційної. За умови, що їх небагато (в переважній біль-шинстве випадків їх значно менше, ніж даних), така залежність є прийнятною. Основною перевагою даних алгоритмів є їх простота, як з точ¬кі зору розуміння, так і реалізації. До недоліків можна віднести отсут¬ствіе формальної теорії, на підставі якої будуються такі алгоритми, а отже, і складнощі, пов'язані з їх дослідженням і розвитком. До базових методів Data Mining можна віднести також і підходи, викорис-зующие елементи теорії статистики. У зв'язку з тим, що Data Mining є розвитком статистики, таких методів досить багато. Їх основна ідея зводиться до корреляционному, регрессионному і іншим видам статістіче¬ского аналізу. Головним недоліком є усереднення значень, що прі¬водіт до втрати інформативності даних. Це в свою чергу призводить до зменшення кількості видобуваються знань. Основні етапи аналізу Для виявлення знань в даних недостатньо просто застосувати методи Data Mining, хоча, безумовно, цей етап є основним в процесі ін-інтелектуальних аналізу. Весь процес складається з кількох етапів. Рас-дивимося основні з них, щоб продемонструвати, що без спеціальної підготовки аналітика методи Data Mining самі по собі не вирішують існуючих проблем проблем. Отже, весь процес можна розбити на наступні етапи: • Розуміння і формулювання завдання аналізу; • Підготовка даних для автоматизованого аналізу (препроцессінг); Про застосування методів Data Mining і побудова моделей; • Про перевірка побудованих моделей; • Інтерпретація моделей людиною. На першому етапі виконується осмислення поставленої задачі і уточнення цілей, які повинні бути досягнуті методами Data Mining. Важливо пра-вильно сформулювати цілі і вибрати необхідні для їх досягнення ме-тоди, т. К. Від цього залежить подальша ефективність всього процесу. Другий етап полягає у приведенні даних до форми, придатної для прімене¬нія конкретних методів Data Mining. Даний процес далі буде описаний більш детально, тут зауважимо тільки, що вид перетворень, совершае¬мих над даними, багато в чому залежить від використовуваних методів, обраних на попередньому етапі. Третій етап - це власне застосування методів Data Mining. Сценарії цього застосування можуть бути самими різними і можуть включати слож¬ную комбінацію різних методів, особливо якщо використовуються методи по¬зволяют проаналізувати дані з різних точок зору. Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає в тому, що всі наявні дані, кото ¬ риє необхідно аналізувати, розбиваються на дві групи. Як правило, одна з них більшого розміру, інша - меншого. На більшій групі, прі¬меняя ті чи інші методи Data Mining, отримують моделі, а на меншій - перевіряють їх. За різницею в точності між тестової та навчальної групами можна судити про адекватність побудованої моделі. Останній етап - інтерпретація отриманих моделей людиною з метою їх використання для прийняття рішень, додавання одержані правил і залежностей в бази знань і т. Д. Цей етап часто має на увазі використаних методів методів, які перебувають на стику технології Data Mining і технології експертних систем. Від того, наскільки ефективним він буде, в значітель¬ной мірі залежить успіх вирішення поставленого завдання. Цим етапом завершується цикл Data Mining. Остаточна оцінка цінності видобутого нового знання виходить за рамки аналізу, автоматизованого або традиційного, і може бути проведена тільки після втілення в життя рішення, прийнятого на основі здобутого знання, після перевірки нового зна¬нія практикою. Дослідження досягнутих практичних результатів завер¬шает оцінку цінності видобутого засобами Data Mining нового знання. Засоби Data Mining В даний час технологія Data Mining представлена цілим рядом когось мерційних і вільно розповсюджуваних програмних продуктів. Класифікувати програмні продукти Data Mining можна за тими ж принципами, що поло¬жени в основу класифікації самої технології. Однак подібна классі¬фікація не матиме практичної цінності. Внаслідок високої конку¬ренціі на ринку і прагнення до повноти технічних рішень багато з продуктів Data Mining охоплюють буквально всі аспекти застосування ана¬літіческіх технологій. Тому доцільніше класифікувати продукти Data Mining по тому, яким чином вони будуть реалізовані і, відповідно, який потенціал для інтеграції вони надають. Очевидно, що і це умовність, оскільки такий критерій не дозволяє окреслити чіткі межі між продуктами. Однак у подібної класифікації є одне несомнен¬ное перевага. Вона дозволяє швидко прийняти рішення про вибір того чи іншого готового рішення при ініціалізації проектів в області аналізу даних, розробки систем підтримки прийняття рішень, створення храні¬ліщ даних і т. Д. Отже, продукти Data Mining умовно можна розділити на три великі кате-горії: входять, як невід'ємна частина, в системи управління базами даних; бібліотеки алгоритмів Data Mining із супутньою інфраструктурою; коробкові або настільні рішення ( "чорні ящики"). Продукти перших двох категорій надають найбільші можливості для інтеграції і дозволяють реалізувати аналітичний потенціал практіче¬скі в будь-якому додатку в будь-якій області. Коробкові додатки, в свою чергу, можуть надавати деякі унікальні досягнення в області Data Mining або бути спеціалізованими для будь-якої конкретної сфери застосування. Однак в більшості випадків їх проблематично інтегрувати в ширші рішення. Включення аналітичних можливостей до складу комерційних систем управління базами даних є закономірною і має величезний по-тенціал тенденцією. Дійсно, де, як не в місцях концентрації дан¬них, має найбільший сенс розміщувати кошти їх обробки. Виходячи з цього принципу, функціональність Data Mining зараз реалі¬зована в наступних комерційних базах даних: Oracle; Microsoft SQL Server; IBM DB2. Основні тезіси • Інтелектуальний аналіз даних дозволяє автоматично, грунтуючись на великій кількості накопичених даних, генерувати гіпотези, котрі можуть бути перевірені іншими засобами аналізу (наприклад. OLAP). • Data Mining- дослідження і виявлення машиною (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні і доступні для інтерпретації людиною. • Методами Data Mining вирішуються три основні завдання: завдання класифікації і регресії, завдання пошуку асоціативних правил і завдання кластеризаціі. За призначенням вони поділяються на описові і передбачення. За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя). • Завдання класифікації і регресії зводиться до визначення значення за-Вісім змінної об'єкта по його незалежним змінним. Якщо залежна змінна приймає чисельні значення, то говорять про завдання регресії, в іншому випадку - про завдання класифікації. • При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності представляються у вигляді правил і можуть бути використані як для кращого розуміння природи аналізованих даних, так і для передбачення подій. • Завдання кластеризації полягає в пошуку незалежних груп (кластерів) і їх характеристик у всьому безлічі аналізованих даних. Рішення цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз. • Методи Data Mining знаходяться на стику різних напрямків інформаційних технологій: статистики, нейронних мереж, нечітких множин, ге-генетичних алгоритмів і ін. • Інтелектуальний аналіз включає в себе наступні етапи: розуміння і формулювання завдання аналізу, підготовка даних для автоматизованого аналізу, застосування методів Data Mining і побудова моделей, перевірка побудованих моделей, інтерпретація моделей людиною. • Перед застосуванням методів Data Mining вихідні дані повинні бути перетворені. Вид перетворень залежить від застосовуваних методів. • Методи Data Mining можуть ефективно використовуватися в різних областях людської діяльності: в бізнесі, медицині, науці, телекомунікаціях і т. д. ВисновкиІнтелектуальний аналіз даних є одним з найбільш актуальних і затребуваних напрямів прикладної математики. Сучасні процеси бізнесу і виробництва породжують величезні масиви даних, і людям стає все важче інтерпретувати і реагувати на велику кількість даних, які динамічно змінюються в часі виконання, не кажучи вже про попередження критичних ситуацій. «Інтелектуальний аналіз даних» витягти максимум корисних знань з багатовимірних, різнорідних, неповних, неточних, суперечливих, непрямих даних. Допомагає зробити це ефективно, якщо обсяг даних вимірюється гігабайтами або навіть терабайтами. Допомагає будувати алгоритми, здатні навчатися прийняття рішень в різних професійних областях. Засоби «Інтелектуального аналізу даних» оберігають людей від інформаційного перевантаження, переробляючи оперативні дані в корисну інформацію так, щоб потрібні дії могли бути прийняті в потрібні часи. Прикладні розробки ведуться за наступними напрямками: прогнозування в економічних системах; автоматизація маркетингових досліджень і аналіз клієнтських середовищ для виробничих, торгових, телекомунікаційних та Інтернет-компаній; автоматизація прийняття кредитних рішень і оцінка кредитних ризиків; моніторинг фінансових ринків; автоматичні торговельні системи. |