Сучасна прикладна статистика

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

           

            Дається критичний аналіз сучасного стану прикладної статистики. Обговорюються тенденції розвитку статистичних методів.

1. Що дає прикладна статистика народному господарству?

            Так називалася стаття [1], в якій наводилися численні приклади успішного використання методів прикладної математичної статистики. при вирішенні практичних завдань. Перелік прикладів можна продовжувати практично безмежне. З роботи 1997 р. досить послатися на узагальнюючу статтю В. Г. Горського [2], на дисертацію А. М. Гуди [3]. За даними Інституту інформації Гарфілда (США) кожна з основоположних книг В. В. Налімова [4,5] цитувалася не менше 1000 разів (див. також монографію [6, с.270, 274,373]). У будь-якому номері журналу "Заводська лабораторія" є роботи, в яких ті чи інші методи прикладної статистики застосовуються для вирішення прикладних завдань. Не раз публікувалися в нашому журналі і узагальнюючі статті [7-9].

Тому безперечно абсолютно, що методи прикладної статистики успішно застосовуються в різних галузях народного господарства, практично у всіх галузях науки. Згідно з доповіддю [10, с.157-158] в 1988 р. витрати в СРСР на статистичний аналіз даних оцінювалися в 2 мільярди рублів щорічно.

Велика практична значущість прикладної статистики виправдовує доцільність проведення робіт з її методології, в яких ця область наукової та прикладної діяльності розглядалася б як ціле, "з висоти пташиного польоту". Щоб мати можливість обговорення тенденцій розвитку статистичних методів, коротко розглянемо їх історію.

2. Про історію прикладної статистики

            Типові приклади раннього етапу застосування статистичних методів описані в Старому Завіті (див., наприклад, Книгу Чисел). З математичної точки зору вони зводилися до підрахунків числа влучень значень спостережуваних ознак у визначені градації. Надалі результати стали представляти у вигляді таблиць і діаграм, як це і зараз робить Держкомстат РФ. Треба визнати, що порівняно зі Старим Заповітом є прогрес - в Біблії не було таблиць. Однак немає поступу в порівнянні з роботами російських статистиків кінця дев'ятнадцятого - початку двадцятого століття (типової монографією тих часів можна вважати книгу [11], яка в даний час ще легко доступна).

Відразу після виникнення теорії ймовірностей (Паскаль, Ферма, 17 століття) імовірнісні моделі стали використовуватися при обробці статистичних даних. Наприклад, вивчалася частота народження хлопчиків і дівчаток, було встановлено відміну ймовірності народження хлопчика від 0.5, аналізувалися причини того, що в паризьких притулках ця ймовірність не та, що в самому Парижі, і т.д. Є досить багато публікацій з історії теорії ймовірностей, проте в деяких з них є неточні твердження, що примусило академіка Української АН Б. В. Гнеденко включити до останнього видання свого курсу [12] главу з історії математики випадкового.

У 1794 р. (за іншими даними - в 1795 р.) К. Гаус розробив метод найменших квадратів, один з найбільш популярних нині статистичних методів, і застосував його при розрахунку орбіти астероїда Церера - для боротьби з помилками астрономічних спостережень [13]. У 19 столітті помітний внесок у розвиток практичної статистики вніс бельгієць Кетле, на основі аналізу великого числа реальних даних показав стійкість відносних статистичних показників, таких, як частка самогубств серед усіх смертей [14]. Цікаво, що основні ідеї статистичного приймального контролю і сертифікації продукції обговорювалися академіком Буняковским і застосовувалися в російській армії ще в середині 19 ст. [15]. Статистичні методи управління якістю, сертифікації та класифікації продукції зараз дуже актуальні [16].

Сучасний етап розвитку прикладної статистики можна відраховувати з 1900 р., коли англієць К. Пірсон заснований журнал "Biometrika". Перша третина ХХ ст. пройшла під знаком параметричної статистики. Вивчалися методи, засновані на аналізі даних з параметричних сімей розподілів, описуваних кривими сімейства Пірсона. Найбільш популярним було нормальне (гауссовой) розподіл. Для перевірки гіпотез використовувались критерії Пірсона, Стьюдента, Фішера. Були запропоновані метод максимальної правдоподібності, дисперсійний аналіз, сформульовані основні ідеї планування експерименту.

Розроблену в першій третині ХХ ст. теорію будемо називати параметричної статистикою, оскільки її основний об'єкт вивчення - це вибірки з розподілів, описуваних одним або невеликим числом параметрів. Найбільш загальним є сімейство кривих Пірсона, що задаються чотирма параметрами. Як правило, не можна вказати будь-яких вагомих причин, за якими конкретний розподіл результатів спостережень має входити в те чи інше параметричне сімейство. Винятки добре відомі: якщо імовірнісна модель передбачає підсумовування незалежних випадкових величин, то суму природно описувати нормальним розподілом; якщо ж у моделі розглядається твір таких величин, то підсумок, мабуть, наближається логарифмічно нормальним розподілом, і т.д. Однак у переважній більшості реальних ситуацій подібних моделей немає, і наближення реального розподілу за допомогою кривих з сімейства Пірсона або його підродин - чисто формальна операція.

Саме з таких міркувань критикував параметричну статистику академік С. Н. Бернштейн в 1927 р. у своїй доповіді на Всеросійському з'їзді математиків [17]. Однак ця теорія, на жаль, до цих пір залишається основою викладання статистичних методів і продовжує використовуватися основною масою прикладників, що залишаються далекими від нових віянь в статистиці. Чому так відбувається? Щоб спробувати відповісти на це питання, звернемося до наукометріі.

3. Наукометрія прикладної статистики

            Проведений кілька років тому аналіз прикладної статистики як галузі науково-практичної діяльності показав, зокрема, що актуальними для фахівців в даний час є не менш ніж 100 тисяч публікацій (докладніше див статті [9,18,19]). Реально ж кожен з нас знайомий з істотно меншою кількістю книг і статей. Так, у відомому тритомнику Кендалла і Стьюарт [20-22] всього близько 2 тисяч літературних посилань. При всій очевидності міркувань про багаторазове дублювання в публікаціях цінних ідей доводиться визнати, що кожен фахівець з прикладної статистики володіє лише невеликою частиною накопичених у цій галузі знань. Не дивно, що доводиться постійно стикатися з ігноруванням або повторенням раніше отриманих результатів, з відходом в тупикові (з точки зору практики) напрями досліджень, з безпорадністю при зверненні до реальних даних, і т.д. Все це - один із проявів адаптаційного механізму гальмування розвитку науки, про який ще 30 років тому писали В. В. Налімов та інші науковознавці (див., наприклад, [23]).

Традиційний забобон полягає в тому, що кожен новий результат, отриманий дослідником - це цегла в безупинно зростаюче будинок науки, який неодмінно буде проаналізовано і використаний науковим співтовариством. Реальна ситуація - зовсім інша. Основа професійних знань дослідника та інженера закладається в період навчання. Потім вони поповнюються в тому вузькому напрямі, в якому працює спеціаліст. Наступний етап - їх тиражування новому поколінню. У результаті вузівські підручники відстоять від сучасного розвитку на десятки років. Так, підручники з математичної статистики, за нашою експертною оцінкою, в основному відповідають 40-60-х років ХХ ст. А тому тим же років відповідає більшість знову публікованих досліджень і тим більше - прикладних робіт. Одночасно доводиться визнати, що результати, які не ввійшли до підручників, незалежно від їх цінності майже всі забуваються.

Активно продовжується розвиток тупикових напрямків. Психологічно це зрозуміло. Наведу приклад з свого досвіду. Свого часу на замовлення Держстандарту я розробив методи оцінки параметрів гамма-розподілу [24]. Тому мені близькі і цікаві роботи з оцінювання параметрів за вибірками з розподілів, що належать тим чи іншим параметричним домами, поняття функції максимального правдоподібності, ефективності оцінок, використання нерівності Рао-Крамера і т.д. На жаль, я знаю, що це - тупикова гілка, оскільки реальні дані не підпорядковуються яких-небудь параметричним домами, треба застосовувати інші статистичні методи, про які йтиметься нижче. Зрозуміло, що фахівцям з параметричної статистики, які витратили багато років на вдосконалення в своїй області, психологічно важко погодитися з цим твердженням. У тому числі і мені.

4. Точки зростання

            Вітчизняна література з прикладної статистики настільки ж неозора, як і світова. Тільки в секції "Математичні методи дослідження" журналу "Заводська лабораторія" з 1960-х років опубліковано більше 1000 статей. Не будемо навіть намагатися перераховувати колективи дослідників чи основні монографії в цій галузі (втім, див. статтю [19]). Зазначимо лише два видання. На мою думку, найкращою вітчизняною книгою з прикладної статистики є збірка статистичних таблиць Л. М. Большева і Н. В. Смирнова [25] з докладними коментарями, що грають роль підручника і довідника. У поширеній тритомному довідковому виданні [26-28] під редакцією С. А. Айвазяна міститься корисна інформація про багатьох напрямках прикладної статистики. Однак у викладі є порівняно багато похибок, тому користуватися книгами [26-28] доводиться з обережністю.

Основна мета цієї статті - виділити і обговорити "точки зростання" прикладної статистики, ті її напрями, які представляються перспективними в майбутньому, але поки відсунуті на задній план традиційними постановками.

Кілька років тому при описі сучасного етапу розвитку статистичних методів нами були виділені [29] п'ять актуальних напрямів, в яких розвивається сучасна прикладна статистика, тобто п'ять "точок зростання": непараметріка, робастність, бутстреп, інтервальна статистика, статистика об'єктів нечислової природи. Обговоримо їх.

5. Непараметричні статистика

            У першій третині ХХ ст., Одночасно з параметричною статистикою, в роботах Спірмена і Кендалла з'явилися перші непараметричні методи, засновані на коефіцієнтах рангової кореляції, що носять нині імена цих статистиків. Але непараметріка, не робить нереалістичних припущень про те, що функції розподілу результатів спостережень належать тим чи іншим параметричним домами розподілів, стала помітною частиною статистики лише з другої третини ХХ століття. У 30-і роки з'явилися роботи А. М. Колмогорова і Н. В. Смирнова, що запропонували і вивчили статистичні критерії, що носять в даний час їх імена (історія цих робіт докладно описана в статті [30]). Ці критерії засновані на використанні так званого емпіричного процесу - різниці між емпіричної і теоретичної функціями розподілу, помноженої на квадратний корінь з обсягу вибірки. У роботі А. Н. Колмогорова 1933 вивчено граничне розподіл Супремум модуля емпіричного процесу, званого зараз критерієм Колмогорова. Потім Н. В. Смирнов досліджував Супремум і інфімум емпіричного процесу, а також інтеграл (з теоретичної функції розподілу) квадрата емпіричного процесу.

Слід зазначити, що зустрічається іноді в літературі [31] словосполучення "критерій Колмогорова-Смирнова", як докладно обгрунтовано в статті [30], некоректно, оскільки ці два статистика ніколи не друкувалися разом і не вивчали один і той же критерій. Коректно поєднання "критерій типу Колмогорова-Смирнова", що застосовується для позначення критеріїв, заснованих на використанні Супремум функцій від емпіричного процесу

Після другої світової війни розвиток непараметричної статистики пішло швидкими темпами. Велику роль зіграли роботи Вілкоксона і його школи. До теперішнього часу за допомогою непараметричних методів можна вирішувати практично те ж коло статистичних завдань, що і за допомогою параметричних [31]. Все більшу роль відіграють непараметричні оцінки щільності, непараметричні методи регресії і розпізнавання образів (дискримінантного аналізу). У нашій країні непараметричні методи отримали чималу популярність після виходу в 1965 р. першого видання згаданого вище збірника статистичних таблиць Л. М. Большева і Н. В. Смирнова [25], що містить докладні таблиці для основних непараметричних критеріїв.

Тим не менш параметричні методи все ще популярнішим непараметричних, особливо серед тих прикладників, хто слабо знайомий зі статистичними методами. Неодноразово публікувалися (див. зведення в [4, 32]) експериментальні дані, що свідчать про те, що розподілу реально спостережуваних випадкових величин, зокрема, помилок вимірювання, в переважній більшості випадків відмінні від нормальних (гауссовских). Тим не менш теоретики продовжують будувати і вивчати статистичні моделі, засновані на гауссовой, а практики - застосовувати подібні методи і моделі. Іншими словами, "шукають під ліхтарем, а не там, де втратили".

6. Стійкість статистичних процедур (робастність)

            Якщо в параметричних постановках на даних накладаються занадто жорсткі вимоги - їх функції розподілу повинні належати певному параметричному сімейства, то в непараметричних, навпаки, надмірно слабкі - потрібно лише, щоб функції розподілу, були безперервні. При цьому ігнорується апріорна інформація про те, який "приблизний вигляд" розподілу. Апріорі можна очікувати, що облік цього "зразкового виду" поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастності) статистичних процедур, в якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. З 60-х років цю теорію розробляли П. Хубер [33], Ф. Хампель [34] та багато інших. З монографій російською мовою, котрі тлумачать про робастності і стійкості статистичних процедур, самій ранній і найбільш загальна була книга [35], наступної - монографія [36]. Приватними випадками реалізації ідеї робастності (стійкості) статистичних процедур є розглядаються нижче статистика об'єктів нечислової природи і інтервальна статистика.

Є велика різноманітність моделей робастності в залежності від того, які саме відхилення від заданого параметричного сімейства допускаються. Найбільш популярною [33,34] виявилася модель викидів, в якій вихідна вибірка "засмічується" малим числом "викидів", що мають принципово інше розподіл. Однак ця модель представляється "тупиковою", оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, в подібних моделях зазвичай вважається відомої частота засмічення, що в поєднанні зі сказаним вище робить їх малопридатними для практичного використання.

Більш перспективним представляється модель Ю. М. Благовіщенського [37], в якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини.

7. Бутстреп (розмноження вибірок)

Інша із згаданих вище напрямків - бутстреп - пов'язано з інтенсивним використанням можливостей обчислювальної техніки. Основна ідея полягає в тому, щоб теоретичне дослідження замінити обчислювальним експериментом. Замість опису вибірки розподілом з параметричного сімейства будуємо велику кількість "схожих" вибірок, тобто "Розмножуємо" вибірку. Потім замість оцінювання характеристик та параметрів і перевірки гіпотез на основі властивостей теоретичного розподілу вирішуємо ці завдання обчислювальним методом, розраховуючи цікавлять нас статистики по кожній з "схожих" вибірок і аналізуючи отримані при цьому розподілу. Наприклад, замість того, щоб теоретичним шляхом знаходити розподіл статистики, довірчі інтервали та інші характеристики, моделюють багато вибірок, схожих на вихідну, розраховують відповідні значення цікавить дослідника статистики і вивчають їх емпіричне розподіл. Квант цього розподілу задають довірчі інтервали, і т.д.

Термін "бутстреп" миттєво здобув популярність після першої ж статті Б. Ефрона 1979 [39] з цієї тематики. Він відразу ж став обговорюватися в масі публікацій, в тому числі і науково-популярних [40]. У "Заводський лабораторії" була надрукована добірка статей по бутстреп [41], випущений збірник статей Б. Ефрона [42]. Основна ідея бутстреп за Б. Ефрон полягає в тому, що методом Монте-Карло (статистичних випробувань) багаторазово витягуються вибірки з емпіричного розподілу. Ці вибірки, природно, є варіантами вихідної, нагадують її.

Сама по собі ідея "розмноження вибірок" була відома набагато раніше. Стаття Б. Ефрона [39] називається так: "бутстреп-методи: новий погляд на метод складного ножа". Згаданий "метод складного ножа" (jackknife) запропонований М. Кену ще в 1949 р., за 30 років до статті Б. Ефрона. "Розмноження вибірок" при цьому здійснюється шляхом виключення одного спостереження. При цьому для вибірки обсягу n отримуємо n "схожих" на неї вибірок обсягу (n - 1) кожна. Якщо ж виключати по 2 спостереження, то число "схожих" вибірок зростає до n (n - 1) / 2 об'єму (n - 2) кожна.

Переваги та недоліки бутстреп як статистичного методу обговорюються в [43]. Там же і в [18] наводиться інформація про низку аналогічних методів. Необхідно підкреслити, що бутстреп по Ефрон [39-42] - лише один з варіантів методів "розмноження вибірки" (resampling), і, на наш погляд, не найвдаліший. Метод "складного ножа" видається більш корисним. На його основі можна сформулювати наступну просту практичну рекомендацію.

Припустимо, що Ви за вибіркою робите які-небудь статистичні висновки. Ви хочете дізнатися також, наскільки ці висновки стійкі. Якщо у Вас є інші (контрольні) вибірки, що описують те ж явище, то Ви можете застосувати до них ту ж статистичну процедуру і порівняти результати. А якщо таких вибірок ні? Тоді Ви можете їх побудувати штучно. Берете вихідну вибірку і виключаєте один елемент. Отримуєте схожу вибірку. Потім повертаєте цей елемент і виключаєте інший. Отримуєте другу схожу вибірку. Вчинивши так з усіма елементами вихідної вибірки, отримуєте стільки вибірок, схожих на вихідну, який її обсяг. Залишається обробити їх тим же способом, що і вихідну, і вивчити стійкість одержуваних висновків - розкид оцінок параметрів, частоти прийняття або відхилення гіпотез і т.д.

Можна змінювати не вибірку, а самі дані. Оскільки завжди є похибки вимірювання, то реальні дані - це не числа, а інтервали (результат вимірювання плюс-мінус похибка). Потрібна статистична теорія аналізу таких даних.

8. Статистика інтервальних даних

            Перспективне і швидко розвивається напрямок останніх років - математична статистика інтервальних даних. Мова йде про розвиток методів математичної статистики в ситуації, коли статистичні дані - не числа, а інтервали, зокрема, породжені накладенням помилок вимірювання на значення випадкових величин. Отримані результати відображені, зокрема, у виступах на проведеній в "Заводський лабораторії" дискусії [44] і в доповідях міжнародної конференції ІНТЕРВАЛ-92 [45].

Статистика інтервальних даних ідейно пов'язана з інтервальної математикою, в якій в ролі чисел виступають інтервали (див., наприклад, монографію [46]). Цей напрямок математики є подальшим розвитком всім відомих правил наближених обчислень, присвячених висловом похибок суми, різниці, твори, приватного через похибки тих чисел, над якими здійснюються перераховані операції. Як видно з доповідей [45], до теперішнього часу вдалося вирішити, зокрема, ряд задач теорії інтервальних диференціальних рівнянь, в яких коефіцієнти, початкові умови та рішення описуються за допомогою інтервалів.

Провідна наукова школа в галузі статистики інтервальних даних - це школа проф.А.П.Вощініна, що активно працює з кінця 70-х років. Отримані результати відображені в ряді монографій (див., зокрема, [47,48,49]), статей [44], доповідей [45], дисертацій [50,51]. Зокрема, вивчені проблеми регресійного аналізу, планування експерименту, порівняння альтернатив та прийняття рішень в умовах інтервальної невизначеності.

Розглянемо інший напрям в статистиці інтервальних даних, яке також є перспективним. У ньому розвиваються асимптотичні методи статистичного аналізу інтервальних даних при великих обсягах вибірок і малих погрішності вимірів. На відміну від класичної математичної статистики, спочатку спрямовується до нескінченності обсяг вибірки і тільки потім - зменшуються до нуля похибки. Зокрема, за допомогою такої асимптотики були сформульовані правила вибору методу оцінювання параметрів гамма-розподілу в ГОСТ 11.011-83 [24].

У розвиток ідей, сформульованих в [52,53], розроблена загальна схема дослідження, що включає розрахунок нотних (максимально можливого відхилення статистики, викликаного интервальности вихідних даних) і раціонального обсягу вибірки (перевищення якого не дає істотного підвищення точності оцінювання). Вона застосована до оцінювання математичного сподівання, дисперсії, коефіцієнта варіації, параметрів гамма-розподілу і характеристик адитивних статистик, при перевірці гіпотез про параметри нормального розподілу, в т.ч. за допомогою критерію Стьюдента, а також гіпотези однорідності за допомогою критерію Смирнова. Розроблено підходи до розгляду інтервальних даних в основних постановках регресійного, дискримінантного та кластерного аналізів. Зокрема, вивчено вплив похибок вимірювань і спостережень на властивості алгоритмів регресійного аналізу, розроблені способи розрахунку нотні та раціональних обсягів вибірок, введені та досліджені нові поняття багатомірних і асимптотичних нотні, доведені відповідні граничні теореми. Розпочато розробку інтервального дискримінантного аналізу, зокрема, розглянуто вплив интервальности даних на введений нами показник якості класифікації. Вивчено асимптотичну поведінку оцінок методу моментів і оцінок максимальної правдоподібності (а також більш загальних - оцінок мінімального контрасту), проведено асимптотичну порівняння цих методів у випадку інтервальних даних. Знайдено загальні умови, при яких, на відміну від класичної математичної статистики, метод моментів дає більш точні оцінки, ніж метод максимальної правдоподібності (див. статтю [54], у якій наведені також посилання на інші публікації, пов'язані з розглянутого напрямку в статистиці інтервальних даних ) ..

Як показала, зокрема, міжнародна конференція ІНТЕРВАЛ-92, в області асимптотичної математичної статистики інтервальних даних російська наука має світовий пріоритет. Розгортання робіт по розглянутій тематиці дозволить закріпити цей пріоритет, отримати теоретичні результати, основоположні в новій галузі математичної статистики і необхідні для обгрунтованого статистичного аналізу майже всіх типів даних. З часом в усі види статистичного програмного забезпечення повинні бути включені алгоритми інтервальної статистики, "паралельні" звичайно використовуваним алгоритмам прикладної математичної статистики. Це дозволить в явному вигляді врахувати наявність похибок у результатів спостережень, зблизити позиції метрологів і статистиків.

9. Статистика об'єктів нечислової природи

як частина прикладної статистики

            Відповідно до класифікації статистичних методів, прийнятої в [55-56], прикладна статистика ділиться на наступні чотири області:

статистика (числових) випадкових величин,

багатомірний статистичний аналіз,

статистика тимчасових рядів і випадкових процесів,

статистика об'єктів нечислової природи.

Перші три з цих областей є класичними. Зупинимося на четвертій, тільки ще входить в масову свідомість фахівців. Її називають також статистикою нечислових даних або просто нечислової статистикою.

Вихідний об'єкт в математичній статистиці - це вибірка. У ймовірнісної теорії статистики вибірка - це сукупність незалежних однаково розподілених випадкових елементів. Яка природа цих елементів? У класичній математичній статистиці (тієї, що зазвичай викладають студентам) елементи вибірки - це числа. У багатовимірному статистичному аналізі - вектора. А в нечислової статистикою елементи вибірки - це об'єкти нечислової природи, які не можна складати і множити на числа. Іншими словами, об'єкти нечислової природи лежать у просторах, що не мають векторної структури.

Прикладами об'єктів нечислової природи є (див. також огляди [56-57]):

значення якісних ознак, тобто результати кодування об'єктів за допомогою заданого переліку категорій (градацій);

впорядкування (ранжування) експертами зразків продукції (при оцінці її технічного рівня та конкурентоспроможності)) або заявок на проведення наукових робіт (при проведенні конкурсів на виділення грантів);

класифікації, тобто розбиття об'єктів на групи схожих між собою (кластери);

толерантності, тобто бінарні відношення, що описують подібність об'єктів між собою, наприклад, подібності тематики наукових робіт, що оцінюється експертами з метою раціонального формування експертних рад всередині певної галузі науки;

результати парних порівнянь або контролю якості продукції за альтернативною ознакою ("придатний" - "шлюб"), тобто послідовності з 0 і 1;

безлічі (звичайні або нечіткі), наприклад, зони, уражені корозією, або переліки можливих причин аварії, складені експертами незалежно один від одного;

слова, пропозиції, тексти;

вектора, координати яких - сукупність значень різнотипних ознак, наприклад, результат складання статистичного звіту про науково-технічної діяльності (форма No.1-наука) або заповнена комп'ютеризована історія хвороби, в якій частина ознак носить якісний характер, а частина - кількісний;

відповіді на питання експертної, маркетингової чи соціологічної анкети, частина з яких носить кількісний характер (можливо, інтервальний), частина зводиться до вибору однієї з кількох підказок, а частина є тексти, і т.д.

Інтервальні дані (див. вище) теж можна розглядати як приклад об'єктів нечислової природи, а саме, як окремий випадок нечітких множин.

З початку 70-х років під впливом запитів прикладних досліджень у технічних, медичних та соціально-економічних науках в Росії активно розвивається статистика об'єктів нечислової природи, відома також як статистика нечислових даних або нечислової статистика. У створенні цієї порівняно нової галузі прикладної математичної статистики пріоритет належить російським ученим.

Велику роль відіграв заснований у 1973 р. науковий семінар "Експертні оцінки і аналіз даних". У 60-і роки радянський наукове співтовариство стало цікавитися методами експертних оцінок (про їхню історію та сучасний стан див. огляд [58]). Як наслідок, почалося знайомство з конкретними математизувати теоріями, пов'язаними з цими методами. Мова йде про репрезентативну теорії вимірювань, що стала відомою в нашій країні за статтею П. Суппеса і Дж.Зінеса у збірнику [59] та книзі І. Пфанцагля [60], про теорію нечіткості Л. А. Заде [61], теорії парних порівнянь , описаної в монографії Г. Девіда [62]. До цього кола ідей примикають теорія випадкових множин (див., наприклад, книгу Ж. Матерона [63]) та методи багатовимірного шкалювання (описані в монографіях А. Ю. Терьохін [64] і В. Т. Перехрест [65]). Але найбільший вплив зробили ідеї Дж.Кемені, який аксіоматично ввів відстань між ранжировками (тепер воно іменується в літературі відстанню Кемені) і запропонував використовувати в якості середньої величини рішення оптимізаційної задачі (тепер - медіана Кемені). Його скромна книжка [66], написана у співавторстві з Дж.Снеллом, породила великий потік досліджень.

Протягом 70-х років на основі запитів теорії експертних оцінок (а також соціології, економіки, техніки і медицини) розвивалися конкретні напрямки статистики об'єктів нечислової природи. Були встановлені зв'язки між конкретними видами таких об'єктів, розроблені для них імовірнісні моделі (див. огляд [67]). Підсумки цього періоду підведені в монографіях [35,68,69]).

Наступний етап - виділення статистики об'єктів нечислової природи як самостійного напряму в прикладній статистиці, ядром якого є методи статистичного аналізу даних довільної природи. Програма розвитку цього нового наукового напрямку вперше була сформульована в статті [70]. Реалізація цієї програми була здійснена в 80-і роки. Для робіт цього періоду характерна зосередженість на внутрішніх проблемах нечислової статистики. Посилання на конкретні монографії, збірники, статті та інші публікації декількох десятків авторів наведено в оглядах [56,57,67]. Відзначимо лише збірник [71], спеціально присвячений нечислової статистикою, і дисертацію [72], що відноситься до непараметричної теорії парних порівнянь.

До 90-х років статистика об'єктів нечислової природи з теоретичної точки зору була досить добре розвинена, основні ідеї, підходи і методи були розроблені та вивчені математично, зокрема, доведено досить багато теорем. Проте вона залишалася недостатньо апробованою на практиці. Це було пов'язано як з її порівняльної молодістю, так і з загальновідомими особливостями організації науки в 80-ті роки, коли були відсутні достатні стимули до того, щоб теоретики зайнялися широким впровадженням своїх результатів. І в 90-ті роки настав час від математико-статистичних досліджень перейти до застосування отриманих результатів на практиці. Ця тенденція добре відображена в монографіях [73,74], матеріалах міжнародної конференції "Управління великими системами" [75].

Слід зазначити, що в статистиці об'єктів нечислової природи, як і в інших галузях прикладної математичної статистики і прикладної математики взагалі, одна і та ж математична схема може з успіхом застосовуватися і в технічних дослідженнях, і в медицині, і в соціології, і для аналізу експертних оцінок, а тому її краще всього формулювати і вивчати в найбільш загальному вигляді, для об'єктів довільної природи.

10. Основні ідеї статистики об'єктів нечислової природи

            У чому принципова новизна нечислової статистики? Для класичної математичної статистики характерна операція додавання. При розрахунку вибіркових характеристик розподілу (вибіркове середнє арифметичне, вибіркова дисперсія та ін), в регресійному аналізі та інших областях цієї наукової дисципліни постійно використовуються суми. Математичний апарат - закони великих чисел, Центральна гранична теорема та інші теореми - націлені на вивчення сум. У нечислової ж статистикою не можна використовувати операцію складання, оскільки елементи вибірки лежать у просторах, де немає операції додавання. Методи обробки нечислових даних засновані на принципово іншому математичному апараті - на застосуванні різних відстаней у просторах об'єктів нечислової природи.

Коротко розглянемо кілька ідей, що розвиваються в статистиці об'єктів нечислової природи для даних, що лежать в просторах довільного виду. Вирішуються класичні задачі опису даних, оцінювання, перевірки гіпотез - але для некласичних даних, а тому некласичними методами.

Першою обговоримо проблему визначення середніх величин. У рамках репрезентативною теорії вимірювань вдається вказати вид середніх величин, що відповідають тим чи іншим шкалами вимірювання [35]. У класичній математичній статистиці середні величини вводять за допомогою операцій додавання (вибіркове середнє арифметичне, математичне очікування) або впорядкування (вибіркова і теоретична медіани). У просторах довільної природи середні значення не можна визначити за допомогою операцій додавання або впорядкування. Теоретичні та емпіричні середні доводиться вводити як рішення екстремальних задач. Для теоретичного середнього це - завдання мінімізації математичного очікування (в класичному розумінні) відстані від випадкового елемента зі значеннями в розглянутому просторі до фіксованої точки цього простору (мінімізується зазначена функція від цієї точки). Для емпіричного середнього математичне сподівання береться по емпіричному розподілу, тобто береться сума відстаней від деякої точки до елементів вибірки і потім мінімізується по цій крапці. При цьому як емпіричне, так і теоретичне середні як рішення екстремальних задач можуть бути не єдиним елементом простору, а складатися з безлічі таких елементів, яке може виявитися і порожнім. Проте вдалося сформулювати і довести закони великих чисел для середніх величин, визначених зазначеним чином, тобто встановити збіжність емпіричних середніх до теоретичних.

Виявилося, що методи докази законів великих чисел допускають істотно більш широку область застосування, ніж та, для якої вони були розроблені. А саме, вдалося вивчити асимптотики рішень екстремальних статистичних завдань, до яких, як відомо, зводиться більшість постановок прикладної статистики [26]. Зокрема, крім законів великих чисел встановлена ​​і спроможність оцінок мінімального контрасту, в тому числі оцінок максимальної правдоподібності і робастних оцінок. До теперішнього часу подібні оцінки вивчені також і в інтервальної статистиці.

У статистиці у просторах довільної природи велику роль відіграють непараметричні оцінки щільності, що використовуються, зокрема, в різних алгоритмах регресійного, дискримінантного, кластерного аналізів. У нечислової статистикою запропонований і вивчений ряд типів непараметричних оцінок щільності у просторах довільної природи, зокрема, доведено їх спроможність, вивчена швидкість збіжності і встановлений примітний факт збігу найкращої швидкості збіжності в кожному разі з тією, яка має бути в класичній теорії для числових випадкових величин .

Дискримінантний, кластерний, регресійний аналізи у просторах довільної природи засновані або на параметричної теорії - і тоді застосовується підхід, пов'язаний з асимптотики рішення екстремальних статистичних завдань - або на непараметричної теорії - і тоді використовуються алгоритми на основі непараметричних оцінок щільності.

Для перевірки гіпотез можуть бути використані статистики інтегрального типу, зокрема, типу омега-квадрат. Цікаво, що гранична теорія таких статистик, побудована спочатку в класичній постановці [76], придбала природний (завершений, витончений) вид саме для просторів довільного виду [77], оскільки при цьому вдалося провести міркування, спираючись на базові математичні співвідношення, а не на ті приватні (із загальної точки зору), що були пов'язані з конечномірні простором.

Представляють інтерес результати, пов'язані з конкретними областями статистики об'єктів нечислової природи, зокрема, зі статистикою нечітких множин [78], з випадковими множинами [35] (слід відзначити, що теорія нечітких множин в певному сенсі зводиться до теорії випадкових множин [35,78 ]), з непараметричної теорією парних порівнянь [72], з аксіоматичним введенням метрик у конкретних просторах об'єктів нечислової природи [71].

Для аналізу нечислових, зокрема, експертних даних вельми важливі методи класифікації. З іншого боку, найбільш природно ставити і вирішувати задачі класифікації, засновані на використанні відстаней або показників відмінності, в рамках статистики об'єктів нечислової природи. Це стосується як розпізнавання образів з учителем (іншими словами, дискримінантного аналізу), так і розпізнавання образів без вчителя (тобто кластерного аналізу). Сучасний стан дискримінантного і кластерного аналізу з точки зору статистики об'єктів нечислової природи відображено роботах в [79].

Статистичні методи аналізу нечислових даних особливо добре пристосовані для застосування в економіці, соціології та експертних оцінках, оскільки в цих областях від 50% до 90% даних є нечисловими [80].

11. Висновок

            Ми розглянули п'ять "точок зростання" прикладної статистики як методичної дисципліни. Зрозуміло, вони не вичерпують все різноманіття фронту наукових досліджень у цій області. Зокрема, вирішені аж ніяк не всі проблеми, поставлені в кінці 70-х років в т.зв. "Цахкадзорской зошити" [81]. Крім того, ми майже не зачіпали різноманітні застосування статистичних методів у конкретних прикладних областях. Багато цікавих проблем є в плануванні експериментів, особливо кінетичних (див., наприклад, статті [2,82]), при аналізі проблем надійності (див., зокрема, статтю [83]), в нових статистичних методах управління якістю продукції, в тому числі у зв'язку з ідеями Г. Тагуті (див. про це статтю [84]), у питаннях екології та безпеки [75], та ін

Протягом останніх більш ніж 60 років у Росії спостерігається величезний розрив між державною статистикою і науковим співтовариством фахівців за статистичними методами (докладніше про це див [19]). У підручнику з історії статистики [14] навіть не згадуються імена членів-кореспондентів АН СРСР М. В. Смирнова і Л. Н. Большева! Тому немає нічого дивного в тому, що тенденції розвитку сучасної прикладної математичної статистики настільки ж мало обговорюються вітчизняними авторами, як і її історія. Буду радий, якщо ця стаття покладе початок дискусії про майбутнє нашої науки.

ЛІТЕРАТУРА

1. Орлов О.І. / Вісник статистики. 1986, № 8. С.52 - 56

2. Горський В.Г. - В зб.: Міжнародна школа підвищення кваліфікації "Інженерно-хімічна наука для передових технологій". Праці третьої сесії, 26-30 травня 1997. Казань, Росія / Под ред. В. А. Махліна. - М.: Науково-дослідний фізико-хімічний Інститут ім.Карпова, 1997. С.261-293.

3. Гуда О.М. Моделі, методи і засоби аналізу даних в ускладнених умовах. Автореф. дисс. докт. техніч. наук. - Таганрог: Таганрозький державний радіотехнічний університет, 1997. 38 с.

4. Налімов В.В. Застосування математичної статистики при аналізі речовини. - М.: Физматгиз, 1960. - 430 с.

5. Налімов В.В., Чернова Н.Л. Статистичні методи планування екстремальних експериментів. - М.: Физматгиз, 1965. - 340 с.

6. Налімов В.В. Канатоходець. Спогади. - М.: Видавнича група "Прогрес", 1994. - 456 с.

7. Гнеденко Б.В., Орлов О.І. / Заводська лабораторія. 1988. Т.54. № 1. С.1-4.

8. Горський В.Г. / Заводська лабораторія. 1992. Т.58. № 1. С.63-64.

9. Орлов О.І. / Заводська лабораторія. 1992. Т.58. № 1. С.67-74.

10. Комаров Д.М., Орлов О.І. - В зб.: Питання застосування експертних систем. - Мінськ: Центросістем, 1988. С.151-160.

11. Ленін В.І. Розвиток капіталізму в Росії. Процес утворення внутрішнього ринку для великої промисловості. - М.: Політвидав, 1986. - XII, 610 с.

12. Гнеденко Б.В. Курс теорії ймовірностей: Підручник. - Вид. 6-е,

перераб. і доп. - М.: Наука, Гл. ред. фіз.-мат. лит., 1988. - 448 с.

13. Клейн Ф. Лекції про розвиток математики в 19 столітті. Частина I. - М.

-Л.: Об'єднане науково-технічне видавництво НКТП СРСР, 1937. - 432 с.

14. Плошку Б.Г., Єлисєєва І.І. Історія статистики: Учеб. посібник. - М.:

Фінанси і статистика. 1990. - 295 с.

15. Гнеденко Б.В. Математична статистика і контроль якості. - М.: Знание, 1976. - 64 с.

16. Орлов О.І. / Заводська лабораторія. 1997. Т.63. № 3. С.55-62.

17. Бернштейн С.М. В зб.: Праці Всеросійського з'їзду математиків у Москві 27 квітня - 4 травня 1927 р. - М.-Л.: Гіз, 1928. С.50-63.

18. Орлов О.І. / Надійність та контроль якості. 1987. № 6. С. 54-59.

19. Орлов О.І. / Вісник статистики. 1990, № 1. С.65 - 71.

20. Кендалл М., Стьюарт А. Теорія розподілів. - М.: Наука, 1966. 566 с.

20. Кендалл М., Стьюарт А. Статистичні висновки і зв'язку. - М.: Наука, 1973. 899 с.

20. Кендалл М., Стьюарт А. Багатомірний статистичний аналіз і тимчасові ряди. - М.: Наука, 1976. 736 с.

23. Налімов В.В., Мульченко З.М. Наукометрія. Вивчення розвитку науки як інформаційного процесу. - М.: Наука, 1969. 192 с.

24. ГОСТ 11.011-83. Прикладна статистика. Правила визначення оцінок і довірчих меж для параметрів гамма-розподілу. - М.: Изд-во стандартів. 1984. - 53 с.

25. Більше Л.М., Смирнов Н.В. Таблиці математичної статистики. - М.: Наука, 1965 (1-е вид.), 1968 (2-е вид.), 1983 (3-е вид.).

26. Айвазян С.А., Енюков І.С., Мешалкин Л.Д. Прикладна статистика. Основи моделювання та первинна обробка даних. - М.: Фінанси і статистика, 1983. - 471 с.

27. Айвазян С.А., Енюков І.С., Мешалкин Л.Д. Прикладна статистика. Дослідження залежностей. - М.: Фінанси і статистика, 1985. - 488 с.

28. Айвазян С.А., Бухштабер В.М., Енюков І.С., Мешалкин Л.Д. Прикладна статистика. Класифікація та зниження розмірності. - М.: Фінанси і статистика, 1989. - 607 с.

29. Орлов О.І. / Надійність та контроль якості. 1991. № 8. С.3-8.

30. Орлов О.І. / Заводська лабораторія. 1995. Т.61. № 7. С.59-61.

31. Холландер М., Вулф Д. Непараметричні методи статистики. - М.: Фінанси і статистика, 1985.

32. Орлов О.І. / Заводська лабораторія. 1991. Т.57. № 7. С.64-66.

33. Хьюбер П. робастність в статистиці. - М.: Світ, 1984. - 304 с.

34. Хампель Ф., Рончетті Е., Рауссео П., Штаель В. робастність в статистиці. Підхід на основі функцій впливу. - М.: Світ, 1989. - 512 с.

35. Орлов О.І. Стійкість у соціально-економічних моделях. - М.: Наука, 1979. - 296 с.

36. Смоляк С.А., Титаренко Б.П. Стійкі методи оцінювання: Статистична обробка неоднорідних сукупностей. - М;: Статистика, 1980. - 208 с.

37. Благовіщенський Ю.М. - В зб.: Тези доповідей Міжнародної конференції з теорії ймовірностей і математичній статистиці. Вільнюс, 25-30 червня 1973 Т.1. - Вільнюс: Вид-во Вільнюського держуніверситету, 1973. С.77-78.

39. Efron B. / Ann. Statist. 1979. V.7. № 1. P.1-26.

40. Дияконис П., Ефрон Б. / У світі науки. 1983. № 7. С.60-73.

41. Добірка статей з бутстреп / Заводська лабораторія. 1987. Т.53. № 10. С.76-99.

42. Ефрон Б. Нетрадиційні методи багатовимірного статистичного аналізу. - М.: Фінанси і статистика, 1988. 263 с.

43. Орлов О.І. / Заводська лабораторія. 1987. Т.53. № 10. С.82-85.

44. Дискусія з аналізу інтервальних даних / Заводська лабораторія. 1990. Т.56. № 7. С.75-95.

45. Збірник праць Міжнародної конференції з інтервальним і стохастичним методам в науці і техніці. Тт. 1,2. - М.: МЕІ, 1992.

46. Шокін Ю.І. Інтервальний аналіз. - К.: Наука, 1981. 284 с.

47. Вощинін А.П. Метод оптимізації об'єктів по інтервальним моделям цільової функції. - М.: МЕІ, 1987. 109 с.

48. Вощинін А.П., Сотіров Г.Р. Оптимізація в умовах невизначеності. - М.: МЕІ - Софія: Техніка, 1989. 224 с.

49. Вощинін А.П., Акматбеков Р.А. Оптимізація за регресійним моделям і планування експерименту. - Бішкек: Ілім, 1991. 164 с.

50. Дивак М.П. Розробка методів оптимального планування експерименту та аналізу інтервальних даних. Автореф. дисс. канд .. техніч. наук. - М.: МЕІ, 1992. 20 с.

51. Симов С.Ж. Розробка та дослідження інтервальних моделей при аналізі даних і проектуванні експертних систем. Автореф. дисс. канд .. техніч. наук. - М.: МЕІ, 1992. 20 с.

52. Орлов О.І. / Заводська лабораторія. 1990, Т.56. № 7. С.86-89.

53. Orlov AI / Interval Computations. 1992. № 1 (3). Р.44-52.

54. Орлов О.І. - В зб.: Статистичні методи оцінювання та перевірки гіпотез. Міжвузівський збірник наукових праць. - Перм: Вид-во Пермського державного університету, 1995. С. 114-124.

55. Прикладна статистика. Методи обробки даних. Основні вимоги і характеристики. - М.: ВНІІСтандартізаціі, 1987. - 64 с.

56. Орлов О.І. / Заводська лабораторія. 1990. Т.56. № 3. С.76-83.

57. Орлов О.І. / Заводська лабораторія. 1995. Т.61. № 3. С.43-52.

58. Орлов О.І. / Заводська лабораторія. 1996. Т.62. № 1. С.54-60.

59. Суппес П., Зінес Дж. - В зб.: Психологічні вимірювання. -М: Світ, 1967. С. 9-110.

60. Пфанцагль І. Теорія вимірів. - М.: Світ, 1976. 166 с.

61. Заде Л. Поняття лінгвістичної змінної та його застосування до прийняття наближених рішень. - М.: Світ, 1976. 168 с.

62. Девід Г. Метод парних порівнянь. - М.: Статистика, 1978. 144 с.

63. Матерон Ж. Випадкові множини і інтегральна геометрія. - М.: Світ, 1978. 318 з.

64. Терьохіна А.Ю. Аналіз даних методами багатовимірного шкалювання. - М.: Наука, 1986. 168 с.

65. Перехрест В.Т. Нелінійний типологічний аналіз соціально-економічної інформації: Математичні та обчислювальні методи. - Л.: Наука, 1983. 176 с.

66. Кемені Дж., Снелл Дж. Кібернетичному моделювання: Деякі програми. - М.: Радянське радіо, 1972. 192 с.

67. Орлов О.І. / Заводська лабораторія. 1995. Т.61. № 5. С.43-51.

68. Тюрін Ю.М., Литвак Б.Г., Орлов О.І., Сатаров Г.А., Шмерлінг Д.С. Аналіз нечислової інформації. - М.: Наукова Рада АН СРСР з комплексної проблеми "Кібернетика", 1981. - 80 с.

69. Литвак Б.Г. Експертна інформація: Методи отримання та аналізу. - М.: Радіо і зв'язок, 1982. 184 с.

70. Орлов О.І. - В зб.: Експертні оцінки. Питання кібернетики. Вип.58. - М.: Наукова Рада АН СРСР з комплексної проблеми "Кібернетика", 1979. С.17-33.

71. Аналіз нечислової інформації в соціологічних дослідженнях. - М.: Наука, 1985. - 220 с.

72. Риданова Г.В. Деякі питання статистичного аналізу випадкових бінарних векторів. Автореф. дисс. канд. фіз.-мат. наук. - М.: МГУ, 1988. 16 с.

73. Ларичев О.І., Мошкович Є.М. Якісні методи прийняття рішень. Вербальний аналіз рішень. - М.: Наука, 1996. 208 с.

74. Литвак Б.Г. Експертні оцінки та прийняття рішень. - М.: Патент, 1996. 271 с.

75. Управління великими системами. Матеріали міжнародної науково-практичної конференції (22-26 вересня 1997 р., Москва, Росія). Загальна редакція - Бурков В.М., Новіков Д.А. - М.: СІНТЕГ, 1997. 432 с.

76. Орлов О.І. / Доповіді АН СРСР. 1974. Т.219. № 4. С.808-811.

77. Орлов О.І. - В зб.: Імовірнісні процеси та їх застосування. - М.: МІЕМ, 1989. С.118-123.

78. Орлов О.І. Завдання оптимізації і нечіткі змінні. - М.: Знание, 1980. - 64 с.

79. Орлов О.І. / Соціологія: методологія, методи, математичні моделі. 1992. № 2. С.28-50.

80. Тітма М.Х., Тоодінг Л.М. / Соціологічні дослідження. 1986. № 4. С.123-128.

81. Загоруйко Н.Г., Орлов О.І. - В зб.: Сучасні проблеми кібернетики (прикладна статистика). - М.: Знание, 1981. С.53-63.

82. Горський В.Г., Денисов В.І., Іткін Н.Б. / Заводська лабораторія. 1992. Т.58. № 1. С.64-67.

83. Тескін О.І. - В зб.: Статистичні методи оцінювання та перевірки гіпотез. Міжвузівський збірник наукових праць. - Перм: Вид-во Пермського державного університету, 1995. С. 227 - 236.

84. Адлер Ю.П., Талалай А.М. / Курс на якість. 1992. № 3-4. С.85-93.


Додати в блог або на сайт

Цей текст може містити помилки.

Виробництво і технології | Реферат
91.9кб. | скачати


Схожі роботи:
Прикладна міфологія
Прикладна хімія
Соціальна та прикладна екологія
Порівняльна і прикладна політологія
Теоретична і прикладна метрологія
Прикладна соціологія в США
Прикладна фізична підготовка
Прикладна фізична підготовка 2
Порівняльна і прикладна політологія 2
© Усі права захищені
написати до нас