Сучасні економетричні методи

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Реферат
Сучасні економетричні методи

Про розвиток економетричних методів
Сучасний стан в економетрики, як і в інших областях, визначається минулим. Коротко розглянемо історію економетрики та прикладної статистики, почавши з їх практичної користі.
Що дає прикладна статистика народному господарству? Так називалася стаття [1], в якій наводилися численні приклади успішного використання методів економетрики та прикладної математичної статистики при вирішенні практичних завдань. Великий перелік прикладів наведений у попередніх розділах цієї книги. Його можна продовжувати практично безмежне. Так, у будь-якому номері журналу "Заводська лабораторія" є роботи, в яких ті чи інші методи економетрики та прикладної статистики застосовуються для вирішення прикладних техніко-економічних завдань.
Тому безперечно абсолютно, що методи економетрики та прикладної статистики успішно застосовуються в різних галузях народного господарства, практично у всіх галузях науки. Згідно з доповіддю [2], в 1988 р. витрати в СРСР на статистичний аналіз даних оцінювалися в 2 мільярди рублів щорічно.
Велика практична значущість економетрики та прикладної статистики, особливо в економіці, менеджменті, технічних дослідженнях та розробках, виправдовує доцільність розвитку їх методології, в яких ці галузі наукової та прикладної діяльності розглядалася б як ціле, "з висоти пташиного польоту". Щоб мати можливість обговорення тенденцій розвитку економетрики та статистичних методів у XXI столітті, необхідно хоча б коротко розглянути їх історію.
Про історію економетрики та прикладної статистики. Типові приклади раннього етапу застосування статистичних методів описані в Старому Завіті (див., наприклад, Книгу Чисел). З математичної точки зору вони зводилися до підрахунків числа влучень значень спостережуваних ознак у визначені градації. Надалі результати стали представляти у вигляді таблиць і діаграм, як це і зараз роблять Держкомстат РФ (Російське статистичне агентство). Треба визнати, що порівняно зі Старим Заповітом є прогрес - в Біблії не було таблиць. Однак немає поступу в порівнянні з роботами російських статистиків кінця дев'ятнадцятого - початку двадцятого століття (типової монографією тих часів можна вважати книгу [3], яка в даний час ще легко доступна).
Відразу після виникнення теорії ймовірностей (Паскаль, Ферма, 17 століття) імовірнісні моделі стали використовуватися при обробці статистичних даних. Наприклад, вивчалася частота народження хлопчиків і дівчаток, було встановлено відміну ймовірності народження хлопчика від 0.5, аналізувалися причини того, що в паризьких притулках ця ймовірність не та, що в самому Парижі, і т.д. Є досить багато публікацій з історії теорії ймовірностей, проте в деяких з них є неточні твердження, що змусило одного з найбільших учених ХХ ст. академіка Української АН Б.В. Гнеденко включити в чергове видання свого курсу [4] главу з історії математики випадкового.
У 1794 р. (за іншими даними - в 1795 р.) К. Гаус розробив метод найменших квадратів, один з найбільш популярних нині статистичних методів (див. розділ 5 вище), і застосував його при розрахунку орбіти астероїда Церера - для боротьби з помилками астрономічних спостережень. У Х1Х столітті помітний внесок у розвиток практичної статистики вніс бельгієць А. Кетле, на основі аналізу великого числа реальних даних показав стійкість відносних статистичних показників, таких, як частка самогубств серед усіх смертей. Цікаво, що основні ідеї статистичного приймального контролю і сертифікації продукції обговорювалися академіком М.В. Остроградським і застосовувалися в російській армії ще в середині Х1Х ст .. Статистичні методи управління якістю, сертифікації та класифікації продукції і зараз дуже актуальні (див. розділ 13 вище).
Сучасний етап розвитку прикладної статистики можна відраховувати з 1900 р., коли англієць К. Пірсон заснований журнал "Biometrika". Перша третина ХХ ст. пройшла під знаком параметричної статистики. Вивчалися методи, засновані на аналізі даних з параметричних сімей розподілів, описуваних кривими з т.зв. сімейства Пірсона. Найбільш популярним було нормальне (гауссовой) розподіл. Для перевірки гіпотез використовувались критерії Пірсона, Стьюдента, Фішера. Були запропоновані метод максимальної правдоподібності, дисперсійний аналіз, сформульовані основні ідеї планування експерименту.
Розроблену в першій третині ХХ ст. теорію називаємо параметричної статистикою, оскільки її основний об'єкт вивчення - це вибірки з розподілів, описуваних одним або невеликим числом параметрів. Найбільш загальним є сімейство кривих Пірсона, що задаються чотирма параметрами. Як правило, не можна вказати будь-яких вагомих причин, за якими конкретний розподіл результатів спостережень має входити в те чи інше параметричне сімейство (докладніше див початок голови 4). Винятки добре відомі: якщо імовірнісна модель передбачає підсумовування незалежних випадкових величин, то суму природно описувати нормальним розподілом; якщо ж у моделі розглядається твір таких величин, то підсумок, мабуть, наближається логарифмічно нормальним розподілом, і т.д. Однак у переважній більшості реальних ситуацій подібних моделей немає, і наближення реального розподілу за допомогою кривих з сімейства Пірсона або його підродин - чисто формальна операція.
Саме з таких міркувань критикував параметричну статистику академік АН СРСР С.М. Бернштейн в 1927 р. у своїй доповіді на Всеросійському з'їзді математиків [5]. Однак ця теорія, на жаль, до цих пір залишається основою викладання статистичних методів і продовжує використовуватися основною масою прикладників, що залишаються далекими від нових віянь в статистиці. Чому так відбувається? Щоб спробувати відповісти на це питання, звернемося до однієї з статистичних наук - наукометріі, в якій статистичними методами аналізується розвиток наукових досліджень.
Наукометрія прикладної статистики. Проведений кілька років тому аналіз прикладної статистики як галузі науково-практичної діяльності (в рамках руху за створення Всесоюзної статистичної асоціації, заснованої в 1990 р.) показав, зокрема, що актуальними для фахівців в даний час є не менш ніж 100 тисяч публікацій (докладніше див статті [6,7]). Реально ж кожен з них знайомий з істотно меншою кількістю книг і статей. Так, в найбільш солідному і обширному з наукових видань у галузі економетрики та прикладної статистики - тритомнику Кендалла і Стьюарт [8-10] всього близько 2 тисяч літературних посилань. При всій очевидності міркувань про багаторазове дублювання цінних ідей в різних публікаціях доводиться визнати, що кожен фахівець з економетрики та прикладної статистики володіє лише невеликою частиною накопичених у цій галузі знань. Не дивно, що доводиться постійно стикатися з ігноруванням або повторенням раніше отриманих результатів, з відходом в тупикові (з точки зору практики) напрями досліджень, з безпорадністю при зверненні до реальних даних, і т.д. Все це - один із проявів адапціонного механізму гальмування розвитку науки, яка виявляється не в змозі навіть осмислити раніше отримані результати. Про це сумному явище ще більше 30 років тому писали В. В. Налімов та інші науковознавці (див., наприклад, [11]).
Традиційний забобон полягає в тому, що кожен новий результат, отриманий дослідником - це цегла, вкладений в безупинно зростаюче будинок науки, який неодмінно буде проаналізовано і використаний науковим співтовариством. Реальна ситуація - зовсім інша. Як відомо, більшість книг в центральних бібліотеках ніхто ніколи не читав. Так що з новим результатом, швидше за все, познайомляться лише кілька людей, та й то поверхово, а використовувати його будуть, в кращому разі, сам автор у подальших роботах і його учні.
Основа професійних знань економіста, менеджера, дослідника та інженера закладається в період навчання. Потім вони поповнюються в тому вузькому напрямі, в якому працює спеціаліст. Наступний етап - їх тиражування новому поколінню. У результаті вузівські підручники відстоять від сучасного розвитку на десятки років. Так, підручники з математичної статистики, за нашою експертною оцінкою, в основному відповідають 40-60-х років ХХ ст. А тому тим же років відповідає за своїм науковим і методологічного рівня більшість знову публікованих досліджень і тим більше - прикладних робіт. Одночасно доводиться визнати, що результати, яким не пощастило, оскільки вони не увійшли до підручників, незалежно від їх наукової та (або) прикладної цінності майже всі забуваються.
Активно продовжується розвиток тупикових напрямків. Психологічно це зрозуміло. Наведу приклад з свого досвіду. Свого часу на замовлення Держстандарту я розробив методи оцінки параметрів гамма-розподілу (див. державний стандарт [12]. Тому мені близькі і цікаві роботи з оцінювання параметрів за вибірками з розподілів, що належать тим чи іншим параметричним домами, поняття функції максимального правдоподібності, ефективності оцінок, використання нерівності Рао-Крамера і т.д. На жаль, я знаю, що це - тупикова гілка, оскільки реальні дані не підпорядковуються яких-небудь параметричним домами, треба застосовувати інші статистичні методи, про які йтиметься нижче. Зрозуміло, що фахівцям з параметричної статистики, які витратили багато років на вдосконалення в своїй області, психологічно важко погодитися з подібним твердженням. У тому числі і мені було важко перейти на іншу позицію, відображену в цій книзі і витікаючу з потреб прикладних робіт.

Точки зростання
Вітчизняна література з економетрики та прикладної статистики настільки ж неозора, як і світова. Тільки в секції "Математичні методи дослідження" журналу "Заводська лабораторія" з 1960-х років опубліковано більше 1000 статей. Не будемо навіть намагатися перераховувати колективи дослідників чи основні монографії в цій області. Зазначимо лише одне видання. На нашу думку, найкращою вітчизняною книгою з прикладної статистики є збірка статистичних таблиць Л.М. Большева і Н. В. Смирнова [13] з докладними коментарями, що грають роль стисненого підручника і довідника.
Основна мета цієї глави - виділити і обговорити "точки зростання" економетрики та прикладної статистики, ті їх напрями, які представляються перспективними в майбутньому, у XXI столітті, але поки що в більшості навчальних видань відсунуті на задній план традиційними постановками.
При описі сучасного етапу розвитку економетричних та статистичних методів доцільно виділити п'ять актуальних напрямів, в яких розвивається сучасна прикладна статистика, тобто п'ять "точок зростання": непараметріка (тобто непараметричні статистика), робастність, бутстреп, статистика інтервальних даних, статистика нечислових даних (у дещо іншій термінології - статистика об'єктів нечислової природи). Обговоримо їх.
Непараметричні статистика (див. також розділ 4). У першій третині ХХ ст., Одночасно з параметричною статистикою, в роботах Спірмена і Кендалла з'явилися перші непараметричні методи, засновані на коефіцієнтах рангової кореляції, що носять нині імена цих статистиків. Але непараметріка, не робить нереалістичних припущень про те, що функції розподілу результатів спостережень належать тим чи іншим параметричним домами розподілів, стала помітною частиною статистики лише з другої третини ХХ століття. У 30-і роки з'явилися роботи А. М. Колмогорова і Н. В. Смирнова, що запропонували і вивчили статистичні критерії, що носять в даний час їх імена. Ці критерії засновані на використанні так званого емпіричного процесу. (Як відомо, емпіричний процес - це різниця між емпіричної і теоретичної функціями розподілу, помножена на квадратний корінь з обсягу вибірки.) У роботі А. Н. Колмогорова 1933 вивчено граничне розподіл Супремум модуля емпіричного процесу, званого зараз критерієм Колмогорова. Потім Н.В. Смирнов досліджував Супремум і інфімум емпіричного процесу, а також інтеграл (з теоретичної функції розподілу) квадрата емпіричного процесу.
Слід зазначити, що зустрічається іноді в літературі словосполучення "критерій Колмогорова-Смирнова" некоректно, оскільки ці два статистика ніколи не друкувалися разом і не вивчали один і той же критерій схожими методами. Коректно поєднання "критерій типу Колмогорова-Смирнова", що застосовується для позначення критеріїв, заснованих на використанні Супремум функцій від емпіричного процесу.
Після другої світової війни розвиток непараметричної статистики пішло швидкими темпами. Велику роль зіграли роботи Ф. Вілкоксона і його школи. До теперішнього часу за допомогою непараметричних методів можна вирішувати практично те ж коло статистичних завдань, що і за допомогою параметричних. Однак для забезпечення широкого впровадження непараметричних методів необхідно провести ще цілий комплекс теоретичних та пілотних (тобто пробних) прикладних робіт. Все більшу роль відіграють непараметричні оцінки щільності, непараметричні методи регресії і розпізнавання образів (дискримінантного аналізу). У нашій країні непараметричні методи отримали чималу популярність після виходу в 1965 р. першого видання згаданого вище збірника статистичних таблиць Л.М. Большева і Н. В. Смирнова [13], що містить докладні таблиці для основних непараметричних критеріїв.
Тим не менш параметричні методи все ще популярнішим непараметричних, особливо серед тих прикладників, хто слабо знайомий зі статистичними методами. Неодноразово публікувалися (див. початок гл.4) експериментальні дані, що свідчать про те, що розподілу реально спостережуваних випадкових величин, зокрема, помилок вимірювання, в переважній більшості випадків відмінні від нормальних (гауссовских). Тим не менш теоретики продовжують будувати і вивчати статистичні моделі, засновані на гауссовой, а практики - застосовувати подібні методи і моделі. Іншими словами, "шукають під ліхтарем, а не там, де втратили".
Стійкість статистичних процедур (робастність) (див. також розділ 10). Якщо в параметричних постановках на даних накладаються занадто жорсткі вимоги - їх функції розподілу повинні належати певному параметричному сімейства, то в непараметричних, навпаки, надмірно слабкі - потрібно лише, щоб функції розподілу, були безперервні. При цьому ігнорується апріорна інформація про те, який "приблизний вигляд" розподілу. Апріорі можна очікувати, що облік цього "зразкового виду" поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастності) статистичних процедур, в якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. За кордоном цю теорію розробляли П. Хубер, Ф. Хампель і багато інших. З монографій російською мовою, котрі тлумачать про робастності і стійкості статистичних процедур, самій ранній і найбільш загальна була книга [14], наступної - монографія [15]. Приватними випадками реалізації ідеї робастності (стійкості) статистичних процедур є статистика об'єктів нечислової природи (див. розділ 8) і статистика інтервальних даних (див. розділ 3) ..
Є велика різноманітність моделей робастності в залежності від того, які саме відхилення від заданого параметричного сімейства допускаються. Серед теоретиків найбільш популярною виявилася модель викидів, в якій вихідна вибірка "засмічується" малим числом "викидів", що мають принципово інше розподіл. Однак ця модель представляється "тупиковою", оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу або інтервалу зміни вимірюваної величини, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, в подібних моделях зазвичай вважається відомої частота засмічення, що в поєднанні зі сказаним вище робить їх малопридатними для практичного використання.
Більш перспективним видається, наприклад, модель малих відхилень розподілів, в якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини, і модель статистики інтервальних даних.
Бутстреп (розмноження вибірок) (див. також розділ 11). Інша із згаданих вище напрямків - бутстреп - пов'язано з інтенсивним використанням можливостей обчислювальної техніки. Основна ідея полягає в тому, щоб теоретичне дослідження замінити обчислювальним експериментом. Замість опису вибірки розподілом з параметричного сімейства будуємо велику кількість "схожих" вибірок, тобто "Розмножуємо" вибірку. Потім замість оцінювання характеристик (і параметрів) і перевірки гіпотез на основі властивостей теоретичного розподілу вирішуємо ці завдання обчислювальним методом, розраховуючи цікавлять нас статистики по кожній з "схожих" вибірок і аналізуючи отримані при цьому розподілу. Наприклад, замість того, щоб теоретичним шляхом знаходити розподіл статистики, довірчі інтервали та інші характеристики, моделюють велике число вибірок, схожих на вихідну, потім розраховують відповідні значення цікавить дослідника статистики і вивчають їх емпіричне розподіл. Квант цього розподілу задають довірчі інтервали, і т.д.
Термін "бутстреп" миттєво отримав широку популярність після першої ж статті Б. Ефрона 1979 р. по цій тематиці. Він відразу ж став обговорюватися в масі публікацій, в тому числі і науково-популярних. У "Заводський лабораторії" № 10 за 1987 р. була поміщена підбірка статей по бутстреп. Російською мовою випущено збірник статей Б. Ефрона [16]. Основна ідея бутстреп за Б. Ефрон полягає в тому, що методом Монте-Карло (статистичних випробувань) багаторазово витягуються вибірки з емпіричного розподілу. Ці вибірки, природно, є варіантами вихідної, нагадують її.
Сама по собі ідея "розмноження вибірок" була відома набагато раніше. Одна зі статей Б. Ефрона у збірнику [16] називається так: "бутстреп-методи: новий погляд на метод складного ножа". Згаданий "метод складного ножа" (jackknife) запропонований М. Кену ще в 1949 р., за 30 років до появи статті Б. Ефрона. "Розмноження вибірок" при цьому здійснюється шляхом виключення одного спостереження. Таким чином для вибірки обсягу n отримуємо n "схожих" на неї вибірок обсягу (n - 1) кожна. Якщо ж виключати по 2 спостереження, то число "схожих" вибірок зростає до n (n - 1) / 2 об'єму (n - 2) кожна.
Переваги та недоліки бутстреп як статистичного методу обговорювалися в розділі 11 вище. Там же наводиться інформація про низку аналогічних методів. Необхідно підкреслити, що бутстреп по Ефрон - лише один з варіантів методів "розмноження вибірки" (resampling), і, на наш погляд, не найвдаліший. Метод "складного ножа" видається більш корисним. На його основі можна сформулювати наступну просту практичну рекомендацію.
Припустимо, що Ви за вибіркою робите які-небудь статистичні висновки. Ви хочете дізнатися також, наскільки ці висновки стійкі. Якщо у Вас є інші (контрольні) вибірки, що описують те ж явище, то Ви можете застосувати до них ту ж статистичну процедуру і порівняти результати. А якщо таких вибірок ні? Тоді Ви можете їх побудувати штучно. Берете вихідну вибірку і виключаєте один елемент. Отримуєте схожу вибірку (вона взята з того ж розподілу, тільки обсяг на одиницю менше). Потім повертаєте цей елемент вибірки і виключаєте інший. Отримуєте другу схожу вибірку. Поступивши таким чином з усіма елементами вихідної вибірки, отримуєте стільки вибірок, схожих на вихідну, який її обсяг. Залишається обробити їх тим же способом, що і вихідну, і вивчити стійкість одержуваних висновків - розкид оцінок параметрів, частоти прийняття або відхилення гіпотез і т.д.
Можна змінювати не вибірку, а самі дані. Оскільки завжди є похибки вимірювання, то реальні дані - це не числа, а інтервали (результат вимірювання плюс-мінус похибка). Потрібна статистична теорія аналізу таких даних.
Статистика інтервальних даних (див. також розділ 9). Перспективне і швидко розвивається напрямок останніх років - прикладна математична статистика інтервальних даних. Мова йде про розвиток методів математичної статистики в ситуації, коли статистичні дані - не числа, а інтервали, зокрема, породжені накладенням помилок вимірювання на значення випадкових величин.
Статистика інтервальних даних ідейно пов'язана з інтервальної математикою, в якій в ролі чисел виступають інтервали. Цей напрямок математики є подальшим розвитком всім відомих правил наближених обчислень, присвячених висловом похибок суми, різниці, твори, приватного через похибки тих чисел, над якими здійснюються перераховані операції. До теперішнього часу вдалося вирішити, зокрема, ряд задач теорії інтервальних диференціальних рівнянь, в яких коефіцієнти, початкові умови та рішення описуються за допомогою інтервалів.
Одна з провідних наукових шкіл у галузі статистики інтервальних даних - це школа проф. А.П. Вощинін, що активно працює з кінця 70-х років. Зокрема, вивчені проблеми регресійного аналізу, планування експерименту, порівняння альтернатив та прийняття рішень в умовах інтервальної невизначеності.
Розглянемо інший напрям в статистиці інтервальних даних, яке також є перспективним. У ньому розвиваються асимптотичні методи статистичного аналізу інтервальних даних при великих обсягах вибірок і малих погрішності вимірів. На відміну від класичної математичної статистики, спочатку спрямовується до нескінченності обсяг вибірки і тільки потім - зменшуються до нуля похибки. Зокрема, за допомогою такої асимптотики були сформульовані правила вибору методу оцінювання параметрів гамма-розподілу в ГОСТ 11.011-83 [12].
У рамках розглянутого наукового напрямку, розроблена загальна схема дослідження, що включає розрахунок нотних (максимально можливого відхилення статистики, викликаного интервальности вихідних даних) і раціонального обсягу вибірки (перевищення якого не дає істотного підвищення точності оцінювання). Вона застосована до оцінювання математичного сподівання, дисперсії, коефіцієнта варіації, параметрів гамма-розподілу і характеристик адитивних статистик, при перевірці гіпотез про параметри нормального розподілу, в т.ч. за допомогою критерію Стьюдента, а також гіпотези однорідності за допомогою критерію Смирнова. Розроблено підходи до розгляду інтервальних даних в основних постановках регресійного, дискримінантного та кластерного аналізів. Зокрема, вивчено вплив похибок вимірювань і спостережень на властивості алгоритмів регресійного аналізу, розроблені способи розрахунку нотні та раціональних обсягів вибірок, введені та досліджені нові поняття багатомірних і асимптотичних нотні, доведені відповідні граничні теореми. Розпочато розробку інтервального дискримінантного аналізу, зокрема, розглянуто вплив интервальности даних на введений в розділі 5 показник якості класифікації. Вивчено асимптотичну поведінку оцінок методу моментів і оцінок максимальної правдоподібності (а також більш загальних - оцінок мінімального контрасту), проведено асимптотичну порівняння цих методів у випадку інтервальних даних. Знайдено загальні умови, при яких, на відміну від класичної математичної статистики, метод моментів дає більш точні оцінки, ніж метод максимальної правдоподібності.
В області асимптотичної математичної статистики інтервальних даних російська наука має світовий пріоритет. Розгортання робіт по розглянутій тематиці дозволить закріпити цей пріоритет, отримати теоретичні результати, основоположні в новій галузі математичної статистики і необхідні для обгрунтованого статистичного аналізу майже всіх типів даних. З часом в усі види статистичного програмного забезпечення повинні бути включені алгоритми інтервальної статистики, "паралельні" звичайно використовуваним алгоритмам прикладної математичної статистики. Це дозволить в явному вигляді врахувати наявність похибок у результатів спостережень, зблизити позиції метрологів і статистиків.
Статистика об'єктів нечислової природи як частина прикладної статистики. Відповідно до загальноприйнятої в даний час класифікації статистичних методів прикладна статистика ділиться на наступні чотири області:
статистика (числових) випадкових величин (див. розділ 4),
багатомірний статистичний аналіз (див. Розділ 5),
статистика тимчасових рядів і випадкових процесів (див. розділ 6),
статистика об'єктів нечислової природи (див. розділ 8),.
Перші три з цих областей є класичними. Вони були добре відомі ще в першій половині ХХ ст. Зупинимося на четвертій, порівняно недавно ввійшла в масову свідомість фахівців. Її називають також статистикою нечислових даних або просто нечислової статистикою. Аналіз динаміки розвитку економетрики та прикладної статистики приводить до висновку, що в XXI ст. вона стане центральною областю прикладної статистики, оскільки містить найбільш загальні підходи і результати.
Вихідний об'єкт у прикладній математичній статистиці - це вибірка. У ймовірнісної теорії статистики вибірка - це сукупність незалежних однаково розподілених випадкових елементів. Яка природа цих елементів? У класичній математичній статистиці елементи вибірки - це числа. У багатовимірному статистичному аналізі - вектора. А в нечислової статистикою елементи вибірки - це об'єкти нечислової природи, які не можна складати і множити на числа. Іншими словами, об'єкти нечислової природи лежать у просторах, що не мають векторної структури.
Прикладами об'єктів нечислової природи є (докладніше див розділ 8):
значення якісних ознак, тобто результати кодування об'єктів за допомогою заданого переліку категорій (градацій);
впорядкування (ранжування) експертами зразків продукції (при оцінці її технічного рівня та конкурентоспроможності)) або заявок на проведення наукових робіт (при проведенні конкурсів на виділення грантів);
класифікації, тобто розбиття об'єктів на групи схожих між собою (кластери);
толерантності, тобто бінарні відношення, що описують подібність об'єктів між собою, наприклад, подібності тематики наукових робіт, що оцінюється експертами з метою раціонального формування експертних рад всередині певної галузі науки;
результати парних порівнянь або контролю якості продукції за альтернативною ознакою ("придатний" - "шлюб"), тобто послідовності з 0 і 1;
безлічі (звичайні або нечіткі), наприклад, зони, уражені корозією, або переліки можливих причин аварії, складені експертами незалежно один від одного;
слова, пропозиції, тексти;
вектора, координати яких - сукупність значень різнотипних ознак, наприклад, результат складання статистичного звіту про науково-технічної діяльності (т.зв. форма № 1-наука) або заповнена комп'ютеризована історія хвороби, в якій частина ознак носить якісний характер, а частина - кількісний ;
відповіді на питання експертної, маркетингової чи соціологічної анкети, частина з яких носить кількісний характер (можливо, інтервальний), частина зводиться до вибору однієї з кількох підказок, а частина є тексти, і т.д.
Інтервальні дані (див. вище) теж можна розглядати як приклад об'єктів нечислової природи, а саме, як окремий випадок нечітких множин.
З початку 70-х років під впливом запитів прикладних досліджень у соціально-економічних, технічних, медичних науках в Росії активно розвивається статистика об'єктів нечислової природи, відома також як статистика нечислових даних або нечислової статистика. У створенні цієї порівняно нової області економетрики та прикладної математичної статистики пріоритет належить російським ученим.
Велику роль відіграв заснований у 1973 р. науковий семінар "Експертні оцінки і аналіз даних". У 60-і роки радянський наукове співтовариство стало цікавитися методами експертних оцінок (про їхню історію та сучасний стан див. розділ 12). Як наслідок, почалося знайомство з конкретними математизувати теоріями, пов'язаними з цими методами. Мова йде про репрезентативну теорії вимірювань, що стала відомою в нашій країні за статтею П. Суппеса і Дж.Зінеса у збірнику [17] і книзі І. Пфанцагля [18], про теорію нечіткості, сучасний етап якої розпочався з робіт Л. А. Заде [19], теорії парних порівнянь, описаної в монографії Г. Девіда [20]. До цього кола ідей примикають теорія випадкових множин (див., наприклад, книгу Ж. Матерона [21]) та методи багатовимірного шкалювання (описані, зокрема, в монографіях А. Ю. Терьохін [22] і В. Т. Перехрест [23 ]). Але найбільший вплив зробили ідеї Дж.Кемені, який аксіоматично ввів відстань між ранжировками (тепер воно іменується в літературі відстанню Кемені) і запропонував використовувати в якості середньої величини рішення оптимізаційної задачі (тепер - медіана Кемені). Його скромна книжка [24], написана у співавторстві з Дж.Снеллом, породила великий потік досліджень.
Протягом 70-х років на основі запитів теорії експертних оцінок (а також соціології, економіки, техніки і медицини) розвивалися конкретні напрямки статистики об'єктів нечислової природи. Були встановлені зв'язки між конкретними видами таких об'єктів, розроблені для них імовірнісні моделі (див. розділ 8). Наукові підсумки цього періоду підведені в монографіях [14,25,26]).
Наступний етап - виділення статистики об'єктів нечислової природи як самостійного напряму в економетрики та прикладної статистики, ядром якого є методи статистичного аналізу даних довільної природи. Програма розвитку цього нового наукового напрямку вперше була сформульована в статті [27]. Реалізація цієї програми була здійснена в 80-і роки. Для робіт цього періоду характерна зосередженість на внутрішніх проблемах нечислової статистики. Посилання на конкретні монографії, збірники, статті та інші публікації декількох десятків авторів приведені в розділі 8. Відзначимо лише збірник наукових статей [28], повністю присвячений нечислової статистиці.
До 90-х років статистика об'єктів нечислової природи з теоретичної точки зору була досить добре розвинена, основні ідеї, підходи і методи були розроблені та вивчені математично, зокрема, доведено досить багато теорем. Проте вона залишалася недостатньо апробованою на практиці. Це було пов'язано як з її порівняльної молодістю, так і з загальновідомими особливостями організації науки в 80-ті роки, коли були відсутні достатні стимули до того, щоб теоретики зайнялися широким впровадженням своїх результатів. І в 90-ті роки настав час від математико-статистичних досліджень перейти до застосування отриманих результатів на практиці.
Слід зазначити, що в статистиці об'єктів нечислової природи, як і в інших областях економетрики, прикладної математичної статистики і прикладної математики взагалі, одна і та ж математична схема може з успіхом застосовуватися і в технічних дослідженнях, і в менеджменті, і в економіці, і в геології, і в медицині, і в соціології, і для аналізу експертних оцінок, і в багатьох інших областях, а тому її краще всього формулювати і вивчати в найбільш загальному вигляді, для об'єктів довільної природи.
Основні ідеї статистики об'єктів нечислової природи. У чому принципова новизна нечислової статистики? Для класичної математичної статистики характерна операція додавання. При розрахунку вибіркових характеристик розподілу (вибіркове середнє арифметичне, вибіркова дисперсія та ін), в регресійному аналізі та інших областях цієї наукової дисципліни постійно використовуються суми. Математичний апарат - закони великих чисел, Центральна гранична теорема та інші теореми - націлені на вивчення сум. У нечислової ж статистикою не можна використовувати операцію складання, оскільки елементи вибірки лежать у просторах, де немає операції додавання. Методи обробки нечислових даних засновані на принципово іншому математичному апараті - на застосуванні різних відстаней у просторах об'єктів нечислової природи.
Коротко розглянемо кілька ідей, що розвиваються в статистиці об'єктів нечислової природи для даних, що лежать в просторах довільного виду. Вирішуються класичні задачі опису даних, оцінювання, перевірки гіпотез - але для некласичних даних, а тому некласичними методами.
Першою обговоримо проблему визначення середніх величин. У рамках репрезентативною теорії вимірювань вдається вказати вид середніх величин, що відповідають тим чи іншим шкалами вимірювання (див. розділ 3). У класичній математичній статистиці середні величини вводять за допомогою операцій додавання (вибіркове середнє арифметичне, математичне очікування) або впорядкування (вибіркова і теоретична медіани). У просторах довільної природи середні значення не можна визначити за допомогою операцій додавання або впорядкування. Теоретичні та емпіричні середні доводиться вводити як рішення екстремальних задач. Для теоретичного середнього це - завдання мінімізації математичного очікування (в класичному розумінні) відстані від випадкового елемента зі значеннями в розглянутому просторі до фіксованої точки цього простору (мінімізується зазначена функція від цієї точки). Для емпіричного середнього математичне сподівання береться по емпіричному розподілу, тобто береться сума відстаней від деякої точки до елементів вибірки і потім мінімізується по цій крапці. При цьому як емпіричне, так і теоретичне середні як рішення екстремальних задач можуть бути не єдиним елементом простору, а складатися з безлічі таких елементів, яке може виявитися і порожнім. Проте вдалося сформулювати і довести закони великих чисел для середніх величин, визначених зазначеним чином, тобто встановити збіжність емпіричних середніх до теоретичних.
Виявилося, що методи докази законів великих чисел допускають істотно більш широку область застосування, ніж та, для якої вони були розроблені. А саме, вдалося вивчити асимптотики рішень екстремальних статистичних завдань, до яких, як відомо, зводиться більшість постановок прикладної статистики. Зокрема, крім законів великих чисел встановлена ​​і спроможність оцінок мінімального контрасту, в тому числі оцінок максимальної правдоподібності і робастних оцінок. До теперішнього часу подібні оцінки вивчені також і в інтервальної статистиці.
У статистиці у просторах довільної природи велику роль відіграють непараметричні оцінки щільності, що використовуються, зокрема, в різних алгоритмах регресійного, дискримінантного, кластерного аналізів. У нечислової статистикою запропонований і вивчений ряд типів непараметричних оцінок щільності у просторах довільної природи, зокрема, доведено їх спроможність, вивчена швидкість збіжності і встановлений примітний факт збігу найкращої швидкості збіжності в кожному разі з тією, яка має бути в класичній теорії для числових випадкових величин .
Дискримінантний, кластерний, регресійний аналізи у просторах довільної природи засновані або на параметричної теорії - і тоді застосовується підхід, пов'язаний з асимптотики рішення екстремальних статистичних завдань - або на непараметричної теорії - і тоді використовуються алгоритми на основі непараметричних оцінок щільності.
Для перевірки гіпотез можуть бути використані статистики інтегрального типу, зокрема, типу омега-квадрат. Цікаво, що гранична теорія таких статистик, побудована спочатку в класичній постановці [29], придбала природний (завершений, витончений) вид саме для просторів довільного виду [30], оскільки при цьому вдалося провести міркування, спираючись на базові математичні співвідношення, а не на ті приватні (із загальної точки зору), що були пов'язані з конечномірні простором.
Становлять практичний інтерес результати, пов'язані з конкретними областями статистики об'єктів нечислової природи, зокрема, зі статистикою нечітких множин, розвиненою в книзі [31], і зі статистикою випадкових множин [14] (слід відзначити, що теорія нечітких множин в певному сенсі зводиться до теорії випадкових множин [14,31]), з непараметричної теорією парних порівнянь, з аксіоматичним введенням метрик у конкретних просторах об'єктів нечислової природи [28], і з рядом інших конкретних постановок (див. розділ 8).
Для аналізу нечислових, зокрема, експертних даних вельми важливі методи класифікації. З іншого боку, найбільш природно ставити і вирішувати задачі класифікації, засновані на використанні відстаней або показників відмінності, в рамках статистики об'єктів нечислової природи. Це стосується як розпізнавання образів з учителем (іншими словами, дискримінантного аналізу), так і розпізнавання образів без вчителя (тобто кластерного аналізу). Сучасний стан дискримінантного і кластерного аналізу з точки зору статистики об'єктів нечислової природи відображено в розділі 5.
Статистичні методи аналізу нечислових даних особливо добре пристосовані для застосування в економіці, соціології та експертних оцінках, оскільки в цих областях від 50% до 90% даних є нечисловими.
Інші точки росту. Вище розглянуті п'ять "точок зростання" економетрики та прикладної статистики. Зрозуміло, вони не вичерпують все різноманіття фронту наукових досліджень в розглянутих областях. Крім того, у цій главі майже не зачеплені різноманітні застосування економетричних та статистичних методів у конкретних прикладних дослідженнях і розробках. Багато цікавих проблем є в плануванні експериментів, особливо кінетичних (див., наприклад, статтю [31]), при аналізі проблем надійності, в нових статистичних методах управління якістю продукції (див. розділ 13), в тому числі у зв'язку з ідеями Г. Тагуті, при аналізі ризиків (див. розділ 14), у питаннях екології та безпеки та ін
Протягом останніх більш ніж 60 років у Росії спостерігається величезний розрив між державною статистикою і науковим співтовариством фахівців за статистичними методами (докладніше про це див статтю [7]). У підручнику з історії статистики [32] навіть не згадуються імена членів-кореспондентів АН СРСР М. В. Смирнова і Л.М. Большева! Але ж вони - єдині представники саме математичної статистики як такої в Академії наук у ХХ ст. (Ще ряд членів Академії наук мали математичну статистику серед своїх інтересів, але Н. В. Смирнов та Л. Н. більше займалися практично тільки нею). Тому немає нічого дивного в тому, що тенденції розвитку сучасної економетрики та прикладної математичної статистики настільки ж мало обговорюються вітчизняними авторами, як і її історія.
Про деякі невирішені питання економетрики та прикладної статистики
 
За останні 30 років виявився цілий ряд невирішених питань економетрики та прикладної статистики, як суто наукових, так і науково-організаційних. Обговоримо п'ять з них:
вплив відхилень від традиційних передумов (ймовірнісно-статистичних моделей) на властивості економетричних та статистичних процедур;
виправданість використання асимптотичних теоретичних результатів економетрики та прикладної математичної статистики при кінцевих обсягах вибірок;
формулювання й обгрунтування правил вибору одного з багатьох критеріїв для перевірки конкретної гіпотези;
конкретні способи організації теоретичних робіт в області економетрики та прикладної математичної статистики;
організація та проведення прикладних робіт з використанням методів економетрики та прикладної математичної статистики.
Цей розділ аж ніяк не претендує на вирішення перелічених питань. Його мета набагато скромніша - звернути увагу на існування ряду невирішених питань в надії, що колективними зусиллями вдасться просунутися в їх вирішенні.
Вплив відхилень від традиційних передумов. У ймовірнісної теорії статистичних методів вибірка звичайно моделюється як кінцева послідовність незалежних однаково розподілених випадкових величин або векторів. Часто передбачається, що ці величини (вектора) мають нормальний розподіл.
На основі сформульованих класичних передумов побудовано величезний будинок класичної математичної статистики з великим числом теорем. Воно за останні 100 років обросло горою підручників і програмних продуктів.
Однак при уважному погляді абсолютно ясна нереалістичність класичних передумов. Незалежність результатів вимірювань зазвичай приймається "із загальних припущень", тим часом у багатьох випадках очевидна їх коррелированность [33]. Однакова розподіленість також викликає сумніви через зміни в часі властивостей вимірюваних зразків, засобів вимірювання та психофізичного стану спеціалістів, які проводять вимірювання (спостереження, випробування, аналізи, досліди). Навіть обгрунтованість самої можливості застосування імовірнісних моделей також часто викликає сумніви, наприклад, при моделюванні унікальних вимірювань (теорію ймовірностей зазвичай залучають при вивченні масових явищ). І вже зовсім рідко розподілу результатів вимірів можна вважати нормальними (див. розділ 4).
Отже, методи класичної математичної статистики зазвичай використовують поза сферою їх обгрунтованої застосовності. Який вплив відхилень від традиційних передумов на статистичні висновки? В даний час про це є лише уривчасті відомості. Наведемо три приклади.
Приклад 1. Побудова довірчого інтервалу для математичного очікування зазвичай проводять з використанням розподілу Стьюдента (при справедливості гіпотези нормальності). Як випливає з Центральної Граничною Теореми (ЦПТ) теорії ймовірностей, в асимптотики (при великому обсязі вибірки) такі розрахункові методи дають правильні результати. А саме, з ЦПТ випливає використання квантиль нормального розподілу, а з класичної теорії - квантиль розподілу Стьюдента, але при зростанні обсягу вибірки квантами розподілу Стьюдента прагнуть до відповідних квантиль нормального розподілу.
Приклад 2. Для перевірки однорідності двох незалежних вибірок (насправді - для перевірки рівності математичних очікувань) зазвичай рекомендують використовувати двухвиборочний критерій Стьюдента. Що буде у разі відхилення від нормальності розподілів, з яких взяті вибірки? Якщо обсяги вибірок рівні або якщо дисперсії результатів спостережень у вибірках збігаються, то в асимптотики (коли обсяги вибірок безмежно зростають) класичний метод є коректним. Якщо ж обсяги вибірок істотно відрізняються і їх дисперсії різні, то двухвиборочную статистику Стьюдента застосовувати не можна. Оскільки перевірка рівності дисперсій - складніше завдання, ніж перевірка рівності математичних сподівань, то для вибірок різного обсягу використовувати двухвиборочную статистику Стьюдента не слід, краще застосовувати критерій Крамера-Уелча, як це докладно обгрунтовано в розділі 4.
Приклад 3. У задачі відбракування (виключення) різко виділяються спостережень (викидів) розрахункові методи, засновані на нормальності, є вкрай нестійкими по відношенню до відхилень від нормальності, що повністю позбавляє ці методи наукової обгрунтованості (докладніше див розділ 4).
Приклади 1-3 показують весь спектр можливих властивостей класичних розрахункових методів у випадку відхилення від нормальності. Методи прикладу 1 виявляються цілком придатними за таких відхиленнях, прикладу 2 - придатними в деяких випадках, приклад 3 - повністю непридатними.
Отже, є необхідність вивчення властивостей розрахункових методів класичної математичної статистики, що спираються на припущення нормальності, в ситуаціях, коли це припущення не виконано. Апаратом для такого вивчення поряд з методом Монте-Карло (статистичних випробувань) можуть послужити граничні теореми теорії ймовірностей (і спираються на них асимптотичні методи математичної статистики), перш за все ЦПТ, оскільки нас цікавлять, розрахункові методи зазвичай використовують різноманітні суми.
Поки подібне вивчення не проведено, залишається неясною наукова цінність, наприклад, застосування факторного аналізу до векторів із змінних, що приймають невелике число градацій і до того ж виміряних в порядкової шкалою. Цей приклад показує важливість ще одного напрямку досліджень - вивчення властивостей алгоритмів, призначених для аналізу числових даних, у випадках, коли дані виміряні в шкалах, відмінних від абсолютної, зокрема, в порядкової шкалою. Детальніше це напрямок розглянуто в розділі 3.
З великого числа можливих постановок, що відносяться до вивчення впливу відхилень від традиційних передумов, вкажемо лише на те, що реальні дані мають невелике число значущих цифр (зазвичай від 2 до 5), в той час як у класичній математичній статистиці використовуються безперервні випадкові величини, для яких імовірність отримання подібного результату спостереження дорівнює 0. Дійсно, ймовірність того, що хоча б один елемент вибірки з розподілу з безперервною функцією розподіл потрапить в заданий рахункове безліч, зокрема, в безліч раціональних чисел, дорівнює 0 (згідно класичним властивостям ймовірнісної міри). Подіями, що мають ймовірність 0, прийнято нехтувати. Отже, з точки зору класичної математичної статистики будь-якими реальними даними потрібно знехтувати! Виходів із цього парадоксу декілька. Один з них - бурхливо розвивається в даний час статистика інтервальних даних (див. розділ 9), інший - використання класичних поправок Шеппарда для згрупованих даних [34,35]. Тут ще багато роботи. Так, навіть для такого широко використовуваного статистичного показника, як коефіцієнт кореляції, поправки на угрупування (поправки Шеппарда) були отримані порівняно недавно - лише в 1980 р. [35].
Чому на перший план висунуто вивчення класичних алгоритмів, а не побудова нових, спеціально призначених для роботи в умовах відхилення від класичних передумов? По-перше, тому, що класичні алгоритми в даний час найбільш поширені (завдяки сформованій системі освіти як прикладників, так і математиків). По-друге, більш нові підходи часто методологічно уразливі. Так, відома робастної модель засмічення Тьюкі-Хубера (див. розділ 10) націлена на боротьбу з великими викидами, які часто фізично неможливі через обмеженість інтервалу можливих значень вимірюваної характеристики, в якому працює конкретний засіб вимірювання. Отже, модель Тьюкі-Хубера має скоріше теоретичне значення, ніж практичне. Сказане, звичайно, не означає, що слід припинити розробку, вивчення та впровадження непараметричних і стійких методів, виділених вище як "точки зростання" сучасних економетрики та прикладної статистики.
Використання асимптотичних результатів при кінцевих обсягах вибірок. Як зазначено вище, вивчення класичних алгоритмів в багатьох випадках може бути проведено за допомогою асимптотичних методів математичної статистики, зокрема, за допомогою ЦПТ і методів спадкоємства збіжності [14, п.2.4]. Відрив класичної математичної статистики від потреб прикладних досліджень проявився, зокрема, в тому, що в поширених монографіях бракує математичного апарату, необхідного, зокрема, для вивчення двухвиборочних статистик. Суть в тому, що переходити до межі доводиться не по одному параметру, а по двох - обсягами двох вибірок. Довелося розробити відповідну теорію - теорію наслідування збіжності, викладену в монографії [14, п.2.4].
Однак застосовувати результати подібного вивчення доведеться при кінцевих обсягах вибірок. Виникає цілий букет проблем, пов'язаних з таким переходом. Частина з них обговорювалася в статті [37] у зв'язку з вивченням властивостей статистик, побудованих за вибірками з конкретних розподілів.
Однак під час обговорення впливу відхилень від вихідних припущень на властивості статистичних процедур виникають додаткові проблеми. Які відхилення вважати типовими? Орієнтуватися на найбільш "шкідливі" відхилення, найбільшою мірою спотворюють властивості алгоритмів, або ж зосередити увагу на "типових" відхиленнях?
При першому підході отримуємо гарантований результат, але "ціна" цього результату може бути надто високою. В якості прикладу вкажемо на універсальне нерівність Беррі-есе для похибки в ЦПТ [38,39]. Цілком справедливо підкреслює академік РАН А.А. Боровков [39, с, 172], що "швидкість збіжності в реальних задачах, як правило, виявляється краще."
При другому підході виникає питання, які відхилення вважати "типовими". Спробувати відповісти на це питання можна, аналізуючи великі масиви реальних даних. Цілком природно, що відповіді різних дослідницьких груп будуть відрізнятися.
Одна з помилкових ідей - використання при аналізі можливих відхилень тільки якого-небудь конкретного параметричного сімейства - розподілів Вейбулла-Гнеденко, трипараметричного сімейства гамма - розподілів та ін Як вже зазначалося вище, ще в 1927 р. акад. АН СРСР С.М. Бернштейн обговорював методологічну помилку, що складається в зведенні всіх емпіричних розподілів до чотирипараметричного сімейства Пірсона [5]. Однак і до цих пір параметричні методи статистики вельми популярні, особливо серед прикладників, і провина за це помилка лежить насамперед на викладачів статистичних методів.
Вибір одного з багатьох критеріїв для перевірки конкретної гіпотези. У багатьох випадках для вирішення конкретної практичної задачі розроблено багато методів, і фахівець із математичних методів дослідження стоїть перед проблемою: який з них запропонувати прикладнику для аналізу конкретних даних?
В якості прикладу розглянемо задачу перевірки однорідності двох незалежних вибірок. Як відомо [13], для її вирішення можна запропонувати масу критеріїв: Стьюдента, Крамера-Уелча, Лорда, хі - квадрат, Вілкоксона (Манна-Уітні), Ван - дер - Варден, Севіджа, Н. В. Смирнова, типу омега- квадрат (Лемана-Розенблатта), Г.В. Мартинова та ін Який вибрати?
Природним чином приходить в голову ідея "голосування": провести перевірку за багатьма критеріями, а потім прийняти рішення "по більшості голосів". З точки зору статистичної теорії така процедура призводить просто до побудови ще одного критерію, який апріорі нічим не краще колишніх (але і не гірше), але більш важкий для вивчення. З іншого боку, якщо збігаються рішення з усіх розглянутих статистичними критеріями, що походить із різних принципів, то відповідно до концепції стійкості, розвиненою в монографії [14], це підвищує довіру до отриманого загального рішення.
Поширене, особливо серед математиків, помилкове і шкідливе думку про необхідність пошуку оптимальних методів, рішень і т.д. Справа в тому, що оптимальність зазвичай зникає при відхиленні від вихідних передумов. Так, середнє арифметичне в якості оцінки математичного очікування є оптимальною оцінкою тільки тоді, коли вихідне розподіл - нормальне (див., наприклад, монографію [40]), в той час як заможної оцінкою - завжди, лише б математичне сподівання існувало. З іншого боку, для будь-якого довільно взятого методу оцінювання або перевірки гіпотез звичайно можна так сформулювати поняття оптимальності, щоб розглянутий метод став оптимальним - з цією спеціально вибраної точки зору. Візьмемо, наприклад, вибіркову медіану як оцінку математичного очікування. Вона, зрозуміло, оптимальна, хоча і в іншому сенсі, ніж середнє арифметичне (оптимальне для нормального розподілу). А саме, для розподілу Лапласа вибіркова медіана є оцінкою максимального правдоподібності, а тому оптимальною - в тому сенсі, в якому оптимальною є будь-яка оцінка максимальної правдоподібності. Відповідне поняття оптимальності вимагає акуратних формулювань, воно суворо викладено в монографії [41]. Як відомо, оцінки максимальної правдоподібності зручні при теоретичних розглядах, а при аналізі конкретних економічних, технічних та інших даних слід застосовувати однокрокові оцінки (див. про це статтю [42]).
Критерії однорідності були проаналізовані в монографії проф. Я.Ю. Нікітіна [43]. Природних підходів до порівняння критеріїв кілька - на основі асимптотичної відносної ефективності по Бахадур, Ходжес - Леману, Пітмену. І з'ясувалося, що кожен критерій є оптимальним при відповідній альтернативі або відповідному розподілі на множині альтернатив. При цьому математичні викладки зазвичай використовують альтернативу зсуву, порівняно рідко зустрічається в практиці аналізу реальних статистичних даних (у зв'язку з критерієм Вілкоксона ця альтернатива обговорювалася в розділі 4). Підсумок сумний - блискуча математична техніка, продемонстрована в монографії [43], не дозволяє дати рекомендації для вибору критерію перевірки однорідності при аналізі реальних даних. Іншими словами, з точки зору роботи прикладники, тобто аналізу конкретних даних, монографія [43] марна. Блискуче володіння математикою і величезна працьовитість, продемонстровані автором цієї монографії, на жаль, нічого не принесли практиці.
Звичайно, кожен практично працює статистик так чи інакше вирішує для себе проблему вибору статистичного критерію. На основі ряду методологічних міркувань у розділі 4 ми зупинили свій вибір на спроможному проти будь-якої альтернативи критерії типу омега-квадрат (Лемана-Розенблатта). Однак залишається почуття незадоволеності у зв'язку з недостатньою теоретичною обгрунтованістю цього вибору.
Організація теоретичних робіт в області економетрики та прикладної статистики. Вище продемонстрована необхідність великої теоретичної роботи з розвитку націлених на практичне використання математичних методів дослідження. У статті [6] 1992 обгрунтований висновок про необхідність створення мережі науково-дослідних організацій, яка виконувала б таку роботу. Як відомо, кількість наукових працівників до теперішнього часу скоротилося принаймні в 3 рази в порівнянні з початком 1990-х років, так що на здійснення в найближчі роки сформульованої в [6] науково-організаційної програми сподіватися не доводиться.
Доводиться з жалем констатувати, що в рамках наукової спеціальності "теорія ймовірностей і математична статистика" спостерігається чітко виражене ігнорування проблем статистичного аналізу реальних даних і відхід в глиб узкоматематіческіх досліджень, які нічого не можуть дати практиці. Причини цього явища, типового для математичних дисциплін, обговорювалися вище. Тому немає підстав очікувати, що при "природному ході подій" будуть отримані істотні просування в розглянутих вище невирішених проблемах економетрики та прикладної математичної статистики.
Допомогти може виділення державними структурами системи грантів, спрямованих на підтримку робіт в області невирішених економетрики та прикладної математичної статистики. Принциповим кроком стало б виділення економетрики та прикладної математичної статистики як самостійних наукових напрямків, відмінних як від суто математичних дисциплін типу "теорії ймовірностей і математичної статистики", так і від, наприклад, гілки економічної теорії, відомої в офіційних колах під назвою "статистика".
Про прикладних роботах з використанням методів прикладної статистики. Проблеми організації теоретичних робіт в області економетрики та прикладної математичної статистики лише в перспективі важливі для практичної роботи. Як правило, ті, хто обробляє реальні дані, недостатньо обізнані з теоретичними основами алгоритмів і тим більше не стежать за подіями "на передньому краї" обговорюваної науково-методичної дисципліни. Це цілком природно, оскільки основна спеціальність у таких фахівців - інша.
Кілька огрубляя, можна сказати, що реально використовується тільки те, що є в підручниках і довідниках, у широко поширених програмних продуктах, а наукові публікації з точки зору прикладники представляють собою "інформаційний шум". Ситуація ускладнюється традиційним ненормальним становищем у вітчизняній статистиці [7], наявністю помилок у багатьох виданнях.
На жаль, навчальна і наукова література російською мовою (як, втім, і на інших мовах) з економетрики та прикладної статистики в цілому далека від досконалості, переповнена застарілими методологічними підходами і прямими помилками. До цих пір найкращим виданням залишаються "Таблиці математичної статистики" Л.М. Большева і Н. В. Смирнова [13], створені в 60-х роках.
Хоча студенти майже всіх спеціальностей вивчають в кінці курсу вищої математики розділ "теорія ймовірностей і математична статистика", реально вони знайомляться лише з деякими основними поняттями та результатами, яких явно не достатньо для практичної роботи. З деякими математичними методами дослідження студенти зустрічаються у спеціальних курсах (наприклад, таких, як "Прогнозування та техніко-економічне планування", "Техніко-економічний аналіз", "Контроль якості продукції", "Маркетинг", "Контролінг", "Математичні методи прогнозування "та ін), однак виклад у більшості випадків носить досить скорочений і рецептурний характер. У результаті переважну частину фахівців з економетрики, прикладної математичної статистики та їх застосування слід вважати самоучками.
Тому велике значення має введення в технічних вузах курсу "Прикладна математична статистика", а на економічних факультетах таких вузів - курсу «Економетрика», оскільки економетрика - це, як відомо, статистичний аналіз конкретних економічних даних (див. розділ 1). Це природно робити, наприклад, в рамках підпрограми "Технології підготовки кадрів для національної технологічної бази" федеральної цільової програми "Національна технологічна база". Природно, що курси "Прикладна математична статистика" і «Економетрика» повинні бути забезпечені відповідними підручниками і навчальними посібниками, методичними матеріалами та навчальними комп'ютерними системами.
Тільки через систему освіти можна підняти рівень масового застосування економетрики і прикладної статистики та скоротити відставання від "переднього краю" теорії. А це відставання в даний час складає не менше 20 (але й не більше 100) років.

Високі статистичні технології та економетрика
У цьому пункті детально обговорюється раніше введене поняття "високі статистичні технології". Розглядаються причини широкого розповсюдження застарілих і частково помилкових "низьких" статистичних технологій. Показано, що з усіх шляхів підвищення якості прикладних статистичних досліджень найбільш ефективним є розширення навчання "високим статистичними технологіям", в тому числі під ім'ям економетрики. Описаний досвід роботи Інституту високих статистичних технологій та економетрики МГТУ ім. Н.Е. Баумана.
Термін "високі технології" популярний у сучасній науково-технічній літературі. Він використовується для позначення найбільш передових технологій, що спираються на останні досягнення науково-технічного прогресу. Є такі технології і серед технологій статистичного аналізу даних - як у будь-який інтенсивно розвивається науково-практичній області.
Приклади високих статистичних технологій і входять до них алгоритмів аналізу даних, докладний аналіз сучасного стану та перспектив розвитку дані вище при обговоренні "точок зростання" економетрики як науково-практичної дисципліни. У якості "високих статистичних технологій" були виділені технології непараметричного аналізу даних; стійкі (робастні) технології; технології, засновані на розмноженні вибірок, на використанні досягнень статистики нечислових даних і статистики інтервальних даних.
Термін "високі статистичні технології". Обговоримо поки не цілком звичний термін "високі статистичні технології". Кожне з трьох слів несе своє смислове навантаження.
"Високі", як і в інших областях, означає, що статистична технологія спирається на сучасні досягнення статистичної теорії та практики, зокрема, теорії ймовірностей і прикладної математичної статистики. При цьому "спирається на сучасні наукові досягнення" означає, по-перше, що математична основа технології отримана порівняно недавно в рамках відповідної наукової дисципліни, по-друге, що алгоритми розрахунків розроблені та обгрунтовані відповідно до нею (а не є т.зв. "евристичними"). З часом, якщо нові підходи і результати не змушують переглянути оцінку застосовності і можливостей технології, замінити її на більш сучасну, "високі статистичні технології" переходять в "класичні статистичні технології", такі, як метод найменших квадратів. Отже, високі статистичні технології - плоди недавніх серйозних наукових досліджень. Тут два ключових поняття - "молодість" технології (у всякому разі, не старше 50 років, а краще - не старше 10 або 30 років) і опора на "високу науку".
Термін "статистичні" звичний, але роз'яснити його нелегко. У всякому разі, до діяльності Державного комітету РФ за статистикою високі статистичні технології відношення не мають. Як відомо, співробітники проф. В.В. Налімова зібрали понад 200 визначень терміна "статистика" [44]. Полеміка навколо термінології іноді приймає вельми гострі форми (див., наприклад, редакційні зауваження до статті [1], написані у стилі відомих висловлювань про генетику та кібернетиці кінця 1940-х років). Сучасне уявлення про термінологію в галузі теорії ймовірностей і математичної статистики відображено в Додатку 1 до цієї книзі, підготовленій на противагу поширеним помилкам і неточностей у цій галузі. Зокрема, з точки зору економетрики статистичні дані - це результати вимірювань, спостережень, випробувань, аналізів, дослідів, а "статистичні технології" - це технології аналізу статистичних даних.
Нарешті, рідко використовуваний стосовно до статистики термін "технології". Статистичний аналіз даних, як правило, включає в себе цілий ряд процедур і алгоритмів, що виконуються послідовно, паралельно або за більш складною схемою. Зокрема, можна виділити наступні етапи:
- Планування статистичного дослідження;
- Організація збору необхідних статистичних даних за оптимальною або хоча б раціональної програмі (планування вибірки, створення організаційної структури і підбір команди економетриком або статистиків, підготовка кадрів, які будуть займатися збором даних, а також контролерів даних тощо);
- Безпосередній збір даних та їх фіксація на тих чи інших носіях (з контролем якості збору і відбраковуванням помилкових даних з міркувань предметної області);
- Первинне опис даних (розрахунок різних вибіркових характеристик, функцій розподілу, непараметричних оцінок щільності, побудова гістограм, кореляційних полів, різних таблиць і діаграм і т.д.),
- Оцінювання тих чи інших числових або нечислових характеристик і параметрів розподілів (наприклад, непараметричне інтервальне оцінювання коефіцієнта варіації або відновлення залежності між відгуком і факторами, тобто оцінювання функції),
- Перевірка статистичних гіпотез (іноді їх ланцюжків - після перевірки попередньої гіпотези приймається рішення про перевірку тієї чи іншої подальшої гіпотези),
- Більш поглиблене вивчення, тобто застосування різних алгоритмів багатовимірного статистичного аналізу, алгоритмів діагностики та побудови класифікації, статистики нечислових та інтервальних даних, аналізу часових рядів та ін;
- Перевірка стійкості отриманих оцінок і висновків щодо допустимих відхилень вихідних даних і передумов використовуваних ймовірнісно-статистичних моделей, допустимих перетворень шкал вимірювання, зокрема, вивчення властивостей оцінок методом розмноження вибірок;
- Застосування отриманих статистичних результатів у прикладних цілях (наприклад, для діагностики конкретних матеріалів, побудови прогнозів, вибору інвестиційного проекту із запропонованих варіантів, знаходження оптимальних режиму здійснення технологічного процесу, підведення підсумків випробувань зразків технічних пристроїв тощо),
- Складання підсумкових звітів, зокрема, призначених для тих, хто не є фахівцями в економетричних та статистичних методах аналізу даних, в тому числі для керівництва - "осіб, які приймають рішення".
Можливі й інші структуризації статистичних технологій. Важливо підкреслити, що кваліфіковане і результативне застосування статистичних методів - це аж ніяк не перевірка одній окремо взятій статистичної гіпотези або оцінка параметрів одного заданого розподілу з фіксованого сімейства. Подібного роду операції - тільки окремі цеглинки, з яких складається будівля статистичної технології. Між тим підручники та монографії з статистикою зазвичай розповідають про окремі цеглу, але не обговорюють проблеми їх організації в технологію, призначену для прикладного використання.
Отже, процедура економетричного або статистичного аналізу даних - це інформаційний технологічний процес, іншими словами, та чи інша інформаційна технологія. Статистична інформація піддається різноманітним операціям (послідовно, паралельно або за більш складними схемами). В даний час про автоматизацію всього процесу статистичного аналізу даних говорити було б несерйозно, оскільки є дуже багато невирішених проблем, що викликають дискусії серед статистиків. "Експертні системи" в сфері статистичного аналізу даних поки не стали робочим інструментом статистиків. Ясно, що й не могли стати. Можна сказати і жорсткіше - це поки наукова фантастика чи навіть шкідлива утопія.
У літературі статистичні технології розглядаються явно недостатньо. Зокрема, зазвичай вся увага зосереджується на тому чи іншому елементі технологічного ланцюжка, а перехід від одного елемента до іншого залишається в тіні. Тим часом проблема "стикування" статистичних алгоритмів, як відомо, вимагає спеціального розгляду, оскільки в результаті використання попереднього алгоритму найчастіше порушуються умови застосовності наступного. Зокрема, результати спостережень можуть перестати бути незалежними, може змінитися їх розподіл і т.п. (Див. обговорення цієї проблеми у статті [45]).
Наприклад, при перевірці статистичних гіпотез велике значення мають такі добре відомі характеристики статистичних критеріїв, як рівень значущості та потужність. Методи їх розрахунку і використання при перевірці однієї гіпотези звичайно добре відомі. Якщо ж спочатку перевіряється одна гіпотеза, а потім з урахуванням результатів її перевірки - друга, то підсумкова процедура, яку також можна розглядати як перевірку деякою (більш складної) статистичної гіпотези, має характеристики (рівень значущості та потужність), які, як правило, не можна просто висловити через характеристики двох складових гіпотез, а тому вони зазвичай невідомі. У результаті підсумкову процедуру не можна розглядати як науково обгрунтовану, вона відноситься до евристичних алгоритмів. Звичайно, після відповідного вивчення, наприклад, методом Монте-Карло, вона може увійти до числа науково обгрунтованих процедур прикладної статистики.
Чому живучі "низькі статистичні технології"? "Високим статистичними технологіям" протистоять, природно, "низькі статистичні технології". Це ті технології, які не відповідають сучасному рівню науки і техніки. Зазвичай вони одночасно і застаріли, і не адекватні суті розв'язуваних економетричних та статистичних завдань.
Приклади таких технологій неодноразово критично розглядалися на сторінках різних видань. У розділі 4 розглядалися приклади неправильного використання критерію Вілкоксона для перевірки збігу теоретичних медіан або функцій розподілу двох вибірок. Можна також згадати критику використання класичних процентних точок критеріїв Колмогорова і омега-квадрат у ситуаціях, коли параметри оцінюються по вибірці і ці оцінки підставляються у "теоретичну" функцію розподілу [46]. Доводилося констатувати широке поширення таких порочних технологій і конкретних алгоритмів, в тому числі у державних і міжнародних стандартах (перелік помилкових стандартів дано в статті [47]), підручниках і поширених посібниках. Тиражування помилок відбувається зазвичай в процесі навчання у вузах або шляхом самоосвіти при використанні недоброякісної літератури.
На перший погляд викликає подив стійкість "низьких статистичних технологій", їх постійне відродження у все нових статтях, монографіях, підручниках. Тому, як не дивно, найбільш "довгоживучими" виявляються не роботи, присвячені новим науковим результатам, а публікації, що викривають помилки, типу статті [46]. Минуло більше 15 років з моменту її публікації, але вона як і раніше актуальна, оскільки помилкове застосування критеріїв Колмогорова і омега-квадрат, як і раніше поширене.
Доцільно розглянути тут принаймні три обставини, які визначають цю стійкість помилок.
По-перше, міцно закріпилася традиція. Підручники з т.зв. «Загальної теорії статистики», написані економістами (оскільки навчальна дисципліна "статистика" офіційно належить до економіки), якщо неупереджено проаналізувати їх зміст, складаються в основному з введення в прикладну статистику, викладеного в стилі «низьких статистичних технологій», на рівні 1950-х років. До "низькою" прикладної статистики добавлена ​​деяка інформація про діяльність органів Держкомстату РФ. Приблизно таке ж становище зі статистичними методами в медицині - одні й ті ж "низькі статистичні технології" переписуються з книги в книгу. Коротко кажучи, «професора-невігласи породжують нових невігласів» [7]. Так ми писали в 1990 р., але ніхто із зазначених невігласів навіть не поцікавився, які помилки маються на увазі. Нове покоління, навчившись помилковим алгоритмам, їх використовує, а з плином часу і досягненням посад, учених звань і ступенів-пише нові підручники зі старими помилками.
Керівництво Держкомстату РФ, скориставшись катаклізмами початку 1990-х років, зробила вигляд, що йому невідомо про створення в 1990 р. Всесоюзної статистичної асоціації і секції статистичних методів у її складі. Держкомстат РФ як і раніше закритий від "високих статистичних технологій" і працює на рівні позаминулого століття. Захист стала надійніше, оскільки відповідно до сучасним стилем апаратної роботи на листи і звернення можна не відповідати.
Друга обставина пов'язана з великими труднощами при оцінці економічної ефективності застосування статистичних методів взагалі і при оцінці шкоди від застосування помилкових методів зокрема. (А без такої оцінки як доведеш, що "високі статистичні технології" краще "низьких"?) Деякі міркування по першому з цих питань наведено в статті [1], яка містить оцінки економічної ефективності ряду робіт щодо застосування статистичних методів. При оцінці шкоди від застосування помилкових методів доводиться враховувати, що загальний успіх у конкретної інженерної або наукової роботи цілком міг бути досягнутий всупереч їх застосування, за рахунок "запасу міцності" інших складових загальної роботи. Наприклад, перевага одного технологічного прийому над іншим можна продемонструвати як за допомогою критерію Крамера-Уелча перевірки рівності математичних очікувань (що правильно), так і за допомогою двухвиборочного критерію Стьюдента (що, взагалі кажучи, невірно, тому що зазвичай не виконуються умови застосовності цього критерію - немає ні нормальності розподілу, ні рівності дисперсій). Крім того, доводиться витримувати натиск невігласів, які захищають свої помилкові роботи, наприклад, державні стандарти. Замість виправлення помилок застосовуються самі різні прийоми бюрократичної боротьби з тими, хто викриває помилки (докладніше див статтю [47]).
Третє суттєва обставина - труднощі зі знайомством з високими статистичними технологіями. Протягом останніх 10 років лише журнал "Заводська лабораторія" систематично надавав такі можливості. На жаль, потік сучасних вітчизняних і перекладних статистичних книг, що випускалися раніше, зокрема, видавництвом "Фінанси і статистика", практично перетворився на вузький струмочок ... Можливо, більш істотним є вплив природної затримки в часі між створенням "нових статистичних технологій" і написанням повноцінної і об'ємної навчальної та методичної літератури. Вона повинна дозволяти знайомитися з новою методологією, новими методами, теоремами, алгоритмами, технологіями не по коротким оригінальним статтям, а при звичайному навчанні у вищій школі.
Як прискорити впровадження "високих статистичних технологій"? Таким чином, весь арсенал використовуваних економетричних та статистичних методів можна розподілити за трьома потоками:
- Високі статистичні технології;
- Класичні статистичні технології,
- Низькі статистичні технології.
Основна сучасна проблема статистичних технологій полягає у забезпеченні того, щоб у конкретних економетричних та статистичних дослідженнях використовувалися тільки технології перших двох типів. При цьому під класичними статистичними технологіями розуміємо технології поважного віку, які зберегли своє значення для сучасної статистичної практики. Такі метод найменших квадратів, статистики Колмогорова, Смирнова, омега-квадрат, непараметричні коефіцієнти кореляції Спірмена і Кендалла і багато інших статистичні процедури.
Які можливі шляхи вирішення основної сучасної проблеми в області статистичних технологій?
Боротися з конкретними невігласами - справа майже безнадійна. Відстоюючи своє становище і посади, вони або нахабно ігнорують інформацію про свої помилки, як це роблять автори ряду підручників з "Загальної теорії статистики", або з допомогою різних бюрократичних прийомів йдуть і від відповідальності, і від виправлення помилок по суті (як це було з стандартами за статистичними методами - див. статтю [6]). Третій варіант - визнання та виправлення помилок - зустрічається, на жаль, рідко. Але зустрічається.
Звичайно, необхідна демонстрація кваліфікованого застосування високих статистичних технологій. У 1960-70-х роках цим займалася лабораторія акад. О.М. Колмогорова в МДУ ім. М.В. Ломоносова. Секція "Математичні методи дослідження" журналу 2Заводская лабораторія "опублікувала за останні 40 років понад 1000 статей у стилі" високих статистичних технологій ". В даний час діє Інститут високих статистичних технологій та економетрики МГТУ ім. Н. Е. Баумана. Є, звичайно, цілий ряд інших наукових колективів, що працюють на рівні "високих статистичних технологій".
Але саме основне - навчання. Які б нові наукові результати не були отримані, якщо вони залишаються невідомими студентам, то нове покоління дослідників і інженерів змушене освоювати їх поодинці, а то й перевідкривати. Тобто практично нові наукові результати майже зникають, ледь з'явившись. Як вже від меячалось, надлишок публікацій перетворився на гальмо розвитку. За нашими даними, до теперішнього часу за статистичними технологіям опубліковано не менше мільйона статей і книг, з них не менше 100 тисяч є актуальними для сучасного фахівця. Реальне число публікацій, які здатна освоїти дослідник, за нашою оцінкою, не перевищує 2-3 тисяч. В усякому разі, в найбільш "товстому" (російською мовою) тритомнику за статистикою М. Дж. Кендалла і А. Стьюарт [8-10] наведено близько 2 тисяч літературних посилань. Отже, кожен дослідник знайомий не більш ніж з 2-3% актуальних літературних джерел. Оскільки суттєва частина публікацій заражена "низькими статистичними технологіями", то дослідник самоучка має мало шансів вийти на рівень "високих статистичних технологій". Одночасно доводиться констатувати, що маса корисних результатів похована у виданнях минулих десятиліть і має мало шансів стати в ряди "високих статистичних технологій" без спеціально організованих зусиль сучасних фахівців.
Отже, ще і ще раз: основне - навчання. Кілька огрубляя, можна сказати: що те, що потрапило в навчальні курси та відповідні навчальні посібники - то зберігається, що не потрапило - то пропадає. Докладніше про навчання - дещо пізніше. Зараз - про згадане вище Інституті високих статистичних технологій та економетрики МГТУ ім. Н. Е. Баумана.
Інститут високих статистичних технологій та економетрики. Організований нами у 1989 р. Інститут високих статистичних технологій та економетрики (ІВСТЕ) діє на базі кафедри ІБМ-2 "Економіка та організація виробництва" Московського державного технічного університету ім. Н. Е. Баумана. Інститут на госпдоговірних і держбюджетних засадах займається розвитком, вивченням та впровадженням економетрики і "високих статистичних технологій", тобто найбільш сучасних технологій аналізу економічних, технічних, соціологічних, медичних даних, орієнтованих на використання в умовах сучасного виробництва та економіки. Основний інтерес представляють застосування "високих статистичних технологій" для аналізу конкретних економічних даних, тобто в економетрики. Найбільш перспективним є застосування "високих статистичних технологій" для підтримки прийняття управлінських рішень, перш за все в такому новому (для Росії) сучасному напрямку економічної науки та практики, як контролінг (див., наприклад, монографію [48]).
Спочатку Інститут діяв як Всесоюзний центр статистичних методів та інформатики Центрального правління Всесоюзного економічного суспільства. У 1990-1992 рр.. було виконано більше 100 госпдоговірних робіт, в тому числі для НІЦентра з безпеки атомної енергетики, ВНДІ нафтопереробки, ВО "Пластик", ЦНДІ чорної металургії ім. Бардіна, НДІ сталі, ВНДІ еластомерних матеріалів і виробів, НДІ прикладної хімії, ЦНДІ хімії та механіки, НВО "Оріон", ВНДІ економічних проблем розвитку науки і техніки, ВО "Уралмаш", "АвтоВАЗ", МІІТ, Казахського політехнічного інституту, Донецького державного університету та багатьох інших.
Потім Інститут в якості Лабораторії економетричних досліджень розробляв економетричні методи аналізу нечислових даних, а також процедури розрахунку і прогнозування індексу інфляції і валового внутрішнього продукту. Інститут високих статистичних технологій та економетрики розвивав методологію побудови та використання математичних моделей процесів оподаткування (для Міністерства податків і зборів РФ), методологію оцінки ризиків реалізації інноваційних проектів вищої школи (для Міністерства промисловості, науки і технологій РФ). Інститут оцінював вплив різних чинників на формування бази оподаткування ряду податків (для Мінфіну РФ), опрацьовував перспективи застосування сучасних статистичних та експертних методів для аналізу даних про науковий потенціал (для Міністерства промисловості, науки і технологій РФ). Важливий напрямок пов'язано з еколого-економічною тематикою - розробка методологічного, програмного та інформаційного забезпечення аналізу ризиків хіміко-технологічних об'єктів (для Міжнародного науково-технічного центру), методів використання експертних оцінок в задачах екологічного страхування (спільно з Інститутом проблем ринку РАН). Інститут проводив маркетингові дослідження (зокрема, для Institute for Market Research GfK MR, Промрадтехбанк, фірм, які торгують розчинною кавою, програмним забезпеченням, що надають освітні послуги). Інтерес викликали роботи Інституту з прогнозування соціально-економічного розвитку Росії методом сценаріїв, з економіко-математичного моделювання розвитку малих підприємств і створення сучасних систем інформаційної підтримки прийняття рішень для таких організацій.
Інститут проводить фундаментальні дослідження в області високих статистичних технологій та економетрики, зокрема, в рамках НДЧ МГТУ ім. Н.Е. Баумана і Російського фонду фундаментальних досліджень. Інформація про Інститут представлена ​​на сайті в ІНТЕРНЕТІ (http://antorlov.nm.ru, дзеркала http://antorlov.euro.ru, http://www.newtech.ru/ ~ orlov), який у 2000 р. відвідали більше 10000 користувачів. Інститутом видається щотижнева комп'ютерна газета «Економетрика» (близько 1000 абонентів). Архів випусків газети "Економетрика" можна розглядати як хрестоматію з різних розділів економетрики, а також за високими статистичними технологіям.
Навіщо потрібні високі статистичні технології, хіба не досить звичайних статистичних методів? Це цілком природне запитання. Ми вважаємо і доводимо своїми теоретичними і прикладними роботами, що зовсім недостатньо. Так, багато даних в інформаційних системах мають нечислової характер, наприклад, є словами або приймають значення з кінцевих множин. Нечислової характер мають і впорядкування, які дають експерти або менеджери, наприклад, вибираючи головну мету, наступну за важливістю і т.д. Значить, потрібна статистика нечислових даних. Вона побудована (див. розділ 8). Далі, багато величини відомі не абсолютно точно, а з деякою погрішністю - від і до. Іншими словами, вихідні дані - не числа, а інтервали. Потрібна статистика інтервальних даних. Вона розвинута (див. розділ 9). У монографії [48] з контролінгу на с.138 добре сказано: "Нечітка логіка - потужний елегантний інструмент сучасної науки, який на Заході (і на Сході - в Японії, Китаї - А.О.) можна зустріти в десятках виробів - від побутових відеокамер до систем управління спорудами, - у нас до самого останнього часу був практично невідомий ". Нагадаємо, перша монографія російського автора з теорії нечіткості була випущена в 1980 р. [49]. Ні статистики нечислових даних, ні статистики інтервальних даних, ні статистики нечітких даних немає і не могло бути в класичній статистиці. Все це - високі статистичні технології. Вони розроблені за останні 10-30-50 років. А звичайні вузівські курси з загальної теорії статистики та з математичної статистики розбирають наукові результати, отримані в першій половині ХХ століття.
Важлива частина економетрики - застосування високих статистичних технологій до аналізу конкретних економічних даних, що часто вимагає додаткової теоретичної роботи з доопрацювання статистичних технологій стосовно до конкретної ситуації. Велике значення мають конкретні економетричні моделі, наприклад, моделі експертних оцінок (глава 12) або економіки якості (розділ 13). І звичайно, такі конкретні застосування, як розрахунок та прогнозування індексу інфляції (розділ 7) .. Зараз вже багатьом зрозуміло, що річний бухгалтерський баланс підприємства може бути використаний для оцінки його фінансово-господарської діяльності тільки з залученням даних про інфляцію.
Термін "економетрика" поки мало відомий в Росії. А між тим у світовій науці економетрика займає гідне місце. Нагадаємо, що Нобелівські премії з економіки отримали економетрики Ян Тільберген, Рагнар Фріш, Лоуренс Клейн, Трюгве Хаавельмо. У 2000 р. до них додалися ще двоє Джеймс Хекман і Деніел Мак-Тадей. Випускається ряд наукових журналів, повністю присвячених економетрики, в тому числі: Journal of Econometrics (Швеція), Econometric Reviews (США), Econometrica (США), Sankhya (Indian Journal of Statistics. Ser.D. Quantitative Economics. Індія), Publications Econometriques (Франція).
Застосування економетрики дає помітний економічний ефект. Наприклад, у США - не менше 20 мільярдів доларів щорічно тільки в сфері статистичного контролю якості. А що у нас? Повторимо, що в секції "Математичні методи дослідження" журналу "Заводська лабораторія" за останні 40 років надруковано більше 1000 статей за високими статистичними технологій і їх застосувань. Проте в нашій країні з ряду причин економетрика не була сформована як самостійний напрям наукової та практичної діяльності, на відміну, наприклад, від Польщі, не кажучи вже про англосаксонських країнах. У результаті фахівців - економетриком у нас на порядок менше, ніж у США і Великобританії (Американська статистична асоціація включає більше 20000 членів).
Викладання високих статистичних технологій та економетрики. Доводиться з жалем констатувати, що в Росії практично відсутня підготовка фахівців з високим статистичними технологіям. У курсах з теорії ймовірностей і математичній статистиці зазвичай даються лише класичні основи цих дисциплін, розроблені в першій половині ХХ ст., А викладачі свою наукову діяльність воліють присвячувати доказу теорем, що мають лише внутріматематіческій інтерес, а не високим статистичними технологіям.
В даний час з'явилася надія на економетрику. У Росії починають розгортатися економетричні дослідження та викладання економетрики, в тому числі не тільки Інститутом високих статистичних технологій та економетрики. Викладання цієї дисципліни ведеться в Московському державному університеті економіки, статистики та інформатики (МЕСІ), на економічному факультеті МДУ ім. М.В. Ломоносова, у Вищій школі економіки і ще у кількох економічних навчальних закладах. Серед технічних вузів факультет "Інженерний бізнес і менеджмент" МГТУ ім. Н. Е. Баумана має в даний час пріоритет у викладання економетрики.
Ми вважаємо, що економісти, менеджери та інженери, перш за все фахівці з контролінгу [48], повинні бути озброєні сучасними засобами інформаційної підтримки, в тому числі високими статистичними технологіями і економетрикою. Очевидно, викладання повинно йти попереду практичного застосування. Адже як застосовувати те, чого не знаєш?
Один раз - у 1990-1992 рр.. ми вже обпеклися на недооцінці необхідності попередньої підготовки тих, для кого призначені сучасні комп'ютерні засоби. Наш колектив (Всесоюзний центр статистичних методів та інформатики Центрального правління Всесоюзного економічного товариства) розробив систему діалогових програмних систем забезпечення якості продукції. Їх створенням керували провідні фахівці країни. Але розповсюдження програмних продуктів йшло на 1-2 порядки повільніше, ніж очікувалося. Причина стала зрозуміла не відразу. Як виявилося, працівники підприємств просто не розуміли можливостей розроблених систем, не знали, які завдання можна вирішувати за їх допомогою, який економічний ефект вони дадуть. А не розуміли і не знали тому, що у вузах ніхто їх не вчив статистичним методам управління якістю. Без такого систематичного навчання не можна обійтися - складні концепції "на пальцях" за п'ять хвилин не поясниш.
Є і протилежний приклад - позитивний. У середині 1980-х років у радянській середній школі ввели новий предмет "Інформатика". І зараз молоде покоління чудово володіє комп'ютерами, миттєво освоюючи швидко з'являються новинки, і цим помітно відрізняється від тих, кому за 30-40 років. Якщо б вдалося ввести в середній школі курс ймовірності та статистики - а такий курс є в Японії і США, Швейцарії, Кенії і Ботсвані, майже у всіх країнах (див. підготовлений ЮНЕСКО збірник доповідей [50]) - то ситуація могла б бути різко поліпшена . Треба, звичайно, домогтися, щоб такий курс був побудований на високих статистичних технологіях, а не на низьких. Іншими словами, він повинен відображати сучасні досягнення, а не концепції п'ятдесятирічної або столітньої давності.
Необхідно активізувати діяльність Російської асоціації статистичних методів. Але не варто обмежуватися тільки внутрішніми проблемами співтовариства фахівців з статистичним методам. Наприклад, у створеному в Росії професійному економічному суспільстві - Асоціації контролерів Росії - необхідно, на наш погляд, виділити напрямок, присвячене застосуванню високих статистичних технологій та економетрики у контролінгу, а також врахувати необхідність навчання основам цього напрямку при формуванні потужної освітньої бази контролінгу.

Література
1. Орлов О.І. Що дає прикладна статистика народному господарству? / Вісник статистики. 1986. № 8. С.52 - 56
2. Комаров Д; М., Орлов О.І. Роль методологічних досліджень, у розробці методооріентірованних експертних систем (на прикладі оптимізаційних і статистичних методів) - В зб.: Питання застосування експертних систем. - Мінськ: Центросістем, 1988. С.151-160.
3. Ленін В.І. Розвиток капіталізму в Росії. Процес утворення внутрішнього ринку для великої промисловості. - М.: Політвидав, 1986. - XII +610 с.
4. Гнеденко Б.В. Курс теорії ймовірностей: Підручник. - Вид. 6-е, перероблене і доповнене. - М.: Наука, Гл. ред. фіз. - Мат. лит., 1988. - 448 с.
5. Бернштейн С.М. Сучасний стан теорії ймовірностей та її застосувань. - В зб.: Праці Всеросійського з'їзду математиків у Москві 27 квітня - 4 травня 1927 р. - М.-Л.: Гіз, 1928. С.50-63.
6. Орлов О.І. Про сучасні проблеми впровадження прикладної статистики та інших статистичних методів. / Заводська лабораторія. 1992. Т.58. № 1. С.67-74.
7. Орлов О.І. Про перебудову статистичної науки та її застосувань. / Вісник статистики. 1990. № 1. С.65 - 71.
8. Кендалл М., Стьюарт А. Теорія розподілів. - М.: Наука, 1966. - 566 с.
9. Кендалл М., Стьюарт А. Статистичні висновки і зв'язку. - М.: Наука, 1973. - 899 с.
10. Кендалл М., Стьюарт А. Багатомірний статистичний аналіз і тимчасові ряди. - М.: Наука, 1976. - 736 с.
11. Налімов В.В., Мульченко З.М. Наукометрія. Вивчення розвитку науки як інформаційного процесу. - М.: Наука, 1969. - 192 с.
12. ГОСТ 11.011-83. Прикладна статистика. Правила визначення оцінок і довірчих меж для параметрів гамма-розподілу. - М.: Изд-во стандартів. 1984. - 53 с.
13. Більше Л.М., Смирнов Н.В. Таблиці математичної статистики. - М.: Наука, 1965 (1-е вид.), 1968 (2-е вид.), 1983 (3-е вид.).
14. Орлов О.І. Стійкість у соціально-економічних моделях. - М.: Наука, 1979. - 296 с.
15. Смоляк С.А., Титаренко Б.П. Стійкі методи оцінювання: Статистична обробка неоднорідних сукупностей. - М;: Статистика, 1980. - 208 с.
16. Ефрон Б. Нетрадиційні методи багатовимірного статистичного аналізу. - М.: Фінанси і статистика, 1988. - 263 с.
17. Суппес П., Зінес Дж. Основи теорії вимірів. - В зб.: Психологічні вимірювання. -М: Світ, 1967. С. 9-110.
18. Пфанцагль І. Теорія вимірів. - М.: Світ, 1976. - 166 с.
19. Заде Л. Поняття лінгвістичної змінної та його застосування до прийняття наближених рішень. - М.: Світ, 1976. - 168 с.
20. Девід Г. Метод парних порiвнянь. - М.: Статистика, 1978. - 144 с.
21. Матерон Ж. Випадкові множини і інтегральна геометрія. - М.: Світ, 1978. - 318 с.
22. Терьохіна А.Ю. Аналіз даних методами багатовимірного шкалювання. - М.: Наука, 1986. - 168 с.
23. Перехрест В.Т. Нелінійний типологічний аналіз соціально-економічної інформації: Математичні та обчислювальні методи. - Л.: Наука, 1983. - 176 с.
24. Кемені Дж., Снелл Дж. Кібернетичному моделювання: Деякі програми. - М.: Радянське радіо, 1972. - 192 с.
25. Тюрін Ю.М., Литвак Б.Г., Орлов О.І., Сатаров Г.А., Шмерлінг Д.С. Аналіз нечислової інформації. - М.: Наукова Рада АН СРСР з комплексної проблеми "Кібернетика", 1981. - 80 с.
26. Литвак Б.Г. Експертна інформація: Методи отримання та аналізу. - М.: Радіо і зв'язок, 1982. - 184 с.
27. Орлов О.І. Статистика об'єктів нечислової природи та експертні оцінки. - В зб.: Експертні оцінки. Питання кібернетики. Вип.58. - М.: Наукова Рада АН СРСР з комплексної проблеми "Кібернетика", 1979. С.17-33.
28. Аналіз нечислової інформації в соціологічних дослідженнях. / Под ред. В.Г. Андрєєнкова, А. І. Орлова, Ю.М. Толстова. - М.: Наука, 1985. - 220 с.
29. Орлов О.І. Асимптотичну поведінку статистик інтегрального типу. / Доповіді АН СРСР. 1974. Т.219. № 4. С.808-811.
30. Орлов О.І. Асимптотичну поведінку статистик інтегрального типу. - В зб.: Імовірнісні процеси та їх застосування. Міжвузівський збірник. - М.: МІЕМ, 1989. С.118-123.
31. Горський В.Г. Сучасні статистичні методи обробки та планування експериментів в хімічній технології. - В зб.: Інженерно-хімічна наука для передових технологій. Міжнародна школа підвищення кваліфікації Праці третьої сесії. 26-30 травня 1997, Казань, Росія / Под ред. В.А. Махліна. - М.: Науково-дослідний фізико-хімічний інститут ім. Карпова, 1997. С.261-293.
32. Плошку Б.Г., Єлисєєва І.І. Історія статистики: Навчальний посібник. - М.: Фінанси і статистика. 1990. - 295 с.
33. Ельясберг П.Є. Вимірювальна інформація. Скільки її потрібно, як її обробляти? - М.: Наука, 1983. - 208 с.
34. Крамер Г. Математичні методи статистики. - М.: Світ, 1975. - 648 с.
35. Орлов А.І., Орловський І.В. Про поправки на угрупування. - В зб.: Прикладної багатовимірний статистичний аналіз. - М.: Наука, 1978. - С.339-342.
36. Орлов О.І. Поправка на угрупування для коефіцієнта кореляції. / Економіка і математичні методи. - 1980. - Т. XVI. - № 4. - С.800-801.
37. Орлов О.І. Методи оцінки близькості допредельного та граничних розподілів статистик. / Заводська лабораторія. - 1998. - Т.64. - № 5. - С.64-67.
38. Феллер В. Введення в теорію ймовірностей і її застосування. Т.2. - М.: Світ, 1984. - 751 с.
39. Боровков А.А. Теорія ймовірностей. - М.: Наука, 1976. - 352 с.
40. Каган А.М., Линник Ю.В., Рао С.Р. Характерізаціонние задачі математичної статистики. - М.: Наука, 1972. - 656 с.
41. Ібрагімов І.А., Хасьмінскій Р.З. Асимптотична теорія оцінювання. - М.: Наука, 1979. - 528 с.
42. Орлов О.І. Про недоцільність використання ітеративних процедур знаходження оцінок максимальної правдоподібності. / "Заводська лабораторія", 1986. Т.52. No.5. С.67-69.
43. Нікітін Я.Ю. Асимптотична ефективність непараметричних критеріїв. - М.: Наука, 1995. - 240 с.
44. Нікітіна Є.П., Фрейдліна В.Д., Ярхо А.В. Колекція визначень терміна "статистика" / міжфакультетські лабораторія статистичних методів. Вип.37. - М.: Изд-во Московського державного університету ім. М.В. Ломоносова, 1972. - 46 с.
45. Орлов О.І. Проблема множинних перевірок статистичних гіпотез. / Заводська лабораторія. 1996. Т.62. No.5. С.51-54.
46. Орлов О.І. Поширена помилка при використанні критеріїв Колмогорова і омега-квадрат. / Заводська лабораторія. - 1985. - Т.51. - No.1. - С.60-62.
47. Орлов О.І. Сертифікація та статистичні методи. / Заводська лабораторія. 1997. Т.63. No.З. С.55-62.
48. Контролінг у бізнесі. Методологічні та практичні засади побудови контролінгу в організаціях / А.М. Кармінський, Н.І. Оленєв, А.Г. Примак, С. Г. Фалько. - М.: Фінанси і статистика, 1998. - 256 с.
49. Орлов А. І. Завдання оптимізації і нечіткі змінні. - М.: Знание, 1980 .- 64 с.
50. The teaching of statistics / Studies in mathematics education. Vol.7. - Paris, UNESCO, 1989. - 258 pp.
Додати в блог або на сайт

Цей текст може містити помилки.

Економіко-математичне моделювання | Реферат
184.1кб. | скачати


Схожі роботи:
Економетричні методи управління якістю та сертифікації продукції
Економетричні методи проведення експертних досліджень і аналізу оцінок експертів
Економетричні моделі в економіці країни
Сучасні методи контрацепції
Сучасні методи електрокардіостимуляції
Сучасні методи просування турпродукту
Сучасні методи лікування полінозу
Сучасні методи захисту інформації
Хірургія Сучасні методи остеосинтезу
© Усі права захищені
написати до нас