Реферат
За економетрики
Економетричні інформаційні технології

ЗМІСТ
Проблема множинних перевірок статистичних гіпотез. 3
Методи статистичних випробувань (Монте-Карло) і датчики псевдовипадкових чисел. 25
Методи розмноження вибірок (бутстреп-методи) 30
Економетрика в контролінгу. 35
Література .. 41

Проблема множинних перевірок статистичних гіпотез

Практика застосування економетричних методів часто виходить за межі класичної математико-статистичної теорії. В якості прикладу розглянемо перевірку статистичних гіпотез.
Базова теоретична модель стосується перевірки однієї-єдиної статистичної гіпотези. На практиці ж при виконанні того чи іншого прикладного дослідження гіпотези часто перевіряють неодноразово. При цьому, як правило, залишається неясним, як впливають результати попередніх перевірок на характеристики (рівень значимості, потужність) подальших перевірок. Чи є взагалі вплив? Як його оцінити? Як його врахувати при формулюванні остаточних висновків?
Вивчено лише деякі схеми множинних перевірок, наприклад, схема послідовного аналізу А. Вальда або схема оцінювання ступеня полінома в регресії шляхом послідовної перевірки адекватності моделі (див. розділ 5 вище). У таких виняткових постановках вдається розрахувати характеристики статистичних процедур, що включають множинні перевірки статистичних гіпотез.
Однак у більшості важливих для практики випадків статистичні властивості процедур аналізу даних, заснованих на множинних перевірках, залишаються поки невідомими. Прикладами є процедури знаходження інформативних підмножин ознак (коефіцієнти для таких і тільки таких ознак відмінні від 0) в регресійному аналізі або виявлення відхилень параметрів у автоматизованих системах управління.
У таких системах відбувається стеження за великим числом параметрів. Різка зміна значення параметра свідчить про зміну режиму роботи системи, що, як правило, вимагає керуючого впливу. Існує теорія для визначення меж допустимих коливань одного чи фіксованого числа параметрів. Наприклад, можна використовувати контрольні карти Шухарта або кумулятивних сум, а також їх багатовимірні аналоги (див. розділ 13). У переважній більшості постановок, згідно звичайно використовуваним імовірнісним моделям, для кожного параметра, що знаходиться в стабільному ("налагодженому") стані, існує хоча і мала, але позитивна ймовірність того, що його значення вийде за задані межі. Тоді система зафіксує різка зміна значення параметра ("помилкова розладнання"). При досить великому числі параметрів з імовірністю, близькою до 1, буде виявлено декілька "випадкових збоїв", серед яких можуть "загубитися" і реальні відмови підсистем. Можна довести, що при великій кількості параметрів є два крайніх випадку - незалежних (у сукупності) параметрів і функціонально пов'язаних параметрів, а для всіх інших систем ймовірність виявлення різкого відхилення хоча б в одного параметра лежить між відповідними ймовірностями для цих двох крайніх випадків.
Чому важко вивчати статистичні процедури, що використовують множинні перевірки гіпотез? Причина полягає в тому, що результати послідовно проводяться перевірок, як правило, не є незалежними (в сенсі незалежності випадкових величин). Більше того, послідовність перевірок найчастіше задається дослідником довільно.
Проблема множинних перевірок статистичних гіпотез - частина більш загальної проблеми "стикування" (з'єднання) статистичних процедур. Справа в тому, що кожна процедура може застосовуватися лише за деяких умов, а в результаті застосування попередніх процедур ці умови можуть порушуватися. Наприклад, часто рекомендують перед відновленням залежності (регресійним аналізом) розбити дані на однорідні групи за допомогою будь-якого алгоритму класифікації, а потім будувати залежності для кожної з виділених груп окремо. Тут йде мова про "стикуванні" алгоритмів класифікації і регресії. Як випливає з розглядів глави 5 вище, зазначені в одній однорідну групу результати спостережень залежні та їх розподіл не є нормальним (гауссових), оскільки вони лежать в обмеженій за деякими напрямками області, а межі залежать від всієї сукупності результатів спостережень. При цьому при зростанні обсягу вибірки залежність зменшується, але ненормальність залишається Розподіл результатів спостережень, що потрапили в одну групу, наближається не до нормального, а до усеченному нормальному. Отже, алгоритмами регресійного аналізу, заснованими на "нормальної теорії", користуватися некоректно. Відповідно до рекомендацій глави 10 доцільно застосовувати робастної регресію.
Проблема "стикування" статистичних процедур обговорюється давно. З проблеми "стикування" був проведений ряд досліджень, результати деякі з яких згадані вище, але скільки-небудь остаточних результатів отримано не було. На нашу думку, на швидке вирішення проблеми "стикування" розраховувати не можна. Можливо, вона є настільки ж "вічної", як і проблема вибору між середнім арифметичним і медіаною як характеристиками "центру" вибірки.
В якості прикладу обговоримо одне цікаве дослідження з проблеми повторних перевірок статистичних гіпотез - роботу С.Г. Корнілова [1].
Як вже зазначалося, теоретичне дослідження є досить складним, скільки-небудь цікаві результати вдається отримати лише для окремих постановок. Тому цілком природно, що С.Г. Корнілов застосував метод статистичного моделювання на ЕОМ. Однак не можна забувати про проблему якості псевдовипадкових чисел. Переваги і недоліки різних алгоритмів отримання псевдовипадкових чисел багато років обговорюються в різних виданнях (див. нижче).
У роботі С.Г. Корнілова добре моделюється мислення статистика-прикладників. Видно, наскільки заважає застаріле уявлення про те, що для перевірки гіпотез необхідно задавати певний рівень значущості. Особливо воно заважає, якщо надалі знадобляться подальші перевірки. Набагато зручніше використовувати "досягається рівень значимості", тобто ймовірність того, що статистика критерію покаже більше відхилення від нульової гіпотези, ніж те, що відповідає наявним експериментальним даним (див. термінологічне додаток 1 в кінці книги). Якщо є бажання, можна порівнювати "досягається рівень значимості" з заданими значеннями 0,05 або 0,01. Так, якщо "досягається рівень значимості" менше 0,01, то нульова гіпотеза відкидається на рівні значущості 0,01, у противному випадку - приймається. Слід розраховувати "досягається рівень значимості" завжди, коли для цього є обчислювальні можливості.
Перехід до "досягається рівнем значущості" може позбавити прикладники від ще однієї труднощі, пов'язаної з використанням непараметричних критеріїв. Справа в тому, що їх розподілу, як правило, дискретні, оскільки ці критерії використовують тільки ранги спостережень. Тому неможливо побудувати критерій із заданим номінальним рівнем значущості, реальний рівень значимості може приймати лише кінцеве число значень, серед яких, як правило, немає ні 0,05, ні 0,01, ні інших популярних номінальних значень.
Неможливість побудови критичних областей критеріїв з заданими рівнями значущості ускладнює порівняння критеріїв по потужності, як це продемонстровано в роботі [2]. Є формальний спосіб досягти заданого номінального рівня значущості - провести рандомізацію, тобто при певному (граничному) значенні статистики критерію провести незалежний випадковий експеримент, в якому одні результати (із заданою сумарною ймовірністю) призводять до прийняття гіпотези, а решта - до її відхилення. Однак подібну процедуру рандомізації прикладнику важко прийняти - як виправдати те, що одні й ті ж експериментальні дані можуть бути підставою як для ухвалення гіпотези, так і для її відхилення? Пригадується обкладинка журналу "Крокодил", на якій один господарник каже іншому: "Кинемо монетку. Впаде гербом - будемо будувати завод, а впаде решкою - ні". Описана процедура рандомізації має практичний сенс лише при масовій рутинної перевірки гіпотез, наприклад, при статистичному контролі великих вибірок виробів або деталей (див. розділ 13, присвячену економетрики якості).
У все ще поширених критерію Стьюдента та інших параметричних статистичних критеріїв - свої проблеми. Вони виходять із припущення про те, що функції розподілу результатів спостережень входять в певні параметричні сімейства невеликий розмірності. Найбільш поширена гіпотеза нормальності розподілу. Однак давно відомо, що переважна більшість реальних розподілів результатів вимірів не є нормальними. Про це йдеться, наприклад, в класичній для інженерів і організаторів виробництва монографії проф.В. В. Налімова [3]. Ряд нещодавно отриманих конкретних експериментальних фактів і теоретичних міркувань розглянутий у розділі 4.
Як же бути? Перевіряти нормальність розподілу своїх даних? Але це справа непроста, можна допустити ті чи інші помилки, зокрема, застосовуючи критерії типу Колмогорова або омега-квадрат (одна з найбільш поширених помилок полягає в тому, що в статистики замість невідомих параметрів підставляють їх оцінки, але при цьому користуються критичними значеннями, розрахованими для випадку, коли параметри повністю відомі [4]). Крім того, для скільки-небудь надійної перевірки нормальності потрібні тисячі спостережень (див. розділ 4). Тому в переважній більшості реальних завдань немає підстав приймати гіпотезу нормальності. У кращому випадку можна говорити про те, що розподіл результатів спостережень мало відрізняється від нормального.
Як впливають відхилення від нормальності на властивості статистичних процедур? Для різних процедур - різний відповідь. Якщо мова йде про відбракування викидів - вплив відхилень від нормальності настільки велике, що робить процедуру відбракування з практичної точки зору евристичної, а не науково обгрунтованої (див. розділ 4). Якщо ж мова йде про перевірку однорідності двох вибірок за допомогою критерію Стьюдента (при апріорному припущенні про рівність дисперсій) або Крамера-Уелча (за відсутності такого припущення), то при зростанні обсягів вибірок вплив відхилень від нормальності убуває, як це докладно показано в розділі 4 ). Це випливає з Центральної Граничною Теореми. Правда, при цьому виявляється, що процентні точки розподілу Стьюдента не приносять реальної користі, досить використовувати процентні точки граничного нормального розподілу.
Дуже важлива обговорювана, зокрема, в роботі [1] постійно встає перед економетриком проблема вибору того чи іншого статистичного критерію для вирішення конкретної прикладної задачі. Наприклад, як перевіряти однорідність двох незалежних вибірок числових результатів спостережень? Відомі параметричні критерії: Стьюдента, Лорда; непараметричні: Крамера-Уелча, Вілкоксона, Ван-дер-Варден, Севіджа, Мартинова, Смирнова, типу омега-квадрат (Лемана-Розенблатта) і багато інших (див., наприклад, главу 4 і довідник [5]). Який з них вибрати для конкретних розрахунків?
Деякі автори пропонують формувати технологію прийняття статистичного рішення, згідно з якою вирішальне правило формується на основі комбінації декількох критеріїв. Наприклад, технологія може передбачати проведення "голосування": якщо з 5 критеріїв більшість "висловлюється" за відхилення гіпотези, то підсумкове рішення - відкинути її, в іншому випадку - прийняти. Ці автори не завжди розуміють, що в їхньому підході немає нічого принципово нового, просто до вже наявних критеріями вони додають їх комбінації - чергові варіанти, тим чи іншим чином виділяють критичні області у просторах можливих значень результатів вимірювань, тобто збільшують число розглянутих критеріїв.
Отже, є деяка сукупність критеріїв. У кожного - свій набір значень рівнів значущості і потужностей на можливі альтернативи. Математична статистика демонструє в цій ситуації віртуозну математичну техніку для аналізу окремих випадків і повну безпорадність при видачі практичних рекомендацій. Так, виявляється, що практично кожен з відомих критеріїв є оптимальним у тому чи іншому сенсі для якогось набору нульових гіпотез та альтернатив. Математики вивчають асимптотичну ефективність в різних сенсах - по Пітмену, по Бахадур і т.д., але - для вузького класу альтернативних гіпотез, зазвичай для альтернативи зсуву. При спробі переносу асимптотичних результатів на кінцеві обсяги вибірок виникають нові невирішені проблеми, пов'язані, зокрема, з чисельним оцінюванням швидкості збіжності (див. розділ 10). У цілому ця область математичної статистики може активно розвиватися ще багато десятиліть, видаючи "на гора" чудові теореми (які можуть послужити підставою для захистів кандидатських і докторських дисертацій, виборів в академіки РАН і т.д.), але не даючи нічого практиці. Добре б, щоб цей песимістичний прогноз не виправдався цілком!
З точки зору економетрики та прикладної статистики необхідно вивчати проблему вибору критерію перевірки однорідності двох незалежних вибірок. Таке вивчення було проведено, в тому числі методом статистичних випробувань, і в результаті був отриманий висновок про те, що найбільш доцільно застосовувати критерій Лемана-Розенблатта типу омега-квадрат (див. розділ 4).
У літературі з прикладним статистичним методам, як справедливо зауважує С.Г. Корнілов в роботі [1], є маса помилкових рекомендацій. Чого варті хоча б принципово невірні державні стандарти СРСР за статистичними методами, а також відповідні їм стандарти РЕВ і ІСО, тобто Міжнародної організації зі стандартизації. Особливо виділяються своєю кількістю помилкові рекомендації щодо застосування критерію Колмогорова для перевірки нормальності (див. посилання в роботі [4]). Помилки є і в наукових статтях, і в нормативних документах (державних стандартах), і в методичних розробках, і навіть у вузівських підручниках. На жаль, немає способу захистити інженера і науковця, економіста і менеджера, які потребують застосування економетричних та статистичних методів, від літературних джерел і нормативно-технічних та інструктивно-методичних документів з помилками, неточностями та похибками. Єдиний спосіб - або постійно підтримувати професійні контакти з кваліфікованими фахівцями в економетрики, або самому стати таким фахівцем.
Як оцінити досягається рівень значимості конкретного критерію, що передбачає повторні перевірки? Відразу ясно, що в більшості випадків ніяка сучасна теорія математичної статистики не допоможе. Залишається використовувати сучасні комп'ютери. Методика статистичного моделювання, описана в роботі [1], може стати щоденним робочим інструментом спеціаліста, який займається застосуванням економетричних методів. Для цього вона повинна бути реалізована у вигляді відповідної діалогової програмної системи. Сучасні персональні комп'ютери дозволяють проводити статистичне моделювання досить швидко (за частки секунд). Можна використовувати різні модифікації бутстреп - одного з варіантів застосування статистичного моделювання (див. нижче).
Проведене обговорення показує, як багато невирішених проблем стоїть перед фахівцем, що займається, здавалося б, рутинним застосуванням стандартних статистичних процедур. Економетрика - молода наука, її основні проблеми, на нашу думку, ще не до кінця вирішені. Багато роботи як у порівняно нових областях, наприклад, в аналізі нечислових та інтервальних даних (див. глави 8 і 9 вище), так і в класичних.
Проблеми розробки та обгрунтування статистичних технологій
У цьому пункті розглядаються проблеми практичного використання економетричних методів для системного аналізу конкретних економічних даних. При цьому застосовуються не окремі методи опису даних, оцінювання, перевірки гіпотез, а розгорнуті цільні процедури - так звані "статистичні технології". Поняття "статистичні технології" або "економетричні технології" аналогічні поняттю "технологічний процес" в теорії організації виробництва.

Статистичні технології. Оскільки термін "технологія" порівняно рідко використовується в контексті економетрики та статистики, пояснимо суть проблеми, що розглядається. Статистичний аналіз конкретних економічних даних, як правило, включає в себе цілий ряд процедур і алгоритмів, що виконуються послідовно, паралельно або за більш складною схемою. Зокрема, з точки зору менеджера економетричного проекту можна виділити наступні етапи:
- Планування статистичного дослідження (включаючи розробку форм обліку, їх апробацію; підготовку сценаріїв інтерв'ю та аналізу даних і т.п.);
- Організація збору необхідних статистичних даних за оптимальною чи раціональної програмі (планування вибірки, створення організаційної структури і підбір команди статистиків, підготовка кадрів, які будуть займатися збором даних, а також контролерів даних тощо);
- Безпосередній збір даних та їх фіксація на тих чи інших носіях (з контролем якості збору і відбраковуванням помилкових даних з міркувань предметної області);
- Первинне опис даних (розрахунок різних вибіркових характеристик, функцій розподілу, непараметричних оцінок щільності, побудова гістограм, кореляційних полів, різних таблиць і діаграм і т.д.),
- Оцінювання тих чи інших числових або нечислових характеристик і параметрів розподілів (наприклад, непараметричне інтервальне оцінювання коефіцієнта варіації або відновлення залежності між відгуком і факторами, тобто оцінювання функції),
- Перевірка статистичних гіпотез (іноді їх ланцюжків - після перевірки попередньої гіпотези приймається рішення про перевірку тієї чи іншої подальшої гіпотези; наприклад, після перевірки адекватності лінійної регресійної моделі і відхилення цієї гіпотези може перевірятися адекватність квадратичної моделі),
- Більш поглиблене вивчення, тобто одночасне застосування різних алгоритмів багатовимірного статистичного аналізу, алгоритмів діагностики та побудови класифікації, статистики нечислових та інтервальних даних, аналізу часових рядів та ін;
- Перевірка стійкості отриманих оцінок і висновків щодо допустимих відхилень вихідних даних і передумов використовуваних ймовірнісно-статистичних моделей, зокрема, вивчення властивостей оцінок методом розмноження вибірок та іншими чисельними методами;
- Застосування отриманих статистичних результатів у прикладних цілях, тобто для формулювання висновків у термінах змістовної області (наприклад, для діагностики конкретних матеріалів, побудови прогнозів, вибору інвестиційного проекту із запропонованих варіантів, знаходження оптимальних режиму здійснення технологічного процесу, підведення підсумків випробувань зразків технічних пристроїв тощо),
- Складання підсумкових звітів, зокрема, призначених для тих, хто не є фахівцями в статистичних методах аналізу даних, в тому числі для керівництва - "осіб, які приймають рішення".
Можливі й багато інших структуризації різних статистичних технологій (див., наприклад, аналогічну схему для процедур експертних оцінок в главі 12). Важливо підкреслити, що кваліфіковане і результативне застосування статистичних методів - це аж ніяк не перевірка одній окремо взятій статистичної гіпотези або оцінка характеристик або параметрів одного заданого розподілу з фіксованого сімейства. Подібного роду операції - тільки окремі цеглинки, з яких складається статистична технологія. Між тим підручники та монографії з статистикою зазвичай розповідають лише про окремі цеглу, але не обговорюють проблеми їх організації в технологію, призначену для прикладного використання.
Отже, процедура статистичного аналізу даних - це інформаційний технологічний процес, іншими словами, та чи інша інформаційна технологія. Статистична інформація піддається різноманітним операціям (послідовно, паралельно або за більш складними схемами). В даний час про автоматизацію всього процесу статистичного аналізу даних говорити було б несерйозно, оскільки є дуже багато невирішених проблем, що викликають дискусії серед економетрики та статистиків. Так звані "експертні системи" в сфері статистичного аналізу даних поки не стали робочим інструментом статистиків. Ясно, що й не могли стати. Можна сказати і жорсткіше - це поки наукова фантастика чи навіть шкідлива утопія.
Проблема "стикування" алгоритмів. У літературі статистичні технології розглядаються явно недостатньо. Зокрема, зазвичай вся увага зосереджується на тому чи іншому елементі технологічного ланцюжка, а перехід від одного елемента до іншого залишається в тіні. Тим часом проблема "стикування" статистичних алгоритмів, як відомо, вимагає спеціального розгляду (див. попередній параграф цієї глави), оскільки в результаті використання попереднього алгоритму найчастіше порушуються умови застосовності наступного. Зокрема, результати спостережень можуть перестати бути незалежними, може змінитися їх розподіл і т.п.
Так, цілком резонною виглядає рекомендація: спочатку розбийте дані на однорідні групи, а потім в кожній з груп проводите статистичну обробку, наприклад, регресійний аналіз. Однак ця рекомендація під здається прозорістю містить підводні камені. Дійсно, як поставити завдання в ймовірнісно-статистичних термінах? Якщо, як завжди, приймемо, що вихідні дані - це вибірка, тобто сукупність незалежних однаково розподілених випадкових елементів, то класифікація призведе до розбиття цих елементів на групи. У кожній групі елементи будуть залежні між собою, а їх розподіл буде залежати від групи, куди вони потрапили. Відзначимо, що в типових ситуаціях границі класів стабілізуються, а це значить, що асимптотично елементи кластерів статновятся незалежними. Проте їх розподіл не може бути нормальним. Наприклад, якщо початкове розподіл був нормальним, то розподілу в класах буде усіченим нормальним. Це означає, що необхідно користуватися непараметричних методах, про що вже не раз говорилося в розділах 4 і 5 (докладніше цей приклад розібраний в роботі [7]).
Розберемо інший приклад При перевірці статистичних гіпотез велике значення мають такі добре відомі характеристики статистичних критеріїв, як рівень значущості та потужність. Методи їх розрахунку і використання при перевірці однієї гіпотези звичайно добре відомі. Якщо ж спочатку перевіряється одна гіпотеза, а потім з урахуванням результатів її перевірки (конкретніше, якщо перша гіпотеза прийнята) - друга, то підсумкова процедура, яку також можна розглядати як перевірку деякою (більш складної) статистичної гіпотези, має характеристики (рівень значущості та потужність ), які, як правило, не можна простими формулами висловити через характеристики двох складових гіпотез, а тому вони зазвичай невідомі. Лише в деяких простих випадках характеристики підсумкової процедури можна розрахувати (див. приклади в главі 13). У результаті підсумкову процедуру не можна розглядати як науково обгрунтовану, вона відноситься до евристичних алгоритмів. Звичайно, після відповідного вивчення, наприклад, методом Монте-Карло, вона може увійти до числа науково обгрунтованих процедур економетрики або прикладної статистики.
Про термін "високі статистичні технології". Як зрозуміло, технології бувають різні. Бувають адекватні та неадекватні, сучасні та застарілі. Звернемо увагу на термін "високі технології". Він популярний у сучасній науково-технічній літературі і використовується для позначення найбільш передових технологій, що спираються на останні досягнення науково-технічного прогресу. Є такі технології і серед технологій економетричного і статистичного аналізу даних - як у будь-який інтенсивно розвивається науково-практичній області.
Приклади високих економетричних та статистичних технологій і входять до них алгоритмів аналізу економічних даних постійно обговорюються на сторінках цієї книги. Докладний аналіз сучасного стану та перспектив розвитку економетрики дано в главі 15 при обговоренні "точок зростання" нашої науково-практичної дисципліни. У цьому розділі в якості прикладів "високих статистичних технологій" виділені технології непараметричного аналізу даних (див. глави 4, 5 і 6); стійкі (робастні) технології (див. розділ 10); технології, засновані на розмноженні вибірок (див. нижче в цій главі), на використанні досягнень статистики нечислових даних (див. глави 8 і 12) і статистики інтервальних даних (див. розділ 9).
Детальніше обговоримо тут поки що не цілком звичний термін "високі статистичні технології". Кожне з трьох слів несе своє смислове навантаження.
"Високі", як і в інших науково-технічних областях, означає, що статистична технологія спирається на сучасні наукові досягнення та передовий досвід реальної діяльності, а саме, досягнення економетричної та статистичної теорії та практики, зокрема, на сучасні результати теорії ймовірностей і прикладної математичної статистики. При цьому формулювання "спирається на сучасні наукові досягнення" означає, по-перше, що математична основа технології отримана порівняно недавно в рамках відповідної наукової дисципліни, по-друге, що алгоритми розрахунків розроблені та обгрунтовані у відповідності з нею (а не є т.з. . "евристичними"). З часом, якщо нові підходи і результати не змушують переглянути оцінку застосовності і можливостей технології, замінити її на більш сучасну, "високі статистичні технології" переходять в "класичні статистичні технології", такі, як метод найменших квадратів. Як відомо, незважаючи на солідний вік (більше 200 років), метод найменших квадратів залишається одним з найбільш часто використовуваних економетричних методів. Отже, високі статистичні технології - плоди недавніх серйозних наукових досліджень. Тут два ключових поняття - "молодість" технології (у всякому разі, не старше 50 років, а краще - не старше 10 або 30 років), і опора на "високу науку".
Термін "статистичні" звичний, але роз'яснити його нелегко. У всякому разі, до діяльності Державного комітету РФ за статистикою високі статистичні технології безпосереднього відношення не мають. У главі 1 вже йшла мова про те розриві між різними групами осіб, що вживають термін "статистика", який є в нашій країні. Втім, сам термін "статистика" пррошел довгий шлях. Як відомо, співробітники проф.В. В. Налімова, одного з найбільш відомих вітчизняних статистиків ХХ ст., Зібрали понад 200 визначень терміна "статистика" [8]. Полеміка навколо термінології іноді приймає вельми гострі форми (див., наприклад, редакційні зауваження до статті [9], написані у стилі відомих висловлювань про генетику та кібернетиці 1940-х років - втім, будь-яких організаційних висновків не надійшло). Сучасне уявлення про термінологію в галузі теорії ймовірностей і прикладної математичної статистики відображено у додатку 1 до цієї книзі, підготовленій на противагу поширеним помилкам і неточностей у цій галузі. Зокрема, з точки зору економетрики статистичні дані - це результати вимірювань, спостережень, випробувань, аналізів, дослідів, а "статистичні технології" - це технології аналізу статистичних даних.
Чи завжди потрібні "високі статистичні технології"? "Високим статистичними технологіям" протистоять, природно, "низькі статистичні технології" (а між ними розташовані "класичні статистичні технології"). Це ті технології, які не відповідають сучасному рівню науки і практики. Зазвичай вони одночасно і застаріли, і не цілком адекватні суті розв'язуваних економетричних та статистичних завдань.
Приклади таких технологій неодноразово критично розглядалися, в тому числі і на сторінках цієї книги. Досить згадати критику використання критерію Стьюдента для перевірки однорідності при відсутності нормальності та рівності дисперсії або критику застосування класичних процентних точок критеріїв Колмогорова і омега-квадрат у ситуаціях, коли параметри оцінюються по вибірці і ці оцінки підставляються у "теоретичну" функцію розподілу (докладний розбір проведений, наприклад, в роботі [4]). Доводилося констатувати широке поширення таких порочних технологій і конкретних алгоритмів, в тому числі у державних і міжнародних стандартах (перелік помилкових стандартів подано в праці [10]), підручниках і поширених посібниках. Тиражування помилок відбувається зазвичай в процесі навчання у вузах або шляхом самоосвіти при використанні недоброякісної літератури.
На перший погляд викликає подив стійкість "низьких статистичних технологій", їх постійне відродження у все нових статтях, монографіях, підручниках. Тому, як не дивно, найбільш "довгоживучими" виявляються не роботи, присвячені новим науковим результатам, а публікації, що викривають помилки, типу статті [4]. Минуло більше 15 років з моменту її публікації, але вона як і раніше актуальна, оскільки помилкове застосування критеріїв Колмогорова і омега-квадрат, як і раніше поширене.
Доцільно розглянути тут принаймні чотири обставини, які визначають цю стійкість помилок.
По-перше, міцно закріпилася традиція. Підручники з т. зв. "Загальної теорії статистики", написані "чистими" економістами (оскільки навчальна дисципліна "Статистика" офіційно належить до економіки), якщо неупереджено проаналізувати їх зміст, складаються в основному з введення в прикладну статистику, викладеного в стилі "низьких статистичних технологій", т. е. на рівні 1950-х років, а багато в чому і на рівні початку ХХ ст. . До "низькою" прикладної статистики добавлена деяка інформація про діяльність органів Держкомстату РФ. Некоректно звинувачувати тільки економістів - приблизно таке ж становище зі статистичними методами в медицині: одні й ті ж "низькі статистичні технології" переписуються з книги в книгу. Нове покоління, навчившись помилковим підходам, ідеям, алгоритмам, їх використовує, а з плином часу і досягненням посад, учених звань і ступенів - пише нові підручники зі старими помилками.
Друга обставина пов'язана з великими труднощами при оцінці економічної ефективності застосування статистичних методів взагалі і при оцінці шкоди від застосування помилкових методів зокрема. (А без такої оцінки як доведеш, що "високі статистичні технології" краще "низьких"?) Деякі міркування по першому з цих питань наведено в статті [9], яка містить оцінки економічної ефективності ряду робіт щодо застосування статистичних методів (див. також розділ 13 , присвячену економетрики якості). При оцінці шкоди від застосування помилкових методів доводиться враховувати, що загальний успіх у конкретної інженерної або наукової роботи цілком міг бути досягнутий всупереч застосування помилкових методів, за рахунок "запасу міцності" інших складових загальної роботи. Наприклад, перевага одного технологічного прийому над іншим можна продемонструвати як за допомогою критерію Крамера-Уелча перевірки рівності математичних очікувань (що правильно), так і за допомогою двухвиборочного критерію Стьюдента (що, взагалі кажучи, невірно, тому що звичайно не виконуються умови застосовності цього критерію - немає ні нормальності розподілу, ні рівності дисперсій). Крім того, доводиться витримувати натиск невігласів, які захищають свої помилкові роботи, наприклад, державні стандарти. Замість виправлення помилок застосовуються самі різні прийоми бюрократичної боротьби з тими, хто викриває помилки.
Третє суттєва обставина - труднощі зі знайомством з високими статистичними технологіями. У нашій країні в силу низки історичних обставин розвитку статистичних методів та економетрики (див. розділ 1) протягом останніх 10 років лише журнал "Заводська лабораторія" надавав такі можливості. На жаль, потік сучасних вітчизняних і перекладних статистичних книг, що випускалися раніше, зокрема, видавництвами "Наука", "Світ", "Фінанси і статистика", практично перетворився на вузький струмочок ... Можливо, більш істотним є вплив природної затримки в часі між створенням "нових статистичних технологій" і написанням повноцінної та об'ємної навчальної та методичної літератури. Вона повинна дозволяти знайомитися з новою методологією, новими методами, теоремами, алгоритмами, методами розрахунків та інтерпретації їх результатів, статистичними технологіями в цілому не за коротким оригінальним статтям, а при звичайному вузівському і післядипломному навчанні.
І, нарешті, найбільш важливе. Чи завжди потрібні високі статистичні технології? Наведемо аналогію - чи потрібна сучасна сільськогосподарська техніка для обробітку пріусадебногоучастка? Чи потрібні трактори і комбайни? Можливо, досить технологій, заснованих на використанні лопати? Повернемося до даних державної статистики. Застосовуються статистичні технології первинної обробки (опису) даних, засновані на побудові різноманітних таблиць, діаграм, графіків. Більшість споживачів статистичної інформації це подання даних задовольняє. Отже, щоб високі статистичні технології успішно використовувалися, необхідні дві умови: щоб вони були об'єктивно потрібні для вирішення практичного завдання і щоб потенційний користувач технологій суб'єктивно розумів це.
Таким чином, весь арсенал реально використовуються в даний час економетричних та статистичних технологій можна розподілити за трьома потоками:
- Високі статистичні технології;
- Класичні статистичні технології,
низькі статистичні технології.
Під класичними статистичними технологіями, як уже зазначалося, розуміємо технології поважного віку, які зберегли своє значення для сучасної статистичної практики. Такі технололгіі на основі методу найменших квадратів (включаючи методи точкового оцінювання параметрів прогностичної функції, непараметричні методи довірчого оцінювання параметрів, прогностичної функції, перевірок різних гіпотез про них - див. розділ 5), статистик типу Колмогорова, Смирнова, омега-квадрат, непараметричних коефіцієнтів кореляції Спірмена і Кендалла (відносити їх тільки до методів аналізу ранжировок - значить робити поступку "низьким статистичними технологіям", див. розділ 5) та багатьох інших статистичних процедур.
Основна сучасна проблема в області економетричних та статистичних технологій полягає в тому, щоб у конкретних економетричних дослідженнях використовувалися тільки технології перших двох типів.
Які можливі шляхи вирішення основної сучасної проблеми в області статистичних технологій?
Боротися з конкретними невігласами - справа майже безнадійна. Відстоюючи своє становище і посади, вони або нахабно ігнорують інформацію про свої помилки, як це зазвичай роблять автори підручників з "Загальної теорії статистики" та їхні видавці, або за допомогою різних бюрократичних прийомів йдуть і від відповідальності, і від виправлення помилок по суті (як це було зі стандартами за статистичними методами - див. статтю [10]). Третій варіант - визнання та виправлення помилок - зустрічається, на жаль, рідко. Але зустрічається.
Звичайно, необхідна демонстрація кваліфікованого застосування високих статистичних технологій. У 1960-70-х роках цим займалася Лабораторія статистичних методів акад.А.Н. Колмогорова в МДУ ім. М.В. Ломоносова. Секція "Математичні методи дослідження" журналу "Заволская лабораторія" опублікувала за останні 40 років понад 1000 статей у стилі "високих статистичних технологій". В даний час діє Інститут високих статистичних технологій та економетрики МГТУ ім. Н.Е. Баумана. Є, звичайно, цілий ряд інших наукових колективів, що працюють на рівні "високих статистичних технологій".
Очевидно, саме основне - це навчання. Які б нові наукові результати не були отримані, якщо вони залишаються невідомими студентам, то нове покоління економістів ії менеджерів, дослідників та інженерів змушене освоювати їх поодинці, в порядку самоосвіти, а то й переоткривать.Т. е. практично нові наукові результати майже зникають, ледь з'явившись. Як не дивно це може здатися, надлишок наукових публікацій перетворився на гальмо розвитку науки. За нашими даними, до теперішнього часу по економетричних та статистичними технологіям опубліковано не менше мільйона статей і книг, в основному в другій половині ХХ ст., З них не менше 100 тисяч є актуальними для сучасного фахівця. При цьому реальна кількість публікацій, які здатна освоїти дослідник за свою проофессіональную життя, за нашою оцінкою, не перевищує 2-3 тисяч. В усякому разі, в найбільш "товстому" російською мовою тритомнику за статистикою М. Дж. Кендалла і А. Стьюарт наведено близько 2 тисяч літературних посилань. Отже, кожен дослідник-економетрики знаком не більше ніж з 2-3% актуальних для нього літературних джерел. Оскільки суттєва частина публікацій заражена "низькими статистичними технологіями", то дослідник-самоучка, на жаль, має мало шансів вийти на рівень "високих статистичних технологій". З підтвердженнями цього сумного висновку постійно доводиться стикатися. Одночасно доводиться констатувати, що маса корисних результатів похована у виданнях минулих десятиліть і має мало шансів пробитися в ряди використовуються в даний час "високих статистичних технологій" без спеціально організованих зусиль сучасних фахівців.
Отже, основне - навчання. Кілька огрубляя, можна сказати так: що потрапило в навчальні курси та відповідні навчальні посібники - то зберігається, що не потрапило - то пропадає.
Необхідність високих статистичних технологій. Може виникнути природне запитання: навіщо потрібні високі статистичні технології, хіба не досить звичайних статистичних методів? Фахівці з економетрики справедливо вважають і доводять своїми теоретичними і прикладними роботами, що зовсім недостатньо. Так, абсолютно очевидно, що багато даних в інформаційних системах мають нечислової характер, наприклад, є словами або приймають значення з кінцевих множин. Нечислової характер мають і впорядкування, які дають експерти або менеджери, наприклад, вибираючи головну мету, наступну за важливістю і т.д. Значить, потрібна статистика нечислових даних. Ми її побудували. Далі, багато величини відомі не абсолютно точно, а з деякою погрішністю - від і до. Іншими словами, вихідні дані - не числа, а інтервали. Потрібна статистика інтервальних даних. Ми її розвиваємо. У широко відомої монографії з контролінгу [11] на с.138 добре сказано: "Нечітка логіка - потужний елегантний інструмент сучасної науки, який на Заході (і на Сході - в Японії, Китаї - А. О) можна зустріти в десятках виробів - від побутових відеокамер до систем управління озброєннями, - у нас до самого останнього часу був практично невідомий ". Нагадаємо, перша монографія російського автора з теорії нечіткості містить основи високих статистичних технологій аналізу вибірок нечітких множин (див. книгу [12]). Ні статистики нечислових даних, ні статистики інтервальних даних, ні статистики нечітких даних немає і не могло бути в класичній статистиці. Все це - високі статистичні технології. Вони розроблені за останні 10-30-50 років. А звичайні вузівські курси з загальної теорії статистики та з математичної статистики розбирають наукові результати, отримані в першій половині ХХ століття.
Важлива і дуже перспективна частина економетрики - застосування високих статистичних технологій до аналізу конкретних економічних даних, що часто вимагає додаткової теоретичної роботи з доопрацювання статистичних технологій стосовно до конкретної ситуації. Велике значення мають конкретні економетричні моделі, наприклад, моделі експертних оцінок або економетрики якості. І звичайно, такі конкретні застосування, як розрахунок та прогнозування індексу інфляції. Зараз вже багатьох ясно, що річний бухгалтерський баланс підприємства може бути використаний для оцінки його фінансово-господарської діяльності тільки з залученням даних про інфляцію (див. розділ 7).
Про підготовку фахівців з високим статистичними технологіям. Доводиться з жалем констатувати, що в Росії практично відсутня підготовка фахівців з високим статистичними технологіям. У курсах з теорії ймовірностей і математичній статистиці зазвичай даються лише класичні основи цих дисциплін, розроблені в першій половині ХХ ст., А викладачі-математики свою наукову діяльність воліють присвячувати доказу теорем, що мають лише внутріматематіческое значення, а не розвитку високих статистичних технологій. В даний час з'явилася надія на економетрику. У Росії починають розгортатися економетричні дослідження та викладання економетрики. Економісти, менеджери та інженери, перш за все фахівці з контролінгу, повинні бути озброєні сучасними засобами інформаційної підтримки, в тому числі високими статистичними технологіями і економетрикою. Очевидно, викладання повинно йти попереду практичного застосування. Адже як застосовувати те, чого не знаєш?
Наведемо два приклади - негативний і позитивний, - показують зв'язок викладання з впровадженням передових технологій.
Один раз - у 1990-1992 рр.. ми вже обпеклися на недооцінці необхідності попередньої підготовки тих, для кого призначені сучасні програмні продукти. Наш колектив (Всесоюзний центр статистичних методів та інформатики Центрального Правління Всесоюзного економічного товариства) розробив систему діалогових програмних систем забезпечення якості продукції. Їх створенням керували провідні фахівці країни. Але розповсюдження програмних продуктів йшло на 1-2 порядки повільніше, ніж ми очікували. Причина стала зрозуміла не відразу. Як виявилося, працівники підприємств просто не розуміли можливостей розроблених систем, не знали, які завдання можна вирішувати за їх допомогою, який економічний ефект вони дадуть. А не розуміли і не знали тому, що у вузах ніхто їх не вчив статистичним методам управління якістю. Без такого систематичного навчання не можна обійтися - складні концепції "на пальцях" за 5 хвилин не поясниш.
Є і протилежний приклад - позитивний. У середині 1980-х років у радянській середній школі ввели новий предмет "Інформатика". І зараз молоде покоління чудово володіє комп'ютерами, миттєво освоюючи швидко з'являються новинки, і цим помітно відрізняється від тих, кому за 30-40 років.
Якщо б вдалося ввести в середній школі курс теорії ймовірностей і статистики - а такий курс є в Японії і США, Швейцарії, Кенії і Ботсвані, майже у всіх країнах (і ЮНЕСКО проводить всесвітні конференції з викладання математичної статистики в середній школі - див збірник доповідей [ 13]) - то ситуація з впровадженням високих статистичних технологій могла б бути різко покращена. Треба, звичайно, домогтися того, щоб такий курс був побудований на високих статистичних технологіях, а не на низьких. Іншими словами, він повинен відображати сучасні досягнення, а не концепції п'ятдесятирічної або столітньої давності.

Методи статистичних випробувань (Монте-Карло) і датчики псевдовипадкових чисел

Багато економетричні інформаційні технології спираються на використання методів статистичних випробувань. Цей термін застосовується для позначення комп'ютерних технологій, в яких у економетричну модель штучно вводиться велика кількість випадкових елементів. Зазвичай моделюється послідовність незалежних однаково розподілених випадкових величин або ж послідовність, побудована на основі такої, наприклад, послідовність накопичуються (кумулятивних) сум.
Необхідність у методі статистичних випробувань виникає тому, що чисто теоретичні методи дають точне рішення, як правило, лише у виняткових випадках. Або тоді, коли вихідні випадкові величини мають цілком певні функції розподілу, наприклад, нормальні, чого, як правило, не буває. Або коли обсяги вибірок дуже великі (з практичної точки зору - нескінченні). Ця проблема вже обговорювалася в главі 10.
Не тільки в суто економетричних задачах обробки статистичних даних виникає необхідність в методі статистичних випробувань. Вона не менш актуальна і при економіко-математичному моделюванні техніко-економічних і торговельних процесів. Уявімо собі всім знайомий об'єкт - торговий зал самообслуговування з продажу продовольчих товарів. Скільки потрібно працівників у залі, скільки кас? Необхідно прорахувати завантаження в різний час доби, в різні сезони року, з урахуванням заміни товарів і зміни співробітників. Неважко побачити, що теоретичному аналізу подібна система не піддається, а комп'ютерному - цілком.
Методи статистичних випробувань стали розвиватися після другої світової війни з появою комп'ютерів. Друга назва - методи Монте-Карло - вони отримали по найбільш відомому ігорному будинку, а точніше, за його рулетці, оскільки вихідний матеріал для отримання випадкових чисел з довільним розподілом - це випадкові натуральні числа.
У методах статистичних випробувань можна виділити дві складові. Базою є датчики псевдовипадкових чисел. Результатом роботи таких датчиків є послідовності чисел, які мають деякі властивості послідовностей випадкових величин (в сенсі теорії ймовірностей). Надбудовою є різні алгоритми, які використовують послідовності псевдовипадкових чисел.
Що ж це можуть бути за алгоритми? Наведемо приклади. Нехай ми вивчаємо розподіл деякою статистики при заданому обсязі вибірки. Тоді природно багато разів (наприклад, 100000 разів) змоделювати вибірку заданого обсягу (тобто набір незалежних однаково розподілених випадкових величин) і розрахувати значення статистики. Потім по 100000 значенням статистики можна досить точно побудувати функцію розподілу досліджуваної статистики, оцінити її характеристики. Однак ця схема годиться лише для так званої "вільної від розподілу" статистики, розподіл якої не залежить від розподілу елементів вибірки. Якщо ж така залежність є, то однією точкою моделювання не обійдешся, доведеться багато разів моделювати вибірку, беручи різні розподілу, змінюючи параметри. Щоб загальний час моделювання було прийнятним, можливо, доведеться скоротити число моделювань в одній точці, зате збільшивши загальне число точок. Точність моделювання може бути оцінена за загальними правилами вибіркових обстежень (див. розділ 2).
Другий приклад - частково описане вище моделювання роботи торгового залу самообслуговування з продажу продовольчих товарів. Тут одна послідовність псевдовипадкових чисел описує інтервали між появами покупців, друга, третя і т.д. пов'язані з вибором ними першого, другого і т.д. товарів у залі (наприклад, число - номер у переліку товарів). Коротше, всі дії покупців, продавців, працівників підприємства розбиті на операції, кожна операція, в тривалості чи іншій характеристиці якої є випадковість, моделюється за допомогою відповідної послідовності псевдовипадкових чисел. Потім підсумки роботи співробітників організації торгівлі та залу в цілому виражаються через характеристики випадкових величин. Формулюється критерій оптимальності, вирішується задача оптимізації і знаходяться оптимальні значення параметрів.
Оптимальні плани статистичного контролю, побудовані на основі ймовірнісно-статистичних моделей, будуються в главі 13.
Тепер обговоримо властивості датчиків псевдовипадкових чисел. Тут стоїть слово "псевдовипадкові", а не "випадкові". Це дуже важливо.
Справа в тому, що за останні 50 років обговорювалися в основному три принципово різних варіанти отримання послідовностей чисел, які в подальшому використовувалися в методах статистичних випробувань.
Перший - таблиця випадкових чисел. На жаль, обсяг будь-якої таблиці кінцевий, і скільки-небудь складні розрахунки з її допомогою неможливі. Через деякий час доводиться повторюватися. Крім того, зазвичай виявлялися ті чи інші відхилення від випадковості (див. про це в роботі [9]).
Другий - фізичні датчики випадкових чисел. Основний недолік - нестабільність, непередбачувані відхилення від заданого розподілу (зазвичай - рівномірного).
Третій - розрахунковий. У найпростішому випадку кожен наступний член послідовності розраховується за попереднім. Наприклад, так:

де z0 - початкове значення (заданий ціле позитивне число) M - параметр алгоритму (заданий ціле позитивне число), P = 2m, де m - число двійкових розрядів подання чисел, з якими маніпулює комп'ютер. Знак

тут означає теоретико-числову операцію порівняння, тобто взяття дробової частини від

і відкидання цілою.

В даний час застосовується саме третій варіант. Абсолютно ясно, що він не відповідає інтуїтивному уявленню про випадковості. Наприклад, інтуїтивно очевидно, що за попереднього елемента випадкової послідовності з незалежними елементами не можна передбачити значення наступного елементу. Розрахунковий шлях отримання послідовності псевдовипадкових чисел суперечить не тільки інтуїції, але й підходу до визначення випадковості на основі теорії алгоритмів, розвиненому акад.А.Н. Колмогоровим і його учнями в 1960-х роках. Однак у багатьох прикладних завданнях він працює, і це основне.
Методу статистичних випробувань присвячена велика література (див., наприклад, монографії [14-16]). Час від часу виявляються недоліки у популярних датчиків псевдовипадкових чисел. Так, наприклад, в середині 1980-х років з'ясувалося, що для одного з найбільш відомих датчиків

Після цього в 1985 р. в журналі "Заводська лабораторія" почалася дискусія про якість датчиків псевдовипадкових чисел, яка тривала до 1993 р. і закінчилася статтею проф.С.М. Єрмакова [17] і нашим коментарем.
Підсумки можна підвести так. У багатьох випадках вирішується методом статистичних випробувань завдання зводиться до оцінки ймовірності попадання в деяку областю в багатовимірному просторі фіксованого розмірності. Тоді з чисто математичних міркувань теорії чисел випливає, що за допомогою датчиків псевдовипадкових чисел поставлена задача вирішується коректно. Підсумок відповідних математичних обгрунтувань наведена, наприклад, у роботі С.М. Єрмакова [17].
В інших випадках доводиться розглядати ймовірності попадання в області в просторах змінної розмірності. Типовим прикладом є ситуація, коли на кожному кроці проводиться перевірка, і за її результатами або залишаємося в даному просторі, або переходимо в простір більшої розмірності. Наприклад, у розділі 5 при оцінюванні ступеня многочлена або зупинялися на даній ступеня, або збільшували ступінь, переходячи в параметричне простір більшої розмірності. Так от, питання про обгрунтованість застосування методу статистичних випробувань (а точніше, про властивості датчиків псевдовипадкових чисел) у разі просторів змінної розмірності залишається в даний час відкритим. Про важливість цієї проблеми говорив академік РАН Ю.В. Прохоров на Першому Всесвітньому Конгресі Товариства математичної статистики і теорії ймовірностей ім. Бернуллі (Ташкент, 1986 р).
Імітаційне моделювання. Оскільки постійно говоримо про моделювання, наведемо кілька загальних формулювань.
Модель в загальному сенсі (узагальнена модель) - це створюваний з метою отримання і (або) зберігання інформації специфічний об'єкт (у формі уявного образу, опису знаковими засобами або матеріальної системи), що відбиває властивості, характеристики і зв'язки об'єкта-оригіналу довільної природи, суттєві для завдання, розв'язуваної суб'єктом (це визначення взято з монографії [18, с.44]).
Наприклад, в менеджменті виробничих систем використовують:
- Моделі технологічних процесів (контроль і управління з техніко-економічним критеріям, АСУ ТП - автоматизовані системи управління технологічними процесами);
- Моделі управління якістю продукції (зокрема, моделі оцінки і контролю надійності);
- Моделі масового обслуговування (теорії черг);
- Моделі управління запасами (у сучасній термінології - моделі логістики, тобто теорії і практики управління матеріальними, фінансовими та інформаційними потоками);
- Імітаційні та економетричні моделі діяльності підприємства (як єдиного цілого) і управління ним (АСУ підприємством) та ін
Згідно академіку РАН М.М. Мойсеєву [19, с.213], імітаційна система - це сукупність моделей, що імітують протікання досліджуваного процесу, об'єднана зі спеціальною системою допоміжних програм та інформаційною базою, що дозволяють досить просто і оперативно реалізувати варіантні розрахунки. Іншими словами, імітаційна система - це сукупність імітаційних моделей. А імітаційна модель призначена для відповідей на запитання на кшталт: "Що буде, якщо ..." Що буде, якщо параметри приймуть ті чи інші значення? Що буде з ціною на продукцію, якщо попит буде падати, а число конкурентів рости? Що буде, якщо держава різко посилить втручання в економіку? Що буде, якщо зупинку громадського транспорту перенесуть на 100 м далі від входу в торговий зал, про який йшла мова вище, і потік покупців різко впаде? Крім комп'ютерних моделей, на питання подібного типу часто відповідають експерти при використанні методу сценаріїв (див. розділ 12).
При імітаційному моделюванні часто використовується метод статистичних випробувань (Монте-Карло). Теорію і практику машинних імітаційних експериментів з моделями економічних систем ще 30 років тому докладно розібрав Т. Нейлор в обширній класичної монографії [20]. Повернемося до внутріеконометріческому застосування датчиків псевдовипадкових чисел.

Методи розмноження вибірок (бутстреп-методи)

Економетрика та прикладна статистика бурхливо розвиваються останні десятиліття. Серйозним (хоча, зрозуміло, не єдиним і не головним) стимулом є стрімко зростаюча продуктивність обчислювальних засобів. Тому зрозумілий гострий інтерес до статистичних методів, інтенсивно використовують комп'ютери. Одним з таких методів є так званий "бутстреп", запропонований в 1977 р.Б. Ефроном з Стенфордського університету (США).
Сам термін "бутстреп" - це "bootstrap" руськими буквами і буквально означає щось на кшталт: "витягування себе (з болота) за шнурки від черевиків". Термін спеціально придуманий і змушує згадати про подвиги барона Мюнхгаузена.
В історії економетрики було кілька більш-менш успішно здійснених рекламних кампаній. У кожній з них "розкручувався" той чи інший метод, який, як правило, відповідав кільком умовам:
- На думку його пропагандистів, повністю вирішував актуальну наукову задачу;
- Був зрозумілий (при постановці завдання, при її вирішенні і при інтерпретації результатів) широким масам потенційних користувачів;
- Використав сучасні можливості обчислювальної техніки.
Пропагандисти методу, як правило, уникали неупередженого порівняння його можливостей з можливостями інших економетричних методів. Якщо порівняння й проводилися, то зі свідомо слабким "противником".
У нашій країні в умовах відсутності систематичного економетричного освіти подібні рекламні кампанії знаходили особливо сприятливий грунт, оскільки у більшості порушених ними фахівців не було достатніх знань в області методології побудови економетричних моделей для того, щоб скласти самостійне кваліфіковане думку.
Мова йде про такі методи як бутстреп, нейронні мережі, метод групового обліку аргументів, робастні оцінки за Тьюкі-Хубер (див. розділ 10), асимптотика пропорційного зростання числа параметрів і об'єму даних і ін Бувають локальні сплески ентузіазму, наприклад, московські соціологи в 1980-х роках пропагували так званий "детермінаціонние аналіз" - простий евристичний метод аналізу таблиць спряженості, хоча в Новосибірську в цей час давно вже було розроблено просунуте програмне забезпечення аналізу векторів різнотипних ознак (див. розділ 8).
Однак навіть на тлі всіх інших рекламних кампаній доля бутстреп виняткова. По-перше, визнаний його автор Б. Ефрон з самого початку зізнавався, що він нічого принципово нового не зробив. Його вихідна стаття (перша в збірнику [21]) називалася: "бутстреп-методи: новий погляд на методи складного ножа". По-друге, відразу з'явилися статті та дискусії в наукових виданнях, публікації рекламного характеру, і навіть у науково-популярних журналах. Бурхливі обговорення на конференціях, строковий випуск книг. У 1980-і роки фінансова підгрунтя всієї цієї активності, пов'язана з вибиванням грантів на наукову діяльність, утримання навчальних закладів і т.п. була мало зрозуміла вітчизняним фахівцям.
У чому основна ідея групи методів "розмноження вибірок", найбільш відомим представником яких є бутстреп?
Нехай дана вибірка

. У ймовірнісно-статистичної теорії припускаємо, що це - набір незалежних однаково розподілених випадкових величин. Нехай економетрика цікавить деяка статистика

Як вивчити її властивості? Подібними проблемами ми займалися протягом всієї книги і знаємо, наскільки це непросто. Ідея, яку запропонував у 1949 Г.М. Кенуй (це і є "метод складного ножа") полягає в тому, щоб з однієї вибірки зробити багато, виключаючи по одному спостереженню (і повертаючи раніше виключені). Перерахуємо вибірки, які виходять з вихідної:

;
...

;

Всього n нових (розмножених) вибірок обсягом (n-1) кожна. По кожній з них можна розрахувати значення цікавить економетрика статистики (зі зменшеним на 1 обсягом вибірки):

...

Отримані значення статистики дозволяють судити про її розподіл і про характеристики розподілу - про математичне сподівання, медіані, квантиль, розкиді, середньому квадратичному відхиленні. Значення статистики, побудовані за розмноженим підвибірках, не є незалежними, однак, як ми бачили в розділі 5 на прикладі ряду статистик, що виникають у методі найменших квадратів і в кластер-аналізі (при обговоренні можливості об'єднання двох кластерів), при зростанні обсягу вибірки вплив залежно може слабшати і зі значеннями статистик типу

можна звертатися як з незалежними випадковими величинами.
Однак і без всякої ймовірнісно-статистичної теорії розкид величин

дає наочне уявлення про те, яку точність може дати розглянута статистична оцінка.
Сам М. Кенуй і його послідовники використовували розмноження вибірок в основному для побудови оцінок із зменшеним зміщенням. А от Б. Ефрон перемінив новий спосіб розмноження вибірок, істотно використовує датчики псевдовипадкових чисел. А саме, він запропонував будувати нові вибірки, моделюючи вибірки з емпіричного розподілу (див. визначення в термінологічному Додатку 1 в кінці книги). Іншими словами, Б. Ефрон запропонував взяти кінцеву сукупність з n елементів вихідної вибірки

і за допомогою датчика випадкових чисел сформувати з неї будь-яке число розмножених вибірок. Процедура, хоча і нереальна без ЕОМ, проста з точки зору програмування. У порівнянні з описаною вище процедурою з'являються нові недоліки - неминучі збіги елементів розмножених вибірок і залежність від якості датчиків псевдовипадкових чисел (див. вище). Однак існує математична теорія, що дозволяє (при деяких припущеннях і безмежному зростанні обсягу вибірки) обгрунтувати процедури бутстреп (див. збірник статей [21]).
Є багато способів розвитку ідеї розмноження вибірок (див., наприклад, статтю [22]). Можна по вихідної вибірці побудувати емпіричну функцію розподілу, а потім якимось чином від кусково-постійною функції перейти до безперервної функції розподілу, наприклад, з'єднавши точки

відрізками прямих. Інший варіант - перейти до безперервного розподілу, побудувавши непараметричних оцінку щільності. Після цього рекомендується брати розмножені вибірки з цього безперервного розподілу (що є заможної оцінкою вихідного), безперервність захистить від збігів елементів у цих вибірках.
Інший варіант побудови розмножених вибірок - більш прямий. Вихідні дані не можуть бути визначені абсолютно точно і однозначно. Тому пропонується до вихідних даних додавати малі незалежні однаково розподілені похибки. При такому підході одночасно з'єднуємо разом ідеї стійкості (див. главу 10) і бутстреп. При уважному аналізі багато ідей економетрики тісно один з одним пов'язані (див. статтю [22]).
У яких випадках доцільно застосовувати бутстреп, а в яких - інші економетричні методи? У період рекламної кампанії зустрічалися, в тому числі в науково-популярних журналах, твердження про те, що і для оцінювання математичного сподівання корисний бутстреп. Як показано в статті [22], це зовсім не так. При зростанні числа випробувань методом Монте-Карло бутстреп-оцінка наближається до класичної оцінці - середньому арифметичному результатів спостережень. Іншими словами, бутстреп-оцінка відрізняється від класичної тільки шумом псевдовипадкових чисел.
Аналогічною є ситуація і в ряді інших випадків. Там, де економетрична теорія добре розвинена, де знайдені методи аналізу даних, у тому чи іншої сенсі близькі до оптимальних, бутстреп робити нічого. А от у нових галузях зі складними алгоритмами, властивості яких недостатньо ясні, він представляє собою цінний інструмент для вивчення ситуації.

Економетрика в контролінгу

Контролеру і співпрацювати з ним економетрику потрібна різноманітна економічна та управлінська інформація, не менш потрібні зручні інструменти її аналізу. Отже, інформаційна підтримка контролінгу необхідна для успішної роботи контролера. Без сучасних комп'ютерних інструментів аналізу та управління, заснованих на просунутих економетричних та економіко-математичних методах і моделях, неможливо ефективно приймати управлінські рішення. Недарма фахівці з контролінгу велику увагу приділяють проблемам створення, розвитку та застосування комп'ютерних систем підтримки прийняття рішень. Високі статистичні технології та економетрика - невід'ємні частини будь-якої сучасної системи підтримки прийняття економічних і управлінських рішень.
Важлива частина економетрики - застосування високих статистичних технологій до аналізу конкретних економічних даних. Такі дослідження часто вимагають додаткової теоретичної роботи з "доведенні" статистичних технологій стосовно до конкретної ситуації. Велике значення для контролінгу мають не тільки загальні методи, а й конкретні економетричні моделі, наприклад, ймовірнісно-статистичні моделі тих чи інших процедур експертних оцінок (глава 12) або економетрики якості (розділ 13), імітаційні моделі діяльності організації, прогнозування в умовах ризику ( розділ 14). І звичайно, такі конкретні застосування, як розрахунок та прогнозування індексу інфляції. Зараз вже багатьом фахівцям зрозуміло, що річний бухгалтерський баланс підприємства може бути використаний для оцінки його фінансово-господарської діяльності тільки з залученням даних про інфляцію. Різні галузі економічної теорії і практики в даний час ще далеко не узгоджені. При оцінці і порівнянні інвестиційних проектів прийнято використовувати такі характеристики, як чиста поточна вартість, внутрішня норма прибутковості, засновані на введенні в розгляд зміни вартості грошової одиниці в часі (це здійснюється за допомогою дисконтування). А при аналізі фінансово-господарської діяльності організації на основі даних бухгалтерської звітності зміна вартості грошової одиниці в часі за традицією не враховують.
Фахівці з контролінгу повинні бути озброєні сучасними засобами інформаційної підтримки, в тому числі засобами на основі високих статистичних технологій та економетрики. Очевидно, викладання повинно йти попереду практичного застосування. Адже як застосовувати те, чого не знаєш?
Статистичні технології застосовують для аналізу даних двох принципово різних типів. Один з них - це результати вимірювань (спостережень, випробувань, аналізів, дослідів та ін) різних видів, наприклад, результати управлінського чи бухгалтерського обліку, дані Держкомстату та ін Коротше, мова йде про об'єктивну інформації. Інший - це оцінки експертів, на основі свого досвіду та інтуїції роблять висновки щодо економічних явищ і процесів. Очевидно, це - суб'єктивна інформація. У стабільній економічній ситуації, що дозволяє розглядати довгі часові ряди тих чи інших економічних величин, отриманих у співставних умовах, дані першого типу цілком адекватні. У швидко мінливих умовах припадають спиратися на експертні оцінки. Така новітня частина економетрики, як статистика нечислових даних, була створена як відповідь на запити теорії і практики експертних оцінок (див. глави 8 і 12).
Для вирішення яких економічних завдань може бути корисна економетрика? Практично для всіх, що використовують конкретну інформацію про реальний світ. Тільки чисто абстрактні, абстрактні від реальності дослідження можуть обійтися без неї. Зокрема, економетрика необхідна для прогнозування, в тому числі поведінки споживачів, а тому і для планування. Вибіркові дослідження, в тому числі вибірковий контроль, засновані на економетрики. Але планування і контроль - основа контролінгу. Тому економетрика - важлива складова інструментарію контролера, втіленого в комп'ютерній системі підтримки прийняття рішень. Перш за все оптимальних рішень, які припускають опору на адекватні економетричні моделі. У виробничому менеджменті це може означати, наприклад, використання моделей екстремального планування експерименту (судячи з накопиченому досвіду їх практичного використання, такі моделі дозволяють підвищити вихід корисного продукту на 30-300%).
Високі статистичні технології в економетрики припускають адаптацію застосовуваних методів до мінливої ситуації. Наприклад, параметри прогностичного індексу змінюються услід за зміною характеристик використовуваних для прогнозування величин. Такий метод експоненціального згладжування. У відповідному алгоритмі розрахунків значення часового ряду використовуються з вагами. Ваги зменшуються в міру віддалення в минуле. Багато методів дискримінантного аналізу засновані на застосуванні навчальних вибірок. Наприклад, для побудови рейтингу надійності банків можна за допомогою експертів скласти дві навчальні вибірки - надійних і ненадійних банків. А потім з їх допомогою вирішувати для знову розглянутого банку, який він - надійний або ненадійний, а також оцінювати його надійність чисельно, тобто обчислювати значення рейтингу.
Один із способів побудови адаптивних економетричних моделей - нейронні мережі (див., наприклад, монографію [23]). При цьому наголос робиться не на формулювання адаптивних алгоритмів аналізу даних, а - в більшості випадків - на побудову віртуальної адаптивної структури. Термін "віртуальна" означає, що "нейронна мережа" - це спеціалізована комп'ютерна програма, "нейрони" використовуються лише при спілкуванні людини з комп'ютером. Методологія нейронних мереж йде від ідей кібернетики 1940-х років. У комп'ютері створюється модель мозку людини (вельми примітивна з точки зору фізіолога). Основа моделі - дуже прості базові елементи, звані нейронами. Вони з'єднані між собою, так що нейронні мережі можна порівняти з добре знайомими економістам і інженерам блок-схемами. Кожен нейрон перебуває в одному із заданої множини станів. Він отримує імпульси від сусідів по мережі, змінює свій стан і сам розсилає імпульси. В результаті стан безлічі нейтронів змінюється, що відповідає проведення економетричних обчислень.
Нейрони зазвичай об'єднуються в шари (як правило, два-три). Серед них виділяються вхідний і вихідний шари. Перед початком вирішення тієї чи іншої задачі відбувається налаштування. По-перше, встановлюються зв'язки між нейронами, що відповідають розв'язуваної задачі. По-друге, проводиться навчання, тобто через нейронну мережу пропускаються навчальні вибірки, для елементів яких необхідні результати розрахунків відомі. Потім параметри мережі модифікуються так, щоб отримати максимальну відповідність вихідних значень заданим величинам.
З точки зору точності розрахунків (та оптимальності в тому чи іншому економетричної сенсі) нейронні мережі не мають переваг перед іншими адаптивними економетричними системами. Проте вони більш прості для сприйняття. Треба відзначити, що в економетрики використовуються і моделі, проміжні між нейронними мережами і "звичайними" системами регресійних рівнянь (одночасних і з лагами). Вони теж використовують блок-схеми, як, наприклад, універсальний метод моделювання зв'язків економічних факторів ЖОК (цей метод описаний в роботі [24]).
Помітне місце у математико-комп'ютерному забезпеченні прийняття рішень в контролінгу займають методи теорії нечіткості (по-англійськи - fuzzy theory, причому термін fuzzy перекладають на російську мову по-різному: нечіткий, розмитий, розпливчастий, туманний, пухнастий і ін.) Початок сучасної теорії нечіткості покладено роботою Л.А. Заде 1965р., Хоча витоки простежуються з часів Стародавньої Греції (про історію теорії нечіткості див., наприклад, книгу [12]). Цей напрямок прикладної математики в останній третині ХХ ст. отримало бурхливий розвиток. До теперішнього часу по теорії нечіткості опубліковані тисячі книг і статей, видається кілька міжнародних журналів (половина - у Китаї та Японії), постійно проводяться міжнародні конференції, виконано досить багато як теоретичних, так і прикладних наукових робіт, практичні додатки дали відчутний техніко-економічний ефект .
Основоположник розглянутого наукового напрямку Лотфі А. Заде розглядав теорію нечітких множин як апарат аналізу та моделювання гуманістичних систем, тобто систем, в яких бере участь людина. Його підхід спирається на передумову про те, що елементами мислення людини є не числа, а елементи деяких нечітких множин або класів об'єктів, для яких перехід від "приналежності" до "неналежності" не скачкообразен, а безперервний. В даний час методи теорії нечіткості використовуються майже у всіх прикладних областях, у тому числі при управлінні якістю продукції і технологічними процесами.
Нечітка математика і логіка - потужний елегантний інструмент сучасної науки, який на Заході і на Сході (у Японії, Китаї, Кореї) можна зустріти в програмному забезпеченні сотень видів виробів - від іграшок і побутових відеокамер до систем управління підприємствами. У Росії він був досить добре відомий з початку 1970-х років. Однак перша монографія російського автора з теорії нечіткості [12] була опублікована лише в 1980 р. Надалі проводилися раз на рік всесоюзні конференції збирали близько 100 учасників - за світовими мірками небагато. В даний час інтерес до теорії нечіткості серед економістів і менеджерів зростає.
При викладі теорії нечітких множин зазвичай не підкреслюється зв'язок з імовірнісними моделями. Тим часом ще в середині 1970-х років встановлено (цикл відповідних теорем наведено, зокрема, в монографії [12], але це аж ніяк не перша публікація), що теорія нечіткості в певному сенсі зводиться до теорії випадкових множин, хоча цей зв'язок і має , можливо, лише теоретичне значення. У США подібні роботи з'явилися років на п'ять пізніше.
Професіоналові у сфері контроллинга корисні численні інтелектуальні інструменти аналізу даних, пов'язані з високим статистичними технологіям і економетрики.

Література

1. Корнілов С.Г. Накопичення помилки першого роду при повторній перевірці статистичних гіпотез. Регламент повторних перевірок. / / Заводська лабораторія. 1996. Т.62. Nо.5. С.45-51.
2. Камінь Ю.Е., Камінь Я.Е., Орлов О.І. Реальні і номінальні рівні значущості в задачах перевірки статистичних гіпотез. / / Заводська лабораторія. 1986. Т.52. No.12. С.55-57.
3. Налімов В.В. Застосування математичної статистики при аналізі речовини. - М.: Физматгиз, 1960. - 430 с.
4. Орлов О.І. Поширена помилка при використанні критеріїв Колмогорова і омега-квадрат. / / Заводська лабораторія. 1985. Т.51. No.1. С.60-62.
5. Більше Л.М., Смирнов Н.В. Таблиці математичної статистики. Изд.3-е. - М.: Наука, 1983. - 416 с.
6. Орлов О.І. Про сучасні проблеми впровадження прикладної статистики та інших статистичних методів. / / Заводська лабораторія. 1992. Т.58. No.1. С.67-74.
7. Орлов О.І. Деякі імовірнісні питання теорії класифікації. - В зб.: Прикладна статистика. Вчені записки за статистикою, Т.45. - М.: Наука, 1983. С.166-179.
8. Нікітіна Є.П., Фрейдліна В.Д., Ярхо А.В. Колекція визначень терміна "статистика" / міжфакультетські лабораторія статистичних методів. Вип.37. - М.: Изд-во Московського державного університету ім. М.В. Ломоносова, 1972. - 46 с.
9. Орлов О.І. Що дає прикладна статистика народному господарству? / / Вісник статистики. - 1986. - No.8. - С.52-56.
10. Орлов О.І. Сертифікація та статистичні методи (узагальнююча стаття). / / Заводська лабораторія. - 1997. - Т.63. - No.З. - С.55-62.
11. Контролінг у бізнесі. Методологічні та практичні засади побудови контролінгу в організаціях / А.М. Кармінський, Н.І. Оленєв, А.Г. Примак, С.Г. Фалько. - М.: Фінанси і статистика, 1998. - 256 с.
12. Орлов О.І. Завдання оптимізації і нечіткі змінні. - М.: Знание, 1980. - 64 с.
13. The teaching of statistics / Studies in mathematics education. Vol.7. - Paris, UNESCO, 1989. - 258 pp.
14. Єрмаков С.М. Метод Монте-Карло і суміжні питання. - М.: Наука, 1975. - 471 с.
15. Єрмаков С.М., Михайлов Г.А. Статистичне моделювання. - М.: Наука, 1982. - 296 с.
16. Іванова І.М. Випадкові числа і їх застосування. - М.: Фінанси і статистика, 1984. - 111 с.
17. Єрмаков С.М. Про датчиках випадкових чисел. / / Заводська лабораторія. 1993. Т.59. No.7. С.48-50.
18. Неуймін Я.Г. Моделі в науці і техніці. Історія, теорія, практика. - Л.: Наука, 1984. - 190 с.
19. Мойсеєв М.М. Математичні завдання системного аналізу. - М.: Наука, 1981. - 488 с.
20. Нейлор Т. Машинні імітаційні експерименти з моделями економічних систем. - М.: Світ, 1975. - 500 с.
21. Ефрон Б. Нетрадиційні методи багатовимірного статистичного аналізу. - М.: Фінанси і статистика, 1988. - 263 с.
22. Орлов О.І. Про реальні можливості бутстреп як статистичного методу. / / Заводська лабораторія. 1987. Т.53. No.10. С.82-85.
23. Бестенс Д.Е., Берт В.М. ван дер, Вуд Д. Нейронні мережі і фінансові ринки: прийняття рішень в торгових операціях. - М.: ТВП, 1998.
24. Орлов О.І., Жихарєв В.М., Кольцов В.Г. Новий економетричний метод "ЖОК" оцінки результатів взаємовпливів факторів в інженерному менеджменті / / Проблеми технології, управління та економіки / Під загальною редакцією к. е.. н. Панкова В.А. Ч.1. Краматорськ: Донбаська державна машинобудівна академія, 1999. С.87-89.

Інформаційні технології в економетрики

Проблема множинних перевірок статистичних гіпотез

Методи статистичних випробувань (Монте-Карло) і датчики псевдовипадкових чисел

Методи розмноження вибірок (бутстреп-методи)

Економетрика в контролінгу

Література