Вибіркові дослідження в економетрики

Обсяг групи
Частка р *

Близько 10% або 90%

Близько 20% або 80%

Близько 30% або 70%

Близько 40% або 60%

Близько 50%

РЕФЕРАТ
За економетрики
Вибіркові дослідження

Термін "вибіркові дослідження" застосовують, коли неможливо вивчити всі одиниці представляє інтерес сукупності. Доводиться знайомитися з частиною сукупності - з вибіркою, а потім за допомогою економетричних методів і моделей переносити висновки з вибірки на всю сукупність. В якості прикладу розглянемо вибіркові дослідження переваг споживачів, які часто проводять фахівці з маркетингу.
Побудова вибіркової функції попиту
Функція попиту часто зустрічається в економічних підручниках, але при цьому зазвичай не розповідається, як вона отримана. Між тим оцінити її за емпіричними даними не так уже й важко. Ми часто з'ясовуємо очікуваний попит, виконуючи прості прийому - запитуємо потенційних споживачів: "Яку максимальну ціну Ви заплатили б за такий-то товар?" Нехай для визначеності мова йде про конкретний навчальному посібнику з менеджменту. В одному з експериментів вибірка складалася з 20 опитаних. Вони назвали такі максимально допустимі для них ціни (у рублях за станом на вересень 1998 р.):
40, 25, 30, 50, 35, 20, 50, 32, 15, 40, 20, 40, 45, 30, 50, 25, 35, 20, 35, 40.
Першим ділом названі величини треба впорядкувати в порядку зростання. Результати представлені в табл.1. У першому стовпці - номери різних чисельних значень (у порядку зростання), названих споживачами. У другому стовпці наведено самі значення ціни, названі ними. У третьому стовпці зазначено, скільки разів названо те чи інше значення.

Табл.1. Емпірична оцінка функції попиту та її використання

№ п / п (i)	Ціна pi	Ni	Попит D (pi)	Прибуток (P-10) D (р)	Прибуток (P-15) D (р)	Прибуток (P-25) D (р)
1	15	1	20	100	0	-
2	20	3	19	190	95	-
3	25	2	16	240	160	0
4	30	2	14	280	210	70
5	32	1	12	264	204	84
6	35	3	11	275	220	110
7	40	4	8	240	200	120
8	45	1	4	140	120	80
9	50	3	3	120	105	75

Таким чином, 20 споживачів назвали 9 конкретних значень ціни (максимально допустимих, або прийнятних для них значень), кожне з значень, як видно з третього стовпця, названо від 1 до 4 разів. Тепер легко побудувати вибіркову функцію попиту залежно від ціни. Вона буде представлена в четвертому стовпці, який заповнимо знизу вгору. Якщо ми будемо пропонувати товар за ціною понад 50 руб., То його не купить ніхто з опитаних. При ціні 50 крб. з'являються 3 покупця. Записуємо 3 в четвертий стовпець у дев'яту рядок. А якщо ціну знизити до 45? Тоді товар куплять четверо - той єдиний, для кого максимально можлива ціна - 45, і ті троє, хто був згоден на велику ціну - 50 руб. Таким чином, легко заповнити стовпець 4, діючи за правилом: значення в клітці четвертого стовпця дорівнює сумі значень у що знаходиться зліва клітці третього стовпця і в що лежить знизу клітці четвертого стовпця. Наприклад, за 30 руб. куплять товар 14 осіб, а за 20 руб. - 19.
Залежність попиту від ціни - це залежність четвертого стовпця від другого. Табл.1 дає нам дев'ять точок такої залежності. Залежність можна представити на малюнку, в координатах «попит - ціна». Якщо абсциса - це попит, а ордината - ціна, то дев'ять точок на кривій попиту, перелічені в порядку зростання абсциси, мають вигляд:
(3; 50), (4; 45), (8; 40), (11; 35), (12; 32), (14; 30), (16; 25), (19; 20), (20 ; 15).
\ S

Ці дев'ять точок можна використовувати для побудови кривої попиту будь-яким графічним або розрахунковим способом, наприклад, методом найменших квадратів (див. нижче Розділ 5). Крива попиту, як і має бути згідно підручникам економічної теорії, убуває, маючи напрямки від лівого верхнього кута креслення до правого. Однак помітні відхилення від гладкого вигляду функції, пов'язані, зокрема, з природним пристрастю споживачів до круглих числах. Зауважте, всі опитані, крім одного, назвали числа, кратні 5 руб.
Дані табл.1 можуть бути використані для вибору ціни продавцем-монополістом (або діє на ринку монополістичної конкуренції). Нехай витрати на виготовлення одиниці товару рівні 10 руб. (Наприклад, оптова ціна книги - 10 руб.). За якою ціною її продавати на тому ринку, функцію попиту для якого ми тільки що знайшли? Для відповіді на це питання обчислимо сумарний прибуток, тобто твір прибутку на одному екземплярі (p-10) на число проданих (точніше, запитаних) примірників D (p). Результати наведені в п'ятому стовпці табл.1. Максимальний прибуток, що дорівнює 280 руб., Досягається при ціні 30 крб. за примірник. При цьому з 20 потенційних покупців опиняться в стані заплатити за книгу 14, тобто 70%.
Якщо ж питомі витрати виробництва, що припадають на одну книгу (або оптова ціна), підвищаться до 15 руб., То дані стовпця 6 табл.1 показують, що максимальний прибуток, що дорівнює 220 руб. (Вона, зрозуміло, менше, ніж у попередньому випадку), досягається при більш високій ціні - 35 руб. Ця ціна доступна 11 потенційним покупцям, тобто 55% від усіх можливих покупців. При подальшому підвищенні витрат, скажімо, до 25 руб., Як випливає з даних стовпця 7 табл.1, максимальна прибуток, що дорівнює 120 руб., Досягається при ціні 40 крб. за одиницю товару, що є 8 особам, тобто 40% покупців. Відзначте, що при підвищенні оптової ціни на 10 руб. виявилося вигідним збільшити роздрібну лише на 5, оскільки більш різке підвищення призвело б до такого скорочення попиту, яке перекрило б ефект від підвищення питомої прибутку (тобто прибутку, що припадає на одну продану книгу).
Представляє інтерес аналіз оптимального обсягу випуску при різних значеннях питомих витрат (табл.2).
Табл.2. Прибуток при різних значеннях витрат

№ п / п (i)	Ціна pi	Попит D (pi)	Прибуток (P-5) D (р)	Прибуток (P-20) D (р)	Прибуток (P-30) D (р)	Прибуток (P-35) D (р)	Прибуток (P-40) D (р)
1	15	20	200	-	-	-	-
2	20	19	285	0	-	-	-
3	25	16	320	80	-	-	-
4	30	14	350 *	140	0	-	-
5	32	12	324	144	24	-	-
6	35	11	330	165 *	55	0	-
7	40	8	280	160	80 *	40	0
8	45	4	160	100	60	40	20
9	50	3	135	90	60	45 *	30 *

У табл.2 зірочками зазначені максимальні значення прибутку при тому чи іншому значенні витрат, не включеному в табл.1. Для легкості огляду результати про оптимальні обсяги випуску і відповідних цінах з табл. 1 і 2 наведені в табл.3.

Табл.3. Залежність оптимального випуску і ціни від витрат

Витрати	5	10	15	20	25	30	35	40
Оптимальний випуск	14	14	11	11	8	8	3	3
Ціна	30	30	35	35	40	40	50	50

Як видно з таблиці 3, із зростанням витрат оптимальний випуск падає, а ціна зростає. При цьому зміна витрат на 5 одиниць може викликати, а може й не викликати підвищення ціни. У цьому виявляється мікроструктура функції попиту - невелике підвищення ціни може призвести до того, що значні групи покупців відмовляться від покупок, і прибуток впаде.
Цей ефект нагадує відоме в економічній теорії розділення податкового тягаря між виробником і споживачем. Невірно говорити, що виробник перекладає витрати або, конкретно, податки, на споживача, підвищуючи ціну на їх величину, оскільки при цьому скорочується попит (і випуск), а тому і прибуток виробника.
Подальше ясно - якщо оптова ціна буде підвищуватися, то й дає максимальний прибуток роздрібна ціна також буде підвищуватися, і все менша частка покупців зможе придбати товар. Крайня точка - оптова ціна, що дорівнює 45 крб. Тоді тільки троє (15%) куплять товар за 50 руб., А прибуток продавця складе тільки 15 руб. Наочно видно, що підвищення витрат виробництва призводить до орієнтації виробника на найбагатші верстви населення, але й підвищення цін (до оптимального для монополіста-виробника рівня) не призводить до підвищення прибутку, навпаки, вона знижується, і при цьому більшість потенційних споживачів не в стані купити товар. Таке вплив інфляції витрат на економічне життя. (Про інфляцію ми докладніше поговоримо пізніше.)
Відзначимо, що ринкові структури не в змозі забезпечити всіх бажаючих - це просто не вигідно. Так, з 20 опитаних лише 14, тобто 70%, можуть розраховувати на покупку, навіть при мінімальних витратах і цінах. Якщо суспільство хоче що-небудь забезпечити всіх громадян, він повинен роздавати це благо безкоштовно, як це робиться, наприклад, з підручниками в школах.

Маркетингові опитування споживачів
Потенційного покупця цікавить не тільки ціна, але і якість товару, краса упаковки (наприклад, для подарункових наборів цукерок) та багато іншого. Хочеш дізнатися, чого бажає споживач - запитай його. Ця проста думка пояснює популярність маркетингових опитувань.
Безперечно, що основна мета виробничої і торгівельної діяльності - задоволення потреб людей. Як отримати уявлення про ці потреби? Очевидно, необхідно опитати споживачів. В американському підручнику по рекламному справі [1] детально розглядаються різні методи опитування споживачів та обробки результатів за допомогою методів економетрики. Розповімо про результати опитування споживачів розчинної кави. Дослідження проведене Інститутом високих статистичних технологій та економетрики на замовлення АТЗТ "Д-2" в квітні 1994 р. в Москві.
Збір даних. Обговоримо постановку задачі. Замовника цікавлять переваги як продавців кави (роздрібних та дрібнооптових), так і безпосередньо споживачів. У результаті спільного обговорення було визнано доцільним використовувати для опитування і тих, і інших одну і ту ж анкету з 14 основних і 4 соціально-демографічних питань з додаванням двох питань спеціально для продавців. Анкета була розроблена спільно представниками замовника і виконавця і затверджена замовником. У табл.4 наведено дещо скорочений варіант цієї анкети.

Табл.4. Анкета для споживачів розчинної кави
_____________________________________________________________
Дорогий споживач розчинної кави,
Інститут високих статистичних технологій та економетрики просить Вас відповісти на кілька простих запитань про те, яку каву Ви любите. Ваші відповіді дозволять скласти об'єктивне уявлення про смаки російських любителів кави і будуть сприяти підвищенню якості цього товару на російському ринку.
1.Часть Ви п'єте розчинна кава: іноді, кожен день 1 чашку, 2-3 чашки, більше, ніж 3 чашки.
(Тут і далі підкресліть потрібне.)
2. Що Ви цінуєте в каві: смак, аромат, міцність, колір, відсутність шкідливих для здоров'я речовин, що-небудь ще (повідомте нам, що саме).
3. Як часто купуєте кави: у міру потреби або по можливості?
4. Чи любите Ви бразильський розчинна кава? Так, ні, не знаю.
5. Який обсяг упаковки Ви віддаєте перевагу: в пакетиках, маленька банка, середня банку, велика банка, обов'язково скляна банка, все одно.
6. Де купуєте розчинна кава: в кіосках, у продуктових магазинах, у спеціалізованих відділах і магазинах, все одно, де купити, де-небудь ще (опишіть, будь ласка).
7. Чи були випадки, коли куплений Вами кави опинявся низької якості? Так, немає.
8. Чи згодні Ви, що за високу та гарантовану якість продукту можна і заплатити трохи дорожче? Так, немає.
9. Який кави Ви віддасте перевагу купити: банку невідомої якості за 2000 руб. або продукт того ж ваги, безпека якого гарантована Мінохоронздоров'я Росії, за 2500 руб.? Перший, другий.
10. Чи вважаєте Ви за потрібне, щоб виробник вжив заходів для того, щоб шкідливі для здоров'я речовини, зокрема, іони важких металів, не проникали з матеріалу упаковки безпосередньо в розчинну каву? Так, немає.
Інститут високих статистичних технологій та економетрики передбачає порівняти споживчі уподобання різних категорій росіян. Тому просимо відповісти ще на кілька питань.
11. Стать: жіночий, чоловічий.
12. Вік: до 20, 20-30, 30-50, більше 50.
13. Рід занять: учень, що працює, пенсіонер, інженер, лікар, викладач, службовець, менеджер, підприємець, науковець, робочий, ін (будь ласка, розшифруйте).
14. Вся Ваша родина любить розчинну каву або ж Ви - єдиний любитель цього чудового напою сучасної людини? Вся сім'я, я один (одна).
15. Погодилися б Ви і надалі брати участь в опитуваннях споживачів щодо якості різних харчових продуктів (чай, джем та ін.) Якщо "так", то повідомте свою адресу, телефон, ім'я та по батькові.

Дякуємо за Ваше сприяння роботі щодо підвищення якості продуктів на російському ринку!

Вибір методу опитування. Широко застосовуються процедури опитування, коли респонденти (так соціологи і маркетологи називають тих, від кого отримують інформацію, тобто опитуваних) самостійно заповнюють анкети (роздані їм або отримані поштою), а також особисті та телефонні інтерв'ю. З цих процедур нами було обрано особисте інтерв'ю з наступних причин.
Повернення поштових анкет порівняно невеликий (у даному випадку можна було очікувати не більше 5-10%), відтягнуть за часом і спотворює структуру сукупності споживачів (найбільш динамічні люди навряд чи знайдуть час для відповіді на подібну анкету). Крім того, є проблеми з поштовим зв'язком (постійна зміна тарифів ускладнює відшкодування респондентам поштових витрат та ін.)
Самостійне заповнення анкети, як показали спеціально проведені експерименти, не дозволяє одержати повні відповіді на поставлені питання (респондент втомлюється чи відволікається, відмовляється відповідати на частину питань, іноді не розуміє їх або відповідає не по суті). Деякі категорії респондентів, наприклад, продавці в кіосках, відмовляються заповнювати анкети, але готові усно відповісти на запитання.
Телефонне опитування спотворює сукупність споживачів, оскільки найбільш активних індивідуумів важко застати вдома і умовити відповісти на питання анкети. Репрезентативність порушується також і тому, що на один номер телефону може припадати різну кількість продавців і споживачів розчинної кави, а деякі з них не мають телефонів взагалі. Анкета досить довга, і розмова по домашньому і тим більше службовому телефону респондента може бути припинений достроково за його ініціативою. Іногородніх продавців і споживачів розчинної кави, які приїхали до Москви, по телефону опитати практично неможливо.
Метод особистого інтерв'ю позбавлений перерахованих недоліків. Відповідним чином підготовлений інтерв'юер, отримавши згоду на інтерв'ю, утримує увагу співрозмовника на анкеті, домагається отримання відповідей на всі її питання, контролюючи при цьому відповідність відповідей реальної позиції респондента. Ясно, що успіх інтерв'ювання залежить від особистих якостей і підготовки інтерв'юера. Проте витрати на отримання однієї анкети при використанні цього методу більше, ніж для інших розглянутих методів.
Формулювання питань. В маркетингових і соціологічних опитуваннях використовують три типи питань - закриті, відкриті і напівзакриті, вони ж напіввідкриті. При відповіді на закриті питання респондент може вибирати лише з сформульованих укладачами анкети варіантів відповіді. Як відповідь на відкриті запитання респондента просять викласти свою думку у вільній формі. Напівзакриті, вони ж напіввідкриті питання займають проміжне положення - крім перерахованих в анкеті варіантів, респондент може додати свої міркування.

У соціологічних публікаціях триває дискусія з приводу "м'яких" і "твердих" форм збору даних, тобто фактично про те, якого типу питання більш доцільно використовувати - відкриті або закриті (див., наприклад, статтю директора Інституту соціології РАН В. А. Ядова [2]). Перевага відкритих питань у тому, що респондент може вільно висловити свою думку так, як вважатиме за потрібне. Їх недолік - в складності зіставлення думок різних респондентів. Для такого зіставлення та отримання зведених характеристик організатори опитування змушені самі шифрувати відповіді на відкриті питання, застосовуючи розроблену ними схему шифрування. Перевага закритих питань в тому й полягає, що таку шифровку проводить сам респондент. Однак при цьому організатори опитування уподібнюються давньогрецького міфічного персонажа Прокруста. Як відомо, Прокруст запрошував подорожніх заночувати у нього. Укладав їх на ліжко. Якщо подорожній був маленький на зріст, він витягав його ноги так, щоб вони діставали до кінця ліжка. Якщо ж подорожній опинявся високим і ноги його стирчали - він обрубував їх так, щоб досягти стандарту: "зростання" подорожнього повинен дорівнювати довжині ліжка. Так і організатори опитування, застосовуючи закриті питання, змушують респондента "витягати" або "обрубувати" свою думку, щоб висловити його за допомогою наведених у формулюванні питання можливих відповідей.
Ясно, що для обробки даних по групам і порівняння груп між собою потрібні формалізовані дані, і фактично мова може йти лише про те, хто - респондент або маркетолог (соціолог, психолог та ін) - буде шифрувати відповіді. У проекті "Споживачі розчинної кави" практично для всіх питань варіанти відповідей можна перерахувати заздалегідь, тобто можна широко використовувати закриті питання. На відміну від опитувань з питаннями типу: "Чи схвалюєте Ви йдуть в Росії реформи?", В яких природно просити респондента розшифрувати, що він розуміє під "реформами" (відкрите питання). Тому у використовуваній в описуваному проекті анкеті використовувалися в основному закриті та напівзакриті питання. Як показали результати обробки, цей підхід виявився правильним - лише в невеликому числі анкет виявилися вписані свої варіанти відповідей. Разом з тим демонструвалося повагу до думки респондента, не ставилася вимога обов'язкового вибору із заданої множини відповідей - респондент міг додати своє, але рідко користувався цією можливістю (не більше ніж в 5% випадків).
В останньому питанні анкети респонденту пропонувалося стати постійним учасником опитувань про якість товарів народного споживання. Ряд респондентів відгукнувся на цю пропозицію, в результаті стало можливим розгортання постійної мережі "експертів з якості", подібної аналогічним у США.
Обгрунтування обсягу вибірки та проведення опитування. Математико-статистичні імовірнісні моделі вибіркових маркетингових і соціологічних досліджень часто спираються на припущення про те, що вибірку можна розглядати як "випадкову вибірки з кінцевої сукупності" (див. термінологічне додаток). Типу тієї, коли зі списків виборців за допомогою датчика випадкових чисел відбирається необхідну кількість номерів для формування журі присяжних засідателів. У даному проекті не можна забезпечити формування подібної вибірки - не існує реєстру споживачів розчинної кави. Проте в цьому й немає потреби. Оскільки гіпергеометричні розподіл добре наближається біноміальним, якщо обсяг вибірки по крайней мере в 10 разів менше обсягу всієї сукупності (в даному випадку це так), то правомірно використання біноміальної моделі, згідно з якою думка респондента (відповіді на питання анкети) розглядається як випадковий вектор, а всі такі вектора незалежні між собою. Іншими словами, можна використовувати модель простий випадкової вибірки. Таким чином, позиція в давній дискусії в середовищі фахівців, що вивчають поведінку людини (маркетологів, соціологів, психологів, політологів та ін) про те, чи є випадковість у поведінці окремо взятої людини або ж випадковість виявляється лише у відборі вибірки з генеральної сукупності, практично не впливає на алгоритми обробки даних.
У біноміальної моделі вибірки оцінювання характеристик відбувається тим точніше, ніж обсяг вибірки більше. Часто запитують: "Який обсяг вибірки потрібен?" У математичній статистиці є методи визначення необхідного обсягу вибірки. Вони засновані на різних підходах. Або на завданні необхідної точності оцінювання параметрів. Або на явною формулюванні альтернативних гіпотез, між якими необхідно _{зробити} вибір. Або на обліку погрішностей вимірювань (методи статистики інтервальних даних, див. нижче). Жоден з цих підходів не можна застосувати в даному випадку.
Біноміальна модель вибірки. Вона застосовується для опису відповідей на закриті питання, що мають дві підказки, наприклад, "так" і "ні". Звичайно, пари підказок можуть бути іншими. Наприклад, "згоден" і "не згоден". Або при опитуванні споживачів кондитерських товарів перша підказка може мати такий вигляд: "Більше люблю" Марс ", ніж" Снікерс ". А друга тоді така:" Більше люблю "Снікерс", ніж "Марс".
Нехай обсяг вибірки дорівнює n. Тоді відповіді опитуваних можна представити як X _1, X _2, ..., X _n , Де X _i = 1, якщо i-й респондент вибрав першу підказку, і X _i = 0, якщо i-й респондент обрав другу підказку, i = 1,2, ..., n. У ймовірнісної моделі передбачається, що випадкові величини X _1, X _2, ..., X _n незалежні і однаково розподілені. Оскільки ці випадкові величини приймають два значення, то ситуація описується одним параметром р - часткою вибирають першу підказку у всій генеральної сукупності. Тоді
Р (X _i = 1) = р, Р (X _i = 0) = 1-р, i = 1,2, ..., n.
Нехай m = X ₁ + X ₂ + ... + X _n . Оцінкою імовірності р є частота р *= m / n. При цьому математичне сподівання М (р *) і дисперсія D (p *) мають вигляд
М (р *) = р, D (p *) = p (1 - p) / n.
За Законом Великих Чисел (ЗБЧ) теорії ймовірностей (у даному випадку - про теоремі Бернуллі) частота р * сходиться (тобто безмежно наближається) до ймовірності р при зростанні обсягу вибірки. Це й означає, що оцінювання проводиться тим точніше, чим більше обсяг вибірки. Точність оцінювання можна вказати. Займемося цим.
По теоремі Муавра-Лапласа теорії ймовірностей

де

- Функція стандартного нормального розподілу з математичним сподіванням 0 і дисперсією 1,

де

= 3,1415925 ...-відношення довжини кола до її діаметра, e = 2,718281828 ... - основа натуральних логарифмів. Графік щільності стандартного нормального розподілу

дуже точно зображений на німецькій грошової банкноті в 10 німецьких марок. Ця банкнота присвячена великому німецькому математику Карлу Гаусу (1777-1855), серед основних робіт якого є пов'язані з нормальному розподілу. В даний час немає необхідності обчислювати функцію стандартного нормального розподілу та її щільність за наведеними вище формулами, оскільки давно складені докладні таблиці (див., наприклад, [3]), а поширені програмні продукти містять алгоритми знаходження цих функцій.
За допомогою теореми Муавра-Лапласа можуть бути побудовані довірчі інтервали для невідомої економетрику ймовірності. Спочатку зауважимо, що з цієї теореми безпосередньо випливає, що

Оскільки функція стандартного нормального розподілу симетрична щодо 0, тобто

то

Задамо довірчу ймовірність

. Нехай

задовольняє умові

тобто

З останнього граничного співвідношення випливає, що

На жаль, це співвідношення не можна безпосередньо використовувати для довірчого оцінювання, оскільки верхня і нижня межі залежать від невідомої імовірності. Однак за допомогою методу наслідування збіжності [4, п.2.4] можна довести, що
Отже, нижня межа довірча має вигляд

в той час як верхня межа довірча така:

Найбільш поширеним (у прикладних дослідженнях) значенням довірчої ймовірності є

Інколи вживають термін "95% довірчий інтервал". Тоді

Приклад. Нехай n = 500, m = 200. Тоді p * = 0,40. Знайдемо довірчий інтервал для

Таким чином, хоча в досить великій вибірці 40% респондентів говорять "так", можна стверджувати лише, що у всій генеральної сукупності таких від 35,7% до 44,3% - крайні значення відрізняються на 8,6%.
Зауваження. З достатньою для практики точністю можна замінити 1,96 на 2.
Зручні для використання в практичній роботі маркетолога і соціолога таблиці точності оцінювання розроблено у ВЦИОМ (Всеросійському центрі з вивчення громадської думки). Наведемо тут дещо модифікований варіант однієї з них.
Табл.5. Допустима величина помилки вибірки (у відсотках)

В умовах розглянутого вище прикладу треба взяти другу знизу рядок. Обсягу вибірки 500 немає в таблиці, але є обсяги 400 і 600, яким відповідають помилки в 6% і 5% відповідно. Отже, в умовах прикладу доцільно оцінити помилку як ((5 +6) / 2)% = 5,5%. Ця величина дещо більше, ніж розрахована вище (4,3%). З чим пов'язане це відмінність? Справа в тому, що таблиця ВЦВГД пов'язана не з довірчою ймовірністю

а з довірчою ймовірністю

якої відповідає множник

Розрахунок помилки за наведеними вище формулами дає 5,65%, що практично збігається зі значенням, знайденим по табл.5.
Мінімальний із зазвичай використовуються обсягів вибірки n в маркетингових або соціологічних дослідженнях - 100, максимальний - до 5000 (зазвичай у дослідженнях, що охоплюють ряд регіонів країни, тобто фактично розбиваються на ряд окремих досліджень - як у ряді досліджень ВЦИОМ). За даними Інституту соціології Російської академії наук [5], середнє число анкет в соціологічному дослідженні не перевищує 700. Оскільки вартість дослідження зростає принаймні як лінійна функція обсягу вибірки, а точність підвищується як квадратний корінь з цього обсягу, то верхня межа обсягу вибірки визначається зазвичай з економічних міркувань. Обсяги пілотних досліджень (тобто проводяться вперше, попередньо або як перші в серіях подібних) зазвичай нижче, ніж обсяги досліджень за обкатаною програмі.
Нижня межа визначається тим, що у мінімальній за чисельністю аналізованої підгрупи має бути кілька десятків чоловік (не менше 30), оскільки за відповідями що потрапили в цю підгрупу необхідно зробити обгрунтовані висновки про переваги відповідної підгрупи в сукупності всіх споживачів розчинної кави. Враховуючи поділ опитуваних на продавців і покупців, на чоловіків і жінок, на чотири градації за віком і вісім - за родом занять, наявність 5 - 6 підказок у багатьох питаннях, приходимо до висновку про те, що в даному проекті обсяг вибірки повинен бути не менш 400 - 500. Разом з тим істотне перевищення цього обсягу недоцільно, оскільки дослідження є пілотним.
Тому обсяг вибірки був обраний рівним 500. Аналіз отриманих результатів (див. нижче) дозволяє стверджувати, що відповідно до цілей дослідження вибірку можна вважати репрезентативною.
Організація опитування. Інтервьерамі працювали молоді люди - студенти першого курсу економіко-математичного факультету Московського державного інституту електроніки і математики (технічного університету) та ліцею No.1140, що проходили навчання з економіки, всього 40 чоловік, що мають спеціальну підготовку з вивчення ринку та проведення маркетингових опитувань споживачів і продавців (в обсязі 8 годин). Опитування продавців проводився на ринках м. Москви, що діють в Лужниках, у Київського вокзалу та в інших місцях. Опитування покупців проводився на ринках, в магазинах, на вулицях біля кіосків і яток, а також в домашній і службовій обстановці.
Велика увага приділялася якості заповнення анкет. Інтерв'юери були розбиті на шість бригад, бригадири персонально відповідали за якість заповнення анкет. Другий рівень контролю здійснювала спеціально створена "група організації опитування", третій відбувався при введенні інформації до бази даних. Кожна анкета завірена підписами інтерв'юера та бригадира, на ній зазначено місце і час інтерв'ювання. Тому необхідно визнати високу достовірність зібраних анкет.
Обробка даних. У відповідності з метою дослідження основний метод первинної обробки даних - побудова частотних таблиць для відповідей на окремі питання. Крім того, проводилося порівняння різних груп споживачів і продавців, виділених за соціально-демографічними даними, за допомогою критеріїв перевірки однорідності вибірок (див. нижче). При більш поглибленому аналізі застосовувалися різні методи статистики об'єктів нечислової природи (більше 90% маркетингових і соціологічних даних мають нечислову природу [6]). Використовувалися засоби графічного представлення даних.
Підсумки опитування. Отже, за завданням однієї з торгових фірм були вивчені переваги покупців і дрібнооптових продавців розчинної кави. Спільно з представниками замовника був складений опитувальний лист (анкета типу соціологічної) з 16 основних питань і 4 додаткових, присвячених соціально-демографічної інформації. Опитування проводилося у формі інтерв'ю з 500 покупцями і продавцями кави. Місця опитування - ринки, лотки, кіоски, продуктові і спеціалізовані магазини. Іншими словами, були охоплені всі види місць продажу кави. Інтерв'ю проводили більше 40 спеціально підготовлених (приблизно по 8-годинною програмою) студентів, розбитих на 7 бригад. Після ретельної перевірки бригадирами і групою обробки інформація була введена в спеціально створену базу даних. Потім проводилася різноманітна статистична обробка, будувалися таблиці і діаграми, перевірялися статистичні гіпотези і т.д. Заключний етап - осмислення та інтерпретація даних, підготовка підсумкового звіту та пропозицій для замовників.
Технологія організації та проведення маркетингових опитувань лише незначно відрізняється від технології соціологічних опитувань, багаторазово описаної в літературі. Так, ми вважали за краще використовувати напіввідкриті питання, в яких для опитуваного дано перелік підказок, а при бажанні він може висловити свою думку у вільній формі. Не уклалися в підказки виявилося близько 5%, їхні думки були внесені в базу даних і аналізувалися додатково. Для підвищення надійності опитування про найбільш важливих з точки зору маркетингу моментах запитувалося в декількох питаннях. Були питання - пастки, за допомогою яких контролювалася "осмисленість" заповнення анкети. Наприклад, у питанні: "Що Ви цінуєте в каві: смак, аромат, міцність, наявність пінки ..." пасткою є включення "фортеці" - ясно, що фортеця залежить не від кави самого по собі, а від його кількості в чашці. У пастку ніхто з 500 не попався - ніхто не відзначив "фортеця". Цей факт свідчить про надійність висновків проведеного опитування. Ми вважали недоцільним ставити питання про рівень доходів (оскільки в більшості випадків відповідають "середній", що неможливо пов'язати з певною величиною). Замість такого питання ми запитували: "Як часто Ви купуєте кави: у міру потреби або по можливості?". Оскільки кава не є дефіцитним товаром, перша відповідь свідчив про наявність достатніх грошових коштів, другий - про їх обмеженості (споживач не завжди мав можливість дозволити собі купити банку розчинної кави).
Вартість подібних досліджень - 5-10 доларів США на одного обстеженого. При цьому трудомісткість (і вартість) початкової стадії - підготовки анкети та інтерв'юерів, пробний опитування та ін - 30% від вартості дослідження, вартість безпосередньо опитування - теж 30%, введення інформації в комп'ютер і проведення розрахунків, побудова таблиць і графіків - 20% , інтерпретація результатів, підготовка підсумкового звіту та пропозицій для замовників - 20%. Таким чином, вартість власне опитування в два з гаком рази менше вартості інших стадій дослідження. І у виконанні роботи беруть участь різні фахівці. На першій стадії - в основному потрібні висококваліфіковані аналітики. На другій - численні інтерв'юери, в ролі яких можуть виступати студенти та учні, які пройшли конкретний курс навчання в 8-10 годин. На третій - робота з комп'ютером (треба вміти будувати і обраховувати електронні таблиці або бази даних, використовувати статистичні пакети, складати і друкувати таблиці і діаграми і т.п.). На четвертій - знову в основному потрібні висококваліфіковані аналітики.

Наведемо деякі з отриманих результатів.
а) На відміну від західних споживачів, вітчизняні не віддавали переваги скляних банках у порівнянні з бляшаними. Оскільки бляшані банки дешевше скляних, то можна було порекомендувати (у 1994 р., коли проходило опитування) з метою зниження витрат закупівлю кави в жерстяних банках.
б) Вітчизняні споживачі готові платити на 10-20% більше за екологічно безпечний кави більш високої якості, що має сертифікат МОЗ і символ екологічної безпеки на упаковці.
в) Середній обсяг споживання розчинної кави - 850 г на місяць (на сім'ю споживача).
г) Споживачі розчинної кави діляться на класи. Є "просунуті" споживачі, що звертають велику увагу на якість та екологічну безпеку, марку й країну виробництва, терпимо що стосуються зміни ціни. Ці "тонкі поціновувачі" - в основному жінки від 30 до 50 років, службовці, менеджери, наукові працівники, викладачі, лікарі (тобто особи з вищою освітою), які п'ють каву як вдома, так і на роботі, причому "кавовий ритуал "часто входить в процедуру ділових переговорів або нарад. Протилежний по споживчому поведінки клас складається з чоловіків двох крайніх вікових груп - школярів і пенсіонерів. Для них важлива лише ціна, що очевидним чином пояснюється браком грошей.
Результати були використані замовником в рекламній кампанії. Зокрема, зверталася увага на сертифікат МОЗ і на екологічну безпеку упаковки.
Наведемо приклад ще однієї анкети з нашого досвіду, призначеною для вивчення попиту на освітні послуги (табл.6).

Табл.6. Дослідження ринку освітніх послуг
_____________________________________________________________
ДОСЛІДЖЕННЯ РИНКУ ОСВІТНІХ ПОСЛУГ
Анкета студентів першого курсу економіко-математичного факультету МГІЕМ (ту).
А. Об'єктивні дані
1. Група
2. Пол
3. Рік народження
4. Одружений (заміжня) - так / ні
Б. Загальне вивчення ринку
5. Чому Ви вибрали фах економіста?
6. Чому Ви вибрали саме МГІЕМ (ту) серед всіх вузів Москви, які готують економістів?
7. Як Ви уявляєте собі майбутню діяльність після закінчення МГІЕМ (ту)?
8. Чи є у Вас надія на те, що куплені зараз знання виявляться корисними в практичній роботі? Якщо ні, то навіщо Ви вчитеся?
В. Ставлення до платного освіти
9. Якщо б навчання в МГІЕМ (ту) було платним (близько 1 мільйона руб. В рік у цінах лютого 1994 р.), стали б Ви вступати до МГІЕМ (ту)?
10. Якщо навчання в МГІЕМ (ту) стане платним, то залишитеся Ви вчитися в МГІЕМ (ту)? (Наприклад, організація оплати за навчання така: деяка фірма укладає контракт зі студентом і оплачує його навчання; студент самостійно шукає таку фірму.)
11. Чи представляє для Вас інтерес можливість паралельно з дипломом МГІЕМ (ту) отримати диплом бакалавра Міжкультурного відкритого університету (штаб-квартира в Нідерландах) за спеціальністю "бізнес адміністрейшн" (навчання заочне, вартість 1780 доларів США за курс)?
Г. Про курс "Основи економіки"
12. Чи потрібно розповідати зміст реферату-дайджесту підручника К. Макконнелла і С. Брю "Економікс: Принципи, проблеми і політика" чи слід його загальновідомим і говорити про те, чого в ньому немає?
13. Чи корисний електронний підручник? Якщо ні, то чому?
14. Чи потрібні Вам індивідуальні заняття в аудиторії (а не в комп'ютерному класі з електронним підручником) і в якому вигляді?
15. Які теми Ви вважаєте корисним розглянути додатково?
16. Сформулюйте інші Ваші зауваження та пропозиції з курсу "Основи економіки": по лекціях, практичних та індивідуальних занять.
Д. Додаткова інформація
17. Які предмети навчання - найважчі, які - найлегші на першому семестрі?
18. Працюєте Ви? Якщо згодні, вкажіть приблизну (середню) суму в місяць.
19. Чи істотна для Вас стипендія?
20. Чи є у Вас вдома комп'ютер?

21. Чи берете Ви в будь-яких політичних рухах, партіях? Якщо згодні, назвіть.

Перевірка однорідності двох біноміальних вибірок
Як порівняти дві групи - чоловіків і жінок, молодих і літніх, і т.п.? У маркетингу це важливо для сегментації ринку. Якщо дві групи не відрізняються за відповідями, значить, їх можна об'єднати в один сегмент і проводитиме по відношенню до них одну і ту ж маркетингову політику, зокрема, здійснювати одні й ті ж рекламні впливу. Якщо ж дві групи різняться, то і відноситися до них треба по-різному. Це - представники двох різних сегментів ринку, що вимагають різного підходу при боротьбі за їх завоювання.
Економетрична постановка така. Розглядається питання з двома можливими відповідями, наприклад, "так" і "ні". У першій групі з n ₁ опитаних m ₁ людина сказали "так", а в другій групі з n ₂ опитаних m ₂ сказали "так". У ймовірнісної моделі передбачається, що m ₁ і m ₂ - Біноміальні випадкові величини B (n _1, p ₁₎ і B (n _2, p ₂₎ відповідно. (Запис B (n, p) означає, що випадкова величина m, що має біноміальний розподіл B (n, p) з параметрами n - обсяг вибірки та p - ймовірність певної відповіді (скажімо, відповіді "так"), може бути представлена у вигляді m = X ₁ + X ₂ + ... + X _n, де випадкові величини X _1, X _2, ..., X _n незалежні, однаково розподілені, приймають два значенія1 і 0, причому Р (X _i = 1) = р, Р (X _i = 0) = 1-р, i = 1,2, ..., n.)
Однорідність двох груп означає, що відповідні їм ймовірності рівні, неоднорідність - що ці імовірності відрізняються. У термінах математичної статистики: необхідно перевірити гіпотезу однорідності
H _0: p ₁ = p ₂
при альтернативній гіпотезі
H _1: p ₁ p _2.
(Іноді представляють інтерес односторонні альтернативні гіпотези

.)
Оцінкою імовірності р ₁ є частота р ₁ *= m ₁ / n _1, а оцінкою ймовірності р ₂ є частота р ₂ *= m ₂ / n ₂ . Навіть при збігу ймовірностей р ₁ і р ₂ частоти, як правило, розрізняються, як кажуть, "з чисто випадковим причин". Розглянемо випадкову величину р ₁ * - р ₂ *. Тоді
M (р ₁ * - р ₂ *) = р ₁ - р _2, D (р ₁ * - р ₂ *) = р _{1 (1} - р ₁₎ / n ₁ + р ₂ (1-р ₂₎ / n _2.
З теореми Муавра-Лапласа і теореми про спадкування збіжності [4, п.2.4] випливає, що

де

- Функція стандартного нормального розподілу з математичним сподіванням 0 і дисперсією 1. Для практичного застосування цього співвідношення слід замінити невідому економетрику дисперсію різниці частот на оцінку цій дисперсії:
D * (р ₁ * - р ₂ *) = р * _{1 (1} - р * ₁₎ / n ₁ + р * ₂ (1-р * ₂₎ / n _2.

За допомогою зазначеної вище математичної техніки можна показати, що
При справедливості гіпотези однорідності M (р ₁ * - р ₂ *) = 0. Тому правило прийняття рішення при перевірці однорідності двох вибірок виглядає так:
1. Обчислити статистику

2. Порівняти значення модуля статистика | Q | з граничним значенням K. Якщо | Q | <K, то прийняти гіпотезу однорідності H _0. Якщо ж | Q |> K, то заявити про відсутність однорідності і прийняти альтернативну гіпотезу H _1.
Граничне значення К визначається вибором рівня значущості статистичного критерію перевірки однорідності. З наведених вище граничних співвідношень випливає, що при справедливості гіпотези однорідності H ₀ для рівня значущості

маємо (при

Отже, граничне значення в залежності від рівня значущості доцільно вибирати з умови

Тут

- Функція, обернена до функції стандартного нормального розподілу. У соціально-економічних дослідженнях найбільш поширений 5% рівень значущості, тобто

Для нього К = 1,96.
Приклад. Нехай у першій групі з 500 опитаних відповіли "так" 200, а в другій групі з 700 опитаних сказали "так" 350. Чи є різниця між генеральними сукупностями, представленими цими двома групами, по частці відповідають "так"?
Приберемо з формулювання прикладу термін "генеральна сукупність".
Нехай з 500 опитаних чоловіків відповіли "так, я люблю пепсі-колу" 200, а з 700 опитаних жінок 350 сказали "так, я люблю пепсі-колу". Чи є різниця між чоловіками і жінками за часткою відповідають "так" на запитання про любов до пепсі-колі?
У розглянутому прикладі потрібні для розрахунків величини такі:

Обчислимо статистику

Оскільки | Q | = 3,45> 1,96, то необхідно відхилити нульову гіпотезу т прийняти альтернативну. Таким чином, чоловіки і жінки відрізняються за розглядався ознакою - любові до пепсі-колі.
Необхідно відзначити, що результат перевірки гіпотези однорідності залежить не тільки від частот, але і від обсягів вибірок. Припустимо, що частоти (частки) зафіксовані, а обсяги вибірок ростуть. Тоді чисельник статистики Q не змінюється, а знаменник зменшується, значить, вся дріб зростає. Оскільки знаменник прагне до 0, то дріб зростає до нескінченності і рано чи пізно перевершить будь-яку межу. Є лише один виняток - коли в чисельнику стоїть 0. Отже, висновок економетрика повинен виглядати так: "відмінність виявлено" або "розходження не виявлено". У другому випадку різниця, можливо, було б виявлено при збільшенні обсягів вибірок.
Як і для довірчого оцінювання ймовірно, під ВЦВГД розроблено дві корисні таблиці, що дозволяють оцінити викликані суто випадковими причинами допустимі розбіжності між частотами в групах. Ці таблиці розраховані при виконанні нульової гіпотези однорідності і відповідають ситуацій, коли частоти близькі до 50% (табл.7) або до 20% (табл.8). Якщо спостерігаються частоти - від 30% до 70%, то рекомендується користуватися першою з цих таблиць, якщо від 10% до 30% або від 70% до 90% - то другий. Якщо спостерігаються частоти менше 10% або більше 90%, то теорема Муавра-Лапласа і засновані на ній асимптотичні формули дають не дуже добрі наближення, доцільно застосовувати інші, більш просунуті математичні засоби, зокрема, наближення за допомогою розподілу Пуассона.

Табл.7.
Допустимі розбіжності (у%) між частотами у двох групах у разі, коли спостерігаються частоти від 30% до 70%

Обсяги Груп	750	600	400	200	100
750	6	7	7	10	12
600	7	8	8	11	13
400	7	8	10	11	14
200	10	11	11	13	16
100	12	13	14	16	18

Табл.8.
Допустимі розбіжності (у%) між частотами у двох групах у разі, коли спостерігаються частоти від 10% до30% або від 70% до 90%

Обсяги Груп	750	600	400	200	100
750	5	5	6	8	10
600	5	6	7	8	10
400	6	7	8	9	11
200	8	8	9	10	12
100	10	10	11	12	14

В умовах розібраного вище прикладу табл.7 дає допустиме розходження 7%. Дійсно, обсяг першої групи 500 відсутня в таблиці, але рядки, відповідні обсягами 400і 600, збігаються для перших двох стовпців зліва. Ці стовпці відповідають обсягам другої групи 750 і 600, між якими розташований обсяг 700, даний у прикладі. Він ближче до 750, тому беремо величину розбіжності, що стоїть на перетині першого стовпця і другий (і третій) рядків, тобто 7%. Оскільки реальне розбіжність (10%) більше, ніж 7%, то робимо висновок про наявність значущого відмінності між групами. Природно, цей висновок збігається з отриманим раніше розрахунковим шляхом.
Допустиме розходження

між частотами неважко отримати розрахунковим шляхом. Для цього достатньо скористатися формулою для статистики Q і визначити, при якій максимальній розбіжності частот все ще робиться висновок про те, що вірна гіпотеза однорідності. Отже, допустимий розбіжність

знаходиться з рівняння

Таким чином,

Для даних прикладу

= 1,96

0,029 = 0,057, або 5,7%, для рівня значимості 0,05. .
Для інших рівнів значимості треба використовувати інші коефіцієнти

Так, K (0,01) = 2,58 для рівня значимості 1% і K (0,10) = 1,64 для рівня значущості 10%. Для даних прикладу

= 2,58

0,029 = = 0,7482

0,075, або 7,5%, для рівня значимості 0,01. Якщо округлити до найближчого цілого числа відсотків, то отримаємо 7%, як при використанні таблиці 7 вище.
Аналіз таблиць 7 і 8 показує, що для констатації відмінності частоти повинні відрізнятися не менш ніж на 6%, а при деяких обсягах вибірок - більш ніж на 10%, при обсягах вибірок 100 і 100 - на 19%. Якщо частоти відрізняються на 5% або менше, можна відразу сказати, що економетричний аналіз призведе до висновку про те, що різниця не виявлено (для вибірок обсягів не більше 750).
У зв'язку з цим виникає питання: яке типове відміну частот у двох вибірках з однієї і тієї ж сукупності? Різниця частот у цьому випадку має нульове математичне сподівання і дисперсію

Величина р (1-р) досягає максимуму при р = 1 / 2, і цей максимум дорівнює 1 / 4. Якщо р = 1 / 2, а обсяги двох вибірок збігаються і дорівнюють 500, то дисперсія різниці частот дорівнює

Отже, середнє квадратичного відхилення

одно 0,032, або 3,2%. Оскільки для стандартної нормальної випадкової величини в 50% випадків її значення не перевершує по модулю 0,67 (а в 50% випадків - більше 0,67), то типовий розкид дорівнює 0,67

, А в даному випадку-2,1%. Наведені міркування дають метод контролю за правильністю проведення повторних опитувань. Якщо частоти зайво стійкі, це підозріло!

Література
1. Сендідж Ч., Фрайбургер В., Ротцолл К. Реклама: теорія і практика: Пер. з англ. - М.: Прогрес, 1989. - 630 с.
2. Ядов В.А. Стратегії та методи якісного аналізу даних. - Журнал "Соціологія: методологія, методи, математичні моделі", 1991, No.1, с.14-31.
3. Більше Л.М., Смирнов Н.В. Таблиці математичної статистики. - М.: Наука, 1983. - - 416 с.
4. Орлов О.І. Стійкість у соціально-економічних моделях. - М.: Наука, 1979. - 296 с.
5. Досвід застосування ЕОМ в соціологічних дослідженнях. - М.: Інститут соціологічних досліджень АН СРСР, Радянська соціологічна асоціація, 1977. - 158 с.
6. Орлов О.І. Загальний погляд на статистику об'єктів нечислової природи. - В зб.: Аналіз нечислової інформації в соціологічних дослідженнях (наукові редактори: В. Г. Андреєнков, А. І. Орлов, Ю. М. Толстова). - М.: Наука, 1985. / / С.58-92.