Осторожно! Предвзятая выборка

1948 год. В Америке проходят президентские выборы — демократ Гарри Трумэн борется за главное кресло страны с республиканцем Томасом Дьюи. После закрытия избирательных участков газета Chicago Tribune публикует статью с сенсационным заголовком — Dewey Defeats Truman.

Журналисты провели собственное исследование, указывающее на безоговорочную победу республиканца.

Победивший на выборах Гарри Трумэн держит в руках тот самый выпуск Chicago Tribune

Победивший на выборах Гарри Трумэн держит в руках тот самый выпуск Chicago Tribune

Однако результаты опроса оказались ошибочными, и победу одержал демократ. Почему так вышло? Газета опросила достаточное количество респондентов, людей, как и полагается, обзванивали в случайном порядке. Тем не менее, авторы исследования не учли, что в то время домашние телефоны были только у богатых семей. Таким образом, они упустили значительный пласт избирателей — людей малого и среднего достатка, которые поддерживали Трумэна.

Это — наглядный пример предвзятой выборки. Что-то вроде: по данным интернет-голосования 100% людей пользуются Интернетом.

Если вы возглавляете отдел или компанию и руководствуетесь результатами исследований для принятия управленческих решений, вам нельзя слепо доверять статистике. Как не дать цифрам обмануть себя? Что нужно знать о выборке, прежде чем делать ее частью бизнес-стратегии?

1. Удостоверьтесь, что авторы исследования опросили достаточное количество респондентов

Чем больше данных у вас на входе, тем выше вероятность найти наиболее приближенные к настоящим средним значения.

Как рассчитать объем выборки? Для этого вам нужно определить несколько показателей:

  • генеральную совокупность — множество всех людей, мнения которых вы хотите узнать;
  • допустимую погрешность (доверительный интервал) — на какой риск вы готовы пойти в отношении возможной неточности ответов в связи с тем, что опрашиваете не всю генеральную совокупность;
  • размер выборки.

Эти расчеты производятся статистиками по определенным формулам. Чтобы не углубляться в технические детали, вы можете воспользоваться калькулятором:

[sc:calculator ]

Пример. Ваша компания предоставляет туристические услуги. Вам нужно узнать, какие направления наиболее популярны среди отечественных туристов. Генеральная совокупность — это все жители страны, совершившие или планирующие совершить путешествие в этом году. Предположим, их число составляет 500 000 человек. Допустимая погрешность, как правило, колеблется в пределах от 1% до 10% — возьмем 5%. Вводим цифры в форму, нажимаем “рассчитать” и получаем результат: размер выборки в нашем случае — 384 респондента.

2. Избегайте управляемых выборок

Если того не требует цель исследования, не применяйте ограничений по возрасту, полу и другим признакам. Старайтесь охватить как можно более широкую аудиторию — такая выборка будет намного эффективней. Грубо говоря, если рядом с вашим офисом находится студенческое общежитие, это не значит, что можно зайти в него и опросить несколько десятков студентов, упростив себе задачу.

3. Помните: несбалансированная выборка — самый коварный враг

Представьте, что в городе А проживают 100 000 человек. За 10 лет прирост населения составил 10 000 человек. При этом в городе Б проживают 10 человек и за 10 лет был прирост в 10 жителей. А теперь сравним то, что сравнивать нельзя — скорость прироста жителей… в процентах. Десять процентов против ста. Полагаю, вы поняли, о чем речь.

Несбалансированная выборка сравнивает несопостовимые данные и может ввести в заблуждение даже тех пользователей, которые имеют доступ к мельчайшим деталям исследования.  

Пример. Ваш магазин отслеживает продажи двух акционных товаров — скажем, яблок и бананов. Цель — узнать, какой из фруктов пользуется большим спросом у покупателей. В ходе исследования вы сопоставляете данные о продажах этих единиц. Вдруг яблоки заканчиваются, а до завершения акции еще несколько дней. Статистики продолжают вести анализ, и в итоге отмечают значительно больший покупательский спрос на бананы. При этом отчет подкреплен цифрами и звучит достаточно убедительно — если, конечно, вы не знаете, что с середины акции на прилавке лежали одни бананы.

Так что полагайтесь на факты, анализируйте данные, однако не забывайте — не все цифры одинаково полезны, а статистика часто бывает обманчивой.

Лариса Шурига, DataReview

Источники:

  1. WikiHow
  2. SurveyMonkey
  3. SMpirk
  4. Habrahabr
  5. Grandars

Похожие публикации:

Не все цифры одинаково полезны, или “Среднестатистический” обман

Аналитика в быту: Почему каждый из нас – аналитик?

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =