Мы неправильно понимаем вероятность: Проблема p-значений

 

Академическую психологию и медицинскую диагностику преследует тень недостоверности. Причина ясна: мы неправильно понимаем вероятность.

Целью науки является выяснение фактов с максимально возможной достоверностью. Следовательно, крайне важно определить, является ли наблюдаемый феномен закономерным, или это всего лишь результат случайности. Если вы сделали «случайное», оно будет считаться ложным (false discovery) или ложноположительным (false positive). Настораживает тот факт, что ложноположительные результаты слишком распространены в некоторых областях медицины.

В 2005 году эпидемиолог Джон Иоаннидис (John Ioannidis) из Стэнфордского университета спровоцировал целую бурю, опубликовав свою работу под названием «Почему большинство опубликованных результатов исследований являются ложными» («Why Most Published Research Findings Are False»). Эта работа была посвящена результатам исследований в некоторых областях биомедицины. Точка зрения Иоаннидиса была подтверждена в последующих работах других авторов. Например, авторы следующей статьи задались целью воспроизвести результаты 100 проведенных ранее исследований в области экспериментальной психологии. В итоге им удалось подтвердить результаты оригинальных исследований лишь в 38% случаев. Вероятно, подобные выводы также можно сделать в отношении исследований в области нейровизуализации и когнитивной нейробиологии. Почему это происходит?

Вопрос о том, как отличить подлинное наблюдение от случайного, возник очень давно. Он обсуждается в течение столетий философами и более плодотворно статистиками. В основе этого вопроса лежит различие между индукцией и дедукцией. Наука предполагает индуктивные умозаключения: мы имеем некоторые наблюдения и на их основе пытаемся вывести общее правило. Индукция никогда не может быть однозначной. В отличие от этого, дедуктивное умозаключение реализуется проще: мы предварительно делаем вывод о том, что бы мы наблюдали, если бы некоторое общее правило было истинным, а затем сравниваем с фактическими наблюдениями. Проблема заключается в том, что для ученого дедуктивные аргументы не дают прямого ответа на вопрос, который его интересует.

Для ученого важна вероятность ошибки, если он заявит, что результат является реальным, а не случайным. Это вопрос индукции, и поэтому он сложен. В начале 20-го века традиционным стало стремление избежать индукции, сводя вопрос к такому, который использует лишь дедукцию. В 1920-х статистик Рональд Фишер (Ronald Fisher) утвердил эту методику, пропагандируя тесты статистической значимости (statistical significance test). Данный подход является полностью дедуктивным и, соответственно, позволяет обойти философские проблемы индукции.

Тест статистической значимости выполняется путем вычисления вероятности возникновения данных наблюдений (или еще более крайних) в том случае, если бы тестируемая гипотеза не выполнялась. Эта концепция не утверждает, что тестируемая гипотеза не выполняется, она лишь предлагает рассчитать то, что мы ожидали бы, если бы тестируемая гипотеза не выполнялась. Гипотеза, предполагающая, что тестируемая гипотеза не выполняется, называется нулевой гипотезой, а описанная выше вероятность называется p-значением. Очевидно, что чем меньше p-значение, тем менее вероятна истинность нулевой гипотезы, и, следовательно, более вероятна истинность тестируемой гипотезы. Остается только решить, насколько малым должно быть p-значение, чтобы можно было заявить об открытии. Однако это очень сложный вопрос.

Проблема заключается в том, что p-значение дает правильный ответ на неправильный вопрос. Ведь на самом деле, мы хотим знать не вероятность наблюдений при истинности тестируемой гипотезы, а вероятность истинности тестируемой гипотезы при данных наблюдениях. А это уже задача индукции.

Путаница между этими двумя абсолютно разными вероятностями приводит к тому, что p-значение очень часто неправильно интерпретируется. Эта ошибка называется ошибкой транспонированной условной вероятности (error of the transposed conditional).

Предположим, например, что мы дали некоторый препарат каждому из 10 человек. Далее мы измерили реакцию (например, кровяное давление) и выяснили, что каждый испытуемый имеет различную реакцию на препарат. Затем мы дали другой препарат другим 10 человекам и снова наблюдали 10 различных реакций. Как мы можем определить, являются ли два данных препарата действительно разными?

Следуя стандартной процедуре согласно Фишеру, необходимо рассчитать вероятность данных наблюдений (или более крайних), если бы не было разницы между двумя препаратами. Это и есть p-значение, полученное на основе дедукции. Традиционно считается, что p-значение меньше 5% свидетельствует о статистической значимости. Термин «статистически значимый» повсеместно распространен в биомедицинской литературе и применяется для того, чтобы сказать, что наблюдаемый эффект является закономерным, а не возник в результате простого совпадения.

Однако деление результатов на «значимые» и «незначимые» абсурдно. Очевидно, что между p-значениями, составляющими 4.7% и 5.3%, очень малая разница, однако первое значение рассматривается, как успех, а второе – как неудача. При этом «успех» обеспечит публикацию вашей работы в самых престижных журналах. Это не очень-то хорошо, но настоящая опасность заключается в том, что если вы получили «едва значимый» результат, например, p = 0.047 (4.7%), в одном тесте и утверждаете, что сделали открытие, вероятность того, что вы ошибаетесь, составляет, как минимум, 26%, а может быть более 80%. Как это объяснить?

Нет особой пользы в информации о том, что наблюдения были бы редкими, если бы не было разницы между препаратами (эту информацию сообщает нам p-значение). Данная информация может быть полезна лишь в том случае, если бы мы знали, будут или нет наблюдения редкими, если между препаратами есть разница. Это снова возвращает нас к индукции.

Принципиально задача индукции была решена преподобным Томасом Байесом (Reverend Thomas Bayes) в середине 18-го века. Он показал, как преобразовать вероятность данных наблюдений при истинности гипотезы (задача дедукции) в то, что нам действительно нужно, то есть в вероятность истинности гипотезы при наличии данных наблюдений (задача индукции). Однако вопрос о том, как использовать эту знаменитую теорему на практике, до сих пор является предметом горячих споров.

Возьмем гипотезу о том, что Земля вращается вокруг Солнца. Это утверждение либо верно, либо нет, так что неясно, как мы можем выбрать вероятность для этого утверждения. Более того, байесовское преобразование предполагает присвоение вероятности истинности гипотезы до появления каких-либо наблюдений («априорная вероятность» (prior probability)). Терема Байеса позволяет преобразовать эту априорную вероятность в интересующую нас вероятность истинности гипотезы при наличии некоторых наблюдений, называемую «апостериорной вероятностью» (posterior probability).

Неосязаемость этих вероятностей убедила Фишера в том, что подход Байеса неприменим на практике. Вместо этого он предложил полностью дедуктивный процесс тестирования статистической значимости. Осознание того факта, что метод Фишера, в том виде, в котором он широко используется, дает тревожно большое количество ложноположительных результатов, стимулировало несколько недавних попыток исправить ситуацию.

Теорема Байеса находит одно бесспорное приложение в области диагностического скрининга. В рамках скрининга производится обследование здоровых людей с целью выявить ранние признаки возможных заболеваний. Это хороший пример, позволяющий понять опасность дедуктивного подхода.

В теории, стремление выявить ранние признаки заболеваний, безусловно, является хорошим начинанием. Но на практике имеет место такое большое количество ложноположительных диагнозов, что полезность данных мероприятий становится уже не настолько однозначной. Возьмем для примера деменцию (приобретенное слабоумие). Около 1% населения страдает от умеренных когнитивных нарушений (mild cognitive impairment), которые могут привести, но не обязательно приводят к деменции. Рассмотрим хороший тест, то есть такой, который в 95% случаев дает правильный (отрицательный) ответ для людей, не страдающих этим недугом. Это означает, что 5% людей, не имеющих когнитивных нарушений, получат ложноположительный результат. Звучит неплохо. Это соответствует тесту статистической значимости, где мы получаем 5% ложноположительных результатов, когда тестируемая гипотеза не верна.

Однако данный скрининговый тест не так хорош, как может показаться. На самом деле, он ужасающе плох, поскольку не 5%, а 86% всех положительных результатов являются ложноположительными. Соответственно, лишь 14% положительных результатов являются правильными. Это происходит потому, что большинство людей не имеют заболевания, следовательно, количество ложноположительных результатов среди этих людей (5% от 99%) превышает количество истинноположительных результатов среди значительно меньшей группы людей, действительно страдающих заболеванием (80% от 1%, если предположить, что успешно выявляется 80% случаев заболевания, когда оно действительно имеет место). Вы можете посмотреть видео на YouTube, где я постарался объяснить этот принцип, или почитайте мою недавнюю публикации по данной теме.

Следует отметить, что мы смогли вычислить этот ошеломляющий процент ложноположительных результатов для скрининговых тестов только благодаря тому, что мы знаем показатель распространенности данного заболевания среди всей популяции. Это априорная вероятность, которая нам необходима, чтобы применить теорему Байеса. В отношении же тестов статистической значимости не все так просто. Здесь аналогом распространенности заболевания является априорная вероятность того, что разница между препаратами действительно имеет место. Априорная вероятность должна быть получена до эксперимента, и в общем случае невозможно адекватно оценить эту величину.

Давайте рассмотрим эту идею на примере. Предположим, что мы тестируем 1000 различных препаратов, чтобы определить какие из них оказывают действие, а какие – нет. Также предположим, что 10% препаратов оказывают действие. Эта величина является нашей априорной вероятностью. Теперь представим, что мы получили «едва значимый» результат, например, p=0.047, в одном тесте, и объявили о том, что сделали открытие. Вероятность того, что это утверждение ошибочно, составляет не 5%, как принято считать, а 76%. Это катастрофически большой процент. Точно так же, как в случае скрининговых тестов, причина такого большого количества ошибок заключается в том, что количество ложноположительных результатов, превышает количество истинноположительных результатов.

В общем случае мы не знаем априорную вероятность истинности тестируемой гипотезы. Следовательно, мы можем вычислить p-значение, но не можем вычислить процент ложноположительных результатов. Однако мы можем задать минимальный процент ложноположительных результатов. Для этого мы должны лишь принять тезис о том, что до появления наблюдений неправомерно утверждать, что вероятность истинности тестируемой гипотезы превышает 50:50. Если мы не примем предыдущий тезис, это будет означать, что мы еще до начала эксперимента считаем, что вероятность нашей правоты превышает вероятность неправоты.

Если мы повторим вычисления для примера с препаратами, задав значение априорной вероятности равным 50%, а не 10%, мы получим 26% ложноположительных результатов, все же значительно больше, чем 5%. Меньшие значения априорной вероятности дадут еще больший процент ложноположительных результатов.

Вывод состоит в том, что если исследователь получил «едва значимый» результат в одном тесте, например, p=0.047, и объявил о том, что сделал открытие, это утверждение будет ложным с вероятностью как минимум 26%, а то и более. Неудивительно, что имеют место серьезные проблемы воспроизводимости в областях науки, где исследователи полагаются на тесты статистической значимости.

Какой же выход из сложившейся ситуации? Для начала пора отказаться от понятия «статистически значимый». Отсечка p<0.05, повсеместно распространенная в биомедицине, произвольна и, как мы продемонстрировали выше, крайне неадекватна. Многие винят Фишера за магическое число 0.05. Однако в 1926 году Фишер сказал, что p=0.05 является «низким стандартом значимости» («low standard of significance»), и что научный факт должен считаться экспериментально установленным только в том случае, если повторные эксперименты «редко не обеспечивают этот уровень значимости» («rarely fails to give this level of significance»).

Фраза «редко не обеспечивают», на которой Фишер сделал акцент 90 лет назад, была забыта. Значение p=0.045, полученное в одном эксперименте, открывает дорогу для публикации «открытия» в самых именитых изданиях. Таким образом, обвинения в адрес Фишера будут несправедливыми, и тем не менее приличная доля правды содержится в высказывании физика Роберта Мэттьюза (Robert Matthews) из Астонского университета, который в 1998 году сказал: «Очевидным фактом является то, что 70 лет назад Рональд Фишер подарил ученым математический аппарат, позволяющий превращать вздор в открытия, а случайности – в финансирование. Пришло время положить этому конец».

Более глубокая проблема заключается в том, что университеты по всему миру требуют от своих сотрудников публикаций вне зависимости о того, есть ли им что сказать. Исследователи оказываются под давлением и вынуждены «срезать углы», больше ценить количество, а не качество, преувеличивать значение своих работ, а иногда даже жульничать. Постоянное давление приводит к тому, что у них не остается ни времени, ни желания изучать статистику или выполнять повторные эксперименты. Пока не будут решена проблема подобных ложных приоритетов, биомедицина будет справедливо испытывать недостаток доверия общественности. Старшие ученые, ректоры и политики показывают очень плохой пример для молодых ученых. В 2007 году зоолог Питер Лоуренс (Peter Lawrence) из Кембриджского университета сказал следующее:

 

«Рекламируйте свою работу; делите ваши открытия на как можно большее количество частей (4 публикации – хорошо, 2 публикации – плохо); представляйте результаты в краткой форме (в авторитетных журналах мало места, сейчас типичное письмо в «Nature» имеет плотность черной дыры); упрощайте выводы и усложняйте материал (рецензентам будет труднее забраковать вашу работу!)».

Но также есть и хорошие новости. Большинство проблем возникает только в некоторых областях медицины и психологии. Следует также сказать, что, несмотря на статистические «неурядицы», в биомедицине были достигнуты невероятные успехи. В настоящее время проводится серьезная работа, направленная на решение проблемы воспроизводимости. Необходимо лишь, чтобы ректоры и организации, распределяющие гранты, перестали вынуждать исследователей «плохо себя вести».

Источник 

Перевод Станислава Петренко

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =