Ежедневно я просматриваю море научных новостей, пытаясь выудить из него значимые известия об элементарных частицах, сверхновых звездах или математических теоремах. Звезды, частицы и теоремы, однако, тонут в мышах и крысах. Статистические исследования, построенные в первую очередь на экспериментах над грызунами (хотя кролики, студенты и пациенты тоже подойдут), – основа научного информационного потока.
Когда два параметра кажутся ученым связанными между собой, а для непосредственного доказательства их взаимозависимости не хватает понимания сути происходящего, статистика – самый удобный выход. Правда, и выводы могут получиться не просто неожиданные, но и вполне мистические. В прошлом году в Бюллетене экспериментальной биологии и медицины (Москва) была опубликована статья, начало автореферата которой звучит так: “Крыс-самцов Вистар обучали находить скрытую под водой платформу в водном лабиринте Морриса, после чего их умерщвляли, в то время как в том же помещении происходило спаривание интактных животных. Потомство животных, спаривавшихся во время умерщвления обученных самцов, сравнивали с потомством животных, спаривавшихся во время умерщвления необученных самцов, оценивали их способность к обучению в лабиринте Морриса. Результаты свидетельствуют о том, что самки крыс, зачатые в момент смерти обученных самцов, достоверно быстрее достигали подводной платформы”. Ни много ни мало речь здесь идет о переселении крысиных душ.
Мой коллега Карен Шаинян считает, что разбирать методологию исследований из российских бюллетеней – это как бить лежачего, если не мертвого. Оказывается, ситуация в солидной научной прессе не лучше. В вышедшей на прошлой неделе в журнале Nature Reviews Neuroscience статье утверждается, что заметное количество опубликованных в авторитетных журналах статистических исследований в нейронауке – дисциплине, лежащей на стыке физиологии, психологии и наук о сознании, – не имеют научной состоятельности.
Одна из основных характеристик статистического исследования называется мощностью. Если мощность равна, например, 50 процентам, значит, исследование способно выявить искомый эффект в половине случаев. То есть в случайной тестируемой вами подборке испытуемых вы выявляете реально существующий эффект с вероятностью одна вторая. Чем меньше мощность, тем грубее исследование – это как плохо настроенная рамка металлоискателя в аэропорту, которая звенит на портативную ракетную установку, но спокойно пропускает автомат Калашникова. Мощность зависит от размера выборки (то есть числа подопытных) и выраженности явления. Если вы пытаетесь доказать существование корреляции, которая достаточно слаба, то, чтобы не пропустить ее проявление, вам нужно иметь достаточно много испытуемых. Низкая мощность – обычно такой считается мощность ниже 80 процентов – говорит о том, что из собранных данных никакого научного вывода сделать просто нельзя, через статистическое решето утекло все то, что искали.
На практике это выглядит примерно так. Вы – мэр небольшого города и хотите убедиться, что хотя бы половина жителей поддерживают ваше решение о строительстве нового футбольного стадиона. Допустим, объективно трем из четырех горожан эта идея не по душе. Вы проводите эксперимент: выходите на улицу и спрашиваете двух случайных прохожих, за стадион они или против. Ваш критерий таков: если оба против, значит, и больше половины города тоже против, а в противном случае стадион можно смело строить. В действительности, вероятность того, что оба из первых попавшихся двух людей скажут “нет", равна примерно 0,56. Значит, ваше скромное исследование подтвердит реальное положение дел (меньше половины за стадион) только в 56 случаях из 100.
Такое исследование считается плохим, его мощность (это и есть 0,56) мала – реальный эффект подтверждается чуть больше чем в половине случаев. Если бы настроения в городе были более ровными (51 процент против, 49 – за), то вероятность услышать “нет” от обоих опрошенных случайных прохожих была бы вообще 0,26, то есть только в 26 случаях из ста ваш эксперимент соответствовал бы настоящей картине. Ясно, что для увеличения мощности исследования нужно увеличивать выборку, причем чем более слабо выражен эффект, тем больше нужно испытуемых.
Авторы статьи взяли все опубликованные в 2011 году нейроисследования, использующие метод метаанализа, то есть основанные не на собственных экспериментах, а на подборке полученных другими учеными опытных данных. Таких статей нашлось 246. После исключения тех из них, в которых данные не были представлены явно, осталось 48 работ. Для каждого из этих исследований авторы вычислили его статистическую мощность. Медианой мощностей, то есть значением, ниже и выше которого лежат равные количества мощностей рассматриваемых исследований, оказалось 20 процентов.
Внимание: это значит, что в половине работ использовались статистические критерии, которые способны заметить искомую взаимосвязь не чаще чем один раз из пяти. Это не означает, что утверждаемые в статьях гипотезы неверны, это означает, что выборка слишком мала, чтобы их доказать. Это значит, что при повторении эксперимента другими учеными может получиться другой – в том числе прямо противоположный – результат. Почти так же бессмысленно, как проводить всенародный референдум, опрашивая всего несколько граждан.
Отдельно авторы рассматривают статьи, основанные на экспериментах с водяным лабиринтом Морриса (вроде переселения душ, о котором было выше) – подопытные мыши должны выбраться из заполненного водой резервуара, найдя расположенную у одного из бортов чуть ниже поверхности приступку. Этот класс опытов обычно используют для изучения свойств пространственной памяти мышей и их способности к обучению. Для того чтобы сделать из подобных экспериментов достоверные выводы, требуется около 130 подопытных грызунов. В рассматриваемых исследованиях их было в среднем 20. И тем не менее авторы этих работ сочли свой анализ если не доказательным, то приемлемым, а редакторы неплохих научных журналов (все исследования проиндексированы авторитетной базой Web of Science) – достойным публикации.
Может быть, такая шокирующая ситуация сложилась только в нейронауках? Вовсе нет. Два года назад разразился скандал с голландским социальным психологом Дидриком Стапелем. Являвшийся в то время профессором университета Тилбурга, Стапель был пойман на мошенническом использовании несостоятельных статистических методов в своих работах. За несколько лет Стапель опубликовал 55 статей, основанных на недостаточных или сфабрикованных данных (в одной из работ утверждалось, что мясоеды более эгоистичны, чем вегетарианцы). Бывший профессор не включал сами данные в тексты статей, что позволяло ему долгое время избегать проблем при рецензировании. После того как мошенничество вскрылось, Стапель был уволен из университета, а часть из его статей отозваны журналами, в том числе знаменитым Science.
Значительное количество основанных на низкокачественных данных работ связано с двумя обстоятельствами: высокой стоимостью больших, включающих широкие выборки экспериментов и желанием ученых публиковаться как можно чаще. Сознательное (мошенническое) и несознательное (от недостатка образования) использование плохого статистического анализа – сложившаяся практика. И пока нескольких брошенных в таз мышей достаточно для публикации в журнале, в мутном потоке научных новостей будет сложно найти настоящие звезды.
Когда два параметра кажутся ученым связанными между собой, а для непосредственного доказательства их взаимозависимости не хватает понимания сути происходящего, статистика – самый удобный выход. Правда, и выводы могут получиться не просто неожиданные, но и вполне мистические. В прошлом году в Бюллетене экспериментальной биологии и медицины (Москва) была опубликована статья, начало автореферата которой звучит так: “Крыс-самцов Вистар обучали находить скрытую под водой платформу в водном лабиринте Морриса, после чего их умерщвляли, в то время как в том же помещении происходило спаривание интактных животных. Потомство животных, спаривавшихся во время умерщвления обученных самцов, сравнивали с потомством животных, спаривавшихся во время умерщвления необученных самцов, оценивали их способность к обучению в лабиринте Морриса. Результаты свидетельствуют о том, что самки крыс, зачатые в момент смерти обученных самцов, достоверно быстрее достигали подводной платформы”. Ни много ни мало речь здесь идет о переселении крысиных душ.
Мой коллега Карен Шаинян считает, что разбирать методологию исследований из российских бюллетеней – это как бить лежачего, если не мертвого. Оказывается, ситуация в солидной научной прессе не лучше. В вышедшей на прошлой неделе в журнале Nature Reviews Neuroscience статье утверждается, что заметное количество опубликованных в авторитетных журналах статистических исследований в нейронауке – дисциплине, лежащей на стыке физиологии, психологии и наук о сознании, – не имеют научной состоятельности.
Одна из основных характеристик статистического исследования называется мощностью. Если мощность равна, например, 50 процентам, значит, исследование способно выявить искомый эффект в половине случаев. То есть в случайной тестируемой вами подборке испытуемых вы выявляете реально существующий эффект с вероятностью одна вторая. Чем меньше мощность, тем грубее исследование – это как плохо настроенная рамка металлоискателя в аэропорту, которая звенит на портативную ракетную установку, но спокойно пропускает автомат Калашникова. Мощность зависит от размера выборки (то есть числа подопытных) и выраженности явления. Если вы пытаетесь доказать существование корреляции, которая достаточно слаба, то, чтобы не пропустить ее проявление, вам нужно иметь достаточно много испытуемых. Низкая мощность – обычно такой считается мощность ниже 80 процентов – говорит о том, что из собранных данных никакого научного вывода сделать просто нельзя, через статистическое решето утекло все то, что искали.
На практике это выглядит примерно так. Вы – мэр небольшого города и хотите убедиться, что хотя бы половина жителей поддерживают ваше решение о строительстве нового футбольного стадиона. Допустим, объективно трем из четырех горожан эта идея не по душе. Вы проводите эксперимент: выходите на улицу и спрашиваете двух случайных прохожих, за стадион они или против. Ваш критерий таков: если оба против, значит, и больше половины города тоже против, а в противном случае стадион можно смело строить. В действительности, вероятность того, что оба из первых попавшихся двух людей скажут “нет", равна примерно 0,56. Значит, ваше скромное исследование подтвердит реальное положение дел (меньше половины за стадион) только в 56 случаях из 100.
Такое исследование считается плохим, его мощность (это и есть 0,56) мала – реальный эффект подтверждается чуть больше чем в половине случаев. Если бы настроения в городе были более ровными (51 процент против, 49 – за), то вероятность услышать “нет” от обоих опрошенных случайных прохожих была бы вообще 0,26, то есть только в 26 случаях из ста ваш эксперимент соответствовал бы настоящей картине. Ясно, что для увеличения мощности исследования нужно увеличивать выборку, причем чем более слабо выражен эффект, тем больше нужно испытуемых.
Авторы статьи взяли все опубликованные в 2011 году нейроисследования, использующие метод метаанализа, то есть основанные не на собственных экспериментах, а на подборке полученных другими учеными опытных данных. Таких статей нашлось 246. После исключения тех из них, в которых данные не были представлены явно, осталось 48 работ. Для каждого из этих исследований авторы вычислили его статистическую мощность. Медианой мощностей, то есть значением, ниже и выше которого лежат равные количества мощностей рассматриваемых исследований, оказалось 20 процентов.
Внимание: это значит, что в половине работ использовались статистические критерии, которые способны заметить искомую взаимосвязь не чаще чем один раз из пяти. Это не означает, что утверждаемые в статьях гипотезы неверны, это означает, что выборка слишком мала, чтобы их доказать. Это значит, что при повторении эксперимента другими учеными может получиться другой – в том числе прямо противоположный – результат. Почти так же бессмысленно, как проводить всенародный референдум, опрашивая всего несколько граждан.
Отдельно авторы рассматривают статьи, основанные на экспериментах с водяным лабиринтом Морриса (вроде переселения душ, о котором было выше) – подопытные мыши должны выбраться из заполненного водой резервуара, найдя расположенную у одного из бортов чуть ниже поверхности приступку. Этот класс опытов обычно используют для изучения свойств пространственной памяти мышей и их способности к обучению. Для того чтобы сделать из подобных экспериментов достоверные выводы, требуется около 130 подопытных грызунов. В рассматриваемых исследованиях их было в среднем 20. И тем не менее авторы этих работ сочли свой анализ если не доказательным, то приемлемым, а редакторы неплохих научных журналов (все исследования проиндексированы авторитетной базой Web of Science) – достойным публикации.
Может быть, такая шокирующая ситуация сложилась только в нейронауках? Вовсе нет. Два года назад разразился скандал с голландским социальным психологом Дидриком Стапелем. Являвшийся в то время профессором университета Тилбурга, Стапель был пойман на мошенническом использовании несостоятельных статистических методов в своих работах. За несколько лет Стапель опубликовал 55 статей, основанных на недостаточных или сфабрикованных данных (в одной из работ утверждалось, что мясоеды более эгоистичны, чем вегетарианцы). Бывший профессор не включал сами данные в тексты статей, что позволяло ему долгое время избегать проблем при рецензировании. После того как мошенничество вскрылось, Стапель был уволен из университета, а часть из его статей отозваны журналами, в том числе знаменитым Science.
Значительное количество основанных на низкокачественных данных работ связано с двумя обстоятельствами: высокой стоимостью больших, включающих широкие выборки экспериментов и желанием ученых публиковаться как можно чаще. Сознательное (мошенническое) и несознательное (от недостатка образования) использование плохого статистического анализа – сложившаяся практика. И пока нескольких брошенных в таз мышей достаточно для публикации в журнале, в мутном потоке научных новостей будет сложно найти настоящие звезды.