Рекомендации по методам статистического анализа

1. Использовать многофакторный анализ или псевдорандомизацию в нерандомизированных исследованиях

В нерандомизированных исследованиях распространенной ошибкой является проверка сопоставимости групп сравнения по базовым характеристикам с помощью статистических критериев. Также для сравнения исходов в группах ошибочно использовать в качестве основного однофакторный анализ, то есть статистический критерий или регрессию с одной объясняющей переменной – группой сравнения.

p >0,05 не является достаточным основанием для вывода о том, что группы сравнения сопоставимы по базовым характеристикам. Большие значения p свидетельствуют только о том, что различия не выявлены. Например, если первая группа состоит из двух пациентов 10 и 20 лет, а вторая — из двух пациентов 30 и 40 лет, то для критерия Манна – Уитни p = 0,33, а для t-критерия Стьюдента p = 0,11. Это не подтверждает того, что эти группы сопоставимы по возрасту. Кроме того, для больших размеров выборок эти статистические тесты дают малые значения p, потому что проверяют отличие разности средних (медиан) от 0, но не учитывают допустимые различия средних у двух сопоставимых выборок. Применение статистических тестов для проверки сопоставимости (баланса) групп сравнения нежелательно (например, Ho D.E., Imai K., King G., Stuart E.A. Matching as nonparametric preprocessing for reducing model dependence in parametric causal inference. Political Analysis. 2007;15(3):199-236. https://doi.org/10.1093/pan/mpl013).

Для нерандомизированных исследований правильно добавлять базовые характеристики в качестве объясняющих переменных (регрессоров) в модели регрессий либо выполнять псевдорандомизацию (propensity score matching), при которой используют базовые характеристики как объясняющие переменные в регрессионной модели для оценки вероятности лечения (индекса склонности, propensity score).

Хотя однофакторный анализ и отражает реальность, его результаты могут не иметь полезного смысла. Так, известен «парадокс курильщика»: при помощи однофакторного анализа сравнивают группы курящих и некурящих, и клинические исходы оказываются значимо лучше у курящих. Например, этот парадокс может наблюдаться при рассмотрении всех пациентов, перенесших конкретную операцию в одной клинике в определенный интервал времени. При этом лучшие исходы у курящих могут объясняться тем, что курящие попадают на эту операцию в более раннем возрасте, чем некурящие. В таких случаях важен учет возраста при сравнении исходов у групп курящих и некурящих. «Парадокс курильщика» наблюдался в нескольких серьезных исследованиях (например, Barbash G.I., Reiner J., White H.D., Wilcox R.G., Armstrong P.W., Sadowski Z., Morris D., Aylward P., Woodlief L.H., Topol E.J. Evaluation of paradoxic beneficial effects of smoking in patients receiving thrombolytic therapy for acute myocardial infarction: Mechanism of the “smoker's paradox” from the GUSTO-I trial, with angiographic insights. J Am Coll Cardiol. 1995;26(5):1222-9. PMID: 7594035. https://doi.org/10.1016/0735-1097(95)00299-5; Hasdai D., Garratt K.N., Grill D.E., Lerman A., Holmes D.R. Jr. Effect of smoking status on the long-term outcome after successful percutaneous coronary revascularization. N Engl J Med. 1997;336(11):755-61. PMID: 9052653. https://doi.org/10.1056/NEJM199703133361103)

Использовать однофакторный анализ в качестве основного допустимо в пилотных исследованиях, для которых требуются большие затраты ресурсов (денег или времени), либо в случаях, когда известно, что базовые характеристики не связаны с исходами.

В рандомизированных исследованиях также можно применять многофакторный анализ. Можно использовать многофакторный анализ и после псевдорандомизации (doubly robust approach).

2. Описать дизайн исследования, в том числе критерий отбора в группу сравнения и статистические методы

Описать дизайн необходимо настолько подробно, чтобы другие авторы смогли воспроизвести исследование (при наличии тех же квалификаций, технологий и ресурсов).

Если исследование рандомизированное, то нужно указать:

  • тип слепого исследования: описать то, как выполнялось, или объяснить, почему не осуществлялось. При этом нужно разъяснить такие понятия, как «простое слепое исследование» или «двойное слепое исследование», поскольку в разных работах они могут иметь разные значения;
  • сокрытие назначения (сокрытие распределения, allocation concealment).

3. Оценить размер выборки

Если предварительная оценка необходимого размера выборки не проводилась, следует упомянуть, как он получен, и указать одно из следующего:

  • мощность при доступном размере выборки для определения того, что авторы считают клинически значимой связью;
  • различие в исходах, которое можно определить с мощностью 90% при имеющемся размере выборки и ожидаемой или наблюдаемой изменчивости;
  • доверительный интервал для различия первичного исхода между группами сравнения при имеющемся размере выборки.

Оценка размера выборки должна учитывать поправки для множественных сравнений либо проводиться для первичного исхода.

4. Вычислить данные для ROC-кривых при помощи ресемплинга

Если в тексте указаны чувствительность, специфичность или площадь под ROC-кривой (area under curve) для каких-либо моделей, то желательно вычислить эти показатели с помощью перекрестной проверки (cross validation) или бутстрэпа для малых выборок (<100 наблюдений) и выделения проверочной выборки для больших выборок (>5 000 наблюдений). Для выборок из 100–5 000 наблюдений можно применять любой метод ресемплинга.



ISSN: 1681-3472 (Print)
ISSN: 2500-3119 (Online)