Анализ ситуации с коронавирусом
Бывший военный разведчик и математик разложил COVID-19 по полочкам.
Александр Евсин – начальник ситуационного центра, заместитель руководителя ЦОДД (Центра организации дорожного движения правительства Москвы). В данный момент дежурная смена задействована в масштабных противоэпидемиологических мероприятиях в городе – в частности, обеспечивает организацию движения в районе строительства новой инфекционной больницы.
Сам Александр Евсин является специалистом по оценке степени угроз различного вида, в том числе и масштабных эпидемий. Он аналитик, а его посты в Интернете интересны прежде всего тем, что они спокойны и логичны.
– Вас критикуют за то, что вы пишете об эпидемии без надрыва и со знанием дела, но при этом медиком не являетесь.
– Я 17 лет проработал в военной разведке, где всегда серьезно относились к вопросам угроз глобального масштаба. По образованию – инженер-математик.
Профессионально на протяжении 25 лет тружусь в сфере обработки информации и ее оценки. Имею огромный практический опыт исследования данных по самой широкой номенклатуре прикладных областей. Это всегда включает в себя погружение в предметную область, изучение вопроса и консультации со специалистами.
Безусловно, я изучил существующую проблему в мере, достаточной для оценки риска. Так что можете считать мое личное мнение относительно COVID-19 взглядом специалиста по вероятностно-статистическим методам анализа.
– И что говорит анализ статистики?
– Чтобы анализировать развитие процесса по статистическим характеристикам, необходимо иметь данные с понятной методикой сбора, методикой регистрации первичных данных. Что мы имеем в случае с эпидемией COVID-19?
1. Наиболее недостоверная характеристика, как я вижу, – это количество зараженных.
Потому что везде применяют разные системы подсчета. Одни целенаправленно обследуют всех заболевших с признаками ОРВИ, другие смотрят только самых тяжелых, третьи – умерших, четвертые – группы риска, пятые изучают небольшие группы случайных людей.
И нигде не обследуют всех граждан подряд. Плюс во многих странах или регионах просто не тестировали на COVID-19 из-за отсутствия тестов.
– Но ведь гораздо более точная характеристика – это количество смертей больных коронавирусом?
– Здесь также возможны варианты, существенно меняющие картину в локальных кластерах, потому что в группу умерших ОТ коронавируса кое-где вносят умерших С коронавирусом.
Приведу в пример смерть Франсиско Гарсиа: испанский футбольный тренер скончался от коронавируса в 21 год. Такие заголовки газет вышли по всему миру.
Однако вскоре выяснилось, что несчастный молодой человек, попав в госпиталь с симптомами ОРВИ и пневмонии, был болен лейкемией, о которой даже не догадывался. Лейкемия в числе прочего вызывает крайнюю уязвимость к любого рода инфекциям. Но он пополнил статистику жертв именно коронавируса.
Также поначалу в Москве в жертвы коронавируса была занесена пациентка, страдающая множеством хронических заболеваний. И умерла она от оторвавшегося тромба. Потом наши медики разобрались и, насколько я знаю, перестали считать коронавирус причиной ее смерти.
В других странах, похоже, любой умерший пополняет статистику жертв эпидемии просто по факту наличия в его организме коронавируса. Вне зависимости от влияния на здоровье. Совершенно очевидно, что российский подход более правильный!
Что еще можно сказать о статистических данных? Поток данных – низкого качества, драматически засорен, поэтому в данный момент не может являться базой для сколь-нибудь достоверного моделирования; по нему нельзя проследить, как станут развиваться события дальше.
Ситуация усугублена тем, что люди не понимают разницы между смертностью от инфекции в популяции и летальностью самой инфекции. Тождественно воспринимают скорость выявления зараженных вирусом и реальную динамику процесса.
Даже ВОЗ уже написала, что реальная летальность от инфекции – ниже, чем выявленная на сегодняшний момент. И чистая математика говорит о том же. Если умерших обнаруживают достаточно достоверно, то количество инфицированных – очень недостоверно. Последних, конечно, гораздо больше!
– Как это?!
– Только не надо падать в обморок. У подавляющего большинства инфекция протекает в легкой форме, а порой и бессимптомно. Может, и мы с вами им уже переболели и выздоровели, просто нам не делали анализы. Что это означает? Что процент летальности существенно завышен.
Это не вирусология, а математика. Если в выражении M=(N умерших/N инфицированных)*100 N инфицированных преуменьшено, то итоговое M будет однозначно преувеличено!
– Тогда как понять степень опасности?
Пока такого всплеска не видно. Более того, в глобальном масштабе по всему миру и за весь год его не будет заметно, так как ежегодно умирает более 57 млн, а начиная с декабря 2019 года зарегистрировано всего лишь 16 тыс. жертв коронавируса.
Это 0,03% от общего количества смертей. Поэтому следует изучать более локальные и детализированные выборки.
Однако мы имеем практически онлайн-оповещения о жертвах коронавируса, но не имеем такой же информации об общем количестве умерших всего. Имеющиеся в Интернете данные по общей смертности являются аппроксимацией, а не первичными данными. Аппроксимация данных, конечно же, не сможет показать новую причину смертности, которая занимает всего 0,03% от общего количества.
Меня бесконечно удивляет, что до сих пор точные цифры не публикуются на официальных, заслуживающих доверия ресурсах. При этом анализ имеющейся статистики не дает ровно никаких поводов для ожидания апокалипсиса.
Подчеркиваю: только анализ статистики. Потому что есть новости из Италии, где, судя по тому, что пишут в СМИ и соцсетях, все очень серьезно и трагично: более 6 тыс. умерших при приблизительно 60 тыс. инфицированных.
Это дает чудовищно высокую летальность в 9–10%. Такого нет ни в одной стране. Например, в Германии процент умерших составляет 0,25%, что в целом соответствует уровню риска от сезонного гриппа. Но вирусы не убивают по национальному признаку…
– Информация из Италии кажется вам неправдой?
– Отбросим версию о ее недостоверности. Обратим внимание на ключевые моменты того, о чем пишет хирург больницы в Бергамо Даниэле Маккини, находящийся в эпицентре событий. «С долей изумления я наблюдал за реорганизацией нашей больницы, когда враг еще не был так силен.
То есть мы видим, что непосредственно перед наплывом пациентов больница была реорганизована под прием большого количества народа – и вскоре к ним действительно начали поступать по 20–30 человек в день с серьезными пневмониями, ТОРС и т.д.
Как следствие, перестало хватать респираторов, аппаратов ИВЛ… Вероятнее всего, власти сделали то, что от них потребовало напуганное общество: изолировали больных с коронавирусом в отдельную клинику, которая захлебнулась от такого наплыва.
– Это могло привести к коллапсу?
Таким образом, госпиталь наполняется тяжелыми больными с пневмониями различной этиологии. В мире ежегодно болеют пневмонией более 17 млн человек и умирает около 300 тысяч. Заболевание заразное.
Опасность внутрибольничных инфекций также нельзя недооценивать! В истории медицины известны случаи, когда происходило массовое перекрестное заражение именно в больницах. Даже широкое использование аппаратов ИВЛ может стать в таких условиях самостоятельной угрозой. Ведь если инфекция попадет в такой аппарат, то далее она будет занесена напрямую в легкие всем остальным.
– То есть вы считаете, что истинная причина происходящего в Италии – не особо смертельные свойства вируса, а изначальная ошибка в логистике пациентов?
– Я не могу говорить об истинной причине. Но считаю, что одно и то же заболевание не может иметь в 50 раз отличающуюся летальность. Поэтому ищу тот фактор, который определяет различие между 10%-ной смертностью в Италии и 0,25%-ной – в Германии. Чтобы проверить эту версию, необходимо знать, каким образом происходило распределение итальянских больных по больницам.
Работает ли в Италии международная комиссия, чтобы разобраться, что же все-таки происходит? Правильно ли вообще у них лечат? Сообщают, что в легких умерших находят и грибковые инфекции, а это следствие тяжелой иммуносупрессии, которая может возникать не собственно от вируса, а от избыточного использования антивирусных средств, в том числе серьезных препаратов, применяющихся при лечении ВИЧ.
В условиях чрезмерно завышенной опасности COVID-19 в группе риска – больные, имеющие другие серьезные заболевания: от сахарного диабета до ишемической болезни сердца. Когда персонал клиники сосредотачивается лишь на борьбе с коронавирусом – безусловно, это может привести к новым летальным исходам.
– Наблюдая за происходящим на Апеннинском полуострове, россияне боятся за своих престарелых родственников. Особенно пугает 8% смертности в возрасте 70–79 и 14,8% – в возрасте более 80 лет.
– К сожалению, люди умирают и без коронавируса. Есть открытые сайты, на которых можно узнать общие сведения о смертности в том или ином возрасте. Я возьму крайние значения: для возраста 10–14 и 75–79 лет. Данные взяты за период 1959–2009 гг.
– И что мы видим?
– В 2009-м, например, общий процент смертности (по любым причинам) в возрасте 10–14 лет составлял 0,2%. Сравниваем с графиком смертности от коронавируса – те же 0,2%. В возрасте 75–79 лет общий процент летальных исходов (по любым причинам) составлял 30%. Сравниваем с графиком по коронавирусу – там всего 8%! В три с лишним раза меньше.
– А в чем он не прав?
– Честно говоря, во всем. Начиная от неправильного использования исходных данных и заканчивая полным игнорированием биологической, медицинской, административной составляющих, касающихся распространения вируса и его последствий.
Любой патогенный вирус при его обнаружении и изучении сначала дает высокие статистические показатели смертности. Причина проста: когда происходит первое обнаружение, доля тяжелых исходов всегда высока. Потому что выборка идет из числа наиболее тяжелых случаев. Вы же не побежите в центр вирусологии с насморком.
Могу привести бытовое объяснение, показывающее, почему нельзя использовать прямую экстраполяцию данных. Например, у вас в семье в 2004 году родилась девочка, второй ребенок появился в 2008-м – снова девочка, третий – еще через четыре года, и это опять девочка. Насколько обоснован вывод, что в 2024 году у вас с женой будет 6 девочек?
Ни на сколько. Это бессмысленное заключение с точки зрения реального процесса, но абсолютно верное с точки зрения экстраполяции данных.
Любого, кто чихнул, тут же диагностировали. А другие страны обследовали только тяжелых. Там меньше инфицированных, зато пугающий уровень смертности среди тех, у кого нашли вирус.
Опасность COVID-19 не нужно преуменьшать. Она есть. А для некоторых людей, входящих в группы риска, может стать фатальной. Но это не повод для всемирной паники. Это причина для того, чтобы слушать рекомендации врачей.
– Так нужна ли тогда строгая изоляция граждан? Как пример идеально организованного карантина приводят Ухань, где находился эпицентр эпидемии – и вдруг все пошло на убыль…
– Я против жестких карантинов, останавливающих жизнь города. Может, Китай с его мощной экономикой это и может пережить, а вот для других стран это может закончиться гораздо хуже. Я считаю более правильной стратегию ограждения от опасности заражения групп риска, т.е. пожилых людей и хронически больных.
Это более эффективная, на мой взгляд, модель поведения. Чрезмерно жесткий карантин если и даст результат, то просто перенесет пик с марта на май, например. Но при этом очень сильно ударит по всем областям жизни.
Бесспорно, смерть каждого человека – трагедия. Но мы говорим об оценке степени опасности. Только в России в 2018 году погибло 18 тысяч человек в ДТП. В среднем 45 человек в день. Примерно 2 человека в час! Но никто не дрожит от ужаса, садясь в салон автомобиля. А из-за коронавируса прерываются авиасообщения, армии оцепляют города, миллиарды тратятся на защиту от одного из сотен возбудителей ОРВИ…
Либо произошел действительно спонтанный медийный эффект, либо это расчетливый план по нагнетанию. Потому что падение рынков уже неделю назад оценивалось в более чем 4 триллиона долларов!
– Меры безопасности, которые предпринимаются ныне в Москве, вплоть до самого пессимистического варианта – с закрытием города, тоже кажутся несколько избыточными?
– Так работают современные механизмы общественного устройства. Надо сказать, я прекрасно понимаю должностных лиц, вынужденных принимать такие решения. Они логичны с точки зрения массовых коммуникаций. Хотя это и нерационально по отношению к объективной реальности. Очень интересный феномен, который должен, безусловно, внимательно изучаться. На мой взгляд, это действительно эпидемия, но не в медицинском смысле, а в коммуникационном – вирус паники.
Сейчас даже истинные либералы призывают государство ужесточать все и вся. При этом, давайте говорить честно, со стороны объективных данных нет причин для столь резкого ограничения прав и свобод, запрета бизнесов…
Панические ожидания вкупе с разрушением деятельности множества предприятий могут стать гораздо большей угрозой, чем инфекция. Нарушение поставок продуктов в города, безработные, оставшиеся без средств к существованию, – это далеко не иллюзорные категории.
– Вы больше скептик или пессимист?
– Я привык быть пессимистом. Но при этом у меня аналитический склад ума. Настоящий аналитик должен сомневаться, доверяясь только надежным данным и непротиворечивым логическим выводам.
Мое скептическое отношение к панике последних дней – не свидетельство того, что я и мои коллеги сидим сложа руки. Тем более, я отдаю себе отчет в том, что, возможно, не знаю чего-то. Но тем не менее опасения насчет собственно вируса у меня умеренные. Как бы кто это ни называл, это разновидность ОРВИ – острой респираторной вирусной инфекции.
Несмотря на любые мои личные взгляды, я обязан выполнять все распоряжения властей – и буду это делать. В данный момент правительство Москвы постоянно и с полной самоотдачей работает по очень масштабным противоэпидемиологическим мероприятиям, которые полностью соответствуют уже сформированному паническому общественному запросу.
Органы власти – в сложной ситуации: панический запрос настолько силен, что власти будут вынуждены многократно перестраховываться. Ключ к снятию этих ограничений – лишь в нас самих.
– До Центра организации дорожного движения тоже докатилась волна борьбы с коронавирусом?
– Конечно! Причем ЦОДД в такой режим перешел раньше, чем это увидели граждане. С конца февраля идут служебные мероприятия по мерам предотвращения заболеваний.
Недавно в примерно 34 км от МКАД, в районе деревни Голохвастово, началось строительство новой инфекционной больницы для обеспечения потенциальной возможности лечения в случае резкого роста заболеваемости коронавирусом COVID-19.
Дорожный патруль ЦОДД в районе строительства осуществляет организацию дорожного движения, мобильный ситуационный центр является пунктом обработки информации. Дежурная смена постоянно отслеживает сведения, связанные с эпидемиологической обстановкой. Идут поиск и выявление таксистов, которые выглядят нездоровыми, простывшими…
Поэтому, когда спрашивают, с чего это я интересуюсь вирусом, – вот поэтому и интересуюсь. При текущем информационном фоне отказ от активности привел бы к лавине упреков, недоверия и возмущения. В Москве делается все и даже больше, чтобы обеспечить любой вариант дальнейших событий.
– Это будет недоказуемо и непознаваемо. Прошло полгода – апокалипсиса так и не случилось. Хтоническая непознаваемость заключается в том, что, естественно, никакой катастрофы не будет. Но вы никогда не сможете доказать, что ее и не могло бы быть.
Думаю, уже сейчас общество разделилось по своему отношению к эпидемии. И это вопрос веры. Кто-то потом будет верить, что мир спасен, а кто-то – что мир обманули.
Если вы не знакомы ни с анализом данных, ни с программированием – можете смело пропускать блоки с кодом. Полученная из данных полезная информация сама расскажет историю. Если вы только знакомитесь с Data Science, этот текст даст вам множество примеров того, как можно анализировать данные и как проводить предварительную оценку информации по датасету.
В этой статье мы также проверим данные из СМИ и рассмотрим драматическую историю судна Diamond Princess. В конце публикации сделаем выводы о том, действительно ли стоит бояться нового коронавируса.
Сообщения о распространении вспышек болезни, даже из официальных правительственных источников, бывают противоречивыми, запоздалыми или просто недостоверными. При этом массовая истерия работает как телескоп: обыватель, находясь вдали от эпицентра заболевания, прислушивается к многочисленным сообщениям СМИ и относится к вирусу, как к непосредственной угрозе жизни. Такая картина складывается сейчас вокруг вспышки коронавируса в Китае.
В то время как алгоритмическое наблюдение за населением внедряется правительством Китая уже длительное время, такие системы не смогли остановить распространение болезни. Да, коронавирус представляет риск для здоровья, и есть причины для беспокойства, если вы живете в пострадавшем регионе или вступили в контакт с кем-то, кто приехал оттуда. Но важно попусту не впадать в панику.
Очевидно, что общедоступные наборы данных не могут содержать точные имена пострадавших, не говоря уже о предполагаемых контактах. Лучшее, на что мы можем рассчитывать, – анализ совокупности агрегированных данных, в том числе метаданных, таких как сообщения в социальных сетях или информация об отмененных рейсах. Чтобы посмотреть последние новости о коронавирусе, приходящие со всего мира, полистайте микроблоги @COVID19Info и @DataCoronavirus.
Признанный источник информации. Для нового коронавируса центр системных наук и инженерии (CSSE) при университете Джона Хопкинса создал сайт с анализом авторитетных статистических данных, который называется глобальные случаи Coronavirus COVID-19. Панель построена на основе геоинформационной системы Esri. Вот как выглядел ресурс 26 февраля 2020 года.
Мобильная версия сайта
Данные о случаях заражения нанесены на карту, видно число заболевших (confirmed), умерших (deaths) и выздоровевших (recovered). Источники данных перечислены на этой странице. Распределение случаев относительно времени приведено на следующем графике.
С чем связан скачок? 13 февраля количество зарегистрированных случаев подскочило с 45 тыс. до 60 тыс. из-за изменения методологии подсчёта. Ранее учитывались лишь лабораторно подтвержденные случаи заболевания. Это были точные данные, но приходящие с запаздыванием.
Теперь для подсчёта используется диагноз, основанный на клинических симптомах. В результате за один день было дополнительно зарегистрировано 13322 записей на основе симптомов, и ещё 1820 лабораторно подтвержденных заражений. То есть из 15 152 случаев лишь 12% были подтверждены лабораторно. Впоследствии некоторые из них будут отклонены как ошибочные диагнозы. Но исследователи осмотрительны и предпочитают принять здорового человека за больного, чем пропустить зараженного.
Если коротко. На 26 февраля зарегистрировано 81 тыс. больных, включая неподтвержденные в лаборатории случаи. Из их числа умерло 2762 человека, уже выздоровело 30 тыс. пациентов (37%). Лишь 3% случаев заражения зарегистрированы за пределами Китая.
Чтобы посмотреть исходники, мы зашли на страницу GitHub. Данные обновляются ежедневно и представлены в виде трех csv-файлов, соответствующих случаям заражения, смертей и выздоровления:
Посмотреть структуру файлов можно прямо на GitHub:
Это простейший формат электронной таблицы, в котором приведены данные за отчетный период в один день из каждого города или региона. К сожалению, отсутствуют метаданные, указывающие, какое смещение часового пояса используется (GMT или стандартное китайское время).
Представление в виде трех отдельных таблиц было преобразовано к более удобному файлу в виде набора данных на Kaggle. В этом файле временным рядам уже соответствуют не строки, а столбцы, и имеется по одному столбцу для каждой из категории заразившихся.
Приведенные данные мы обработали в Jupyter Notebook и выложили на GitHub. Далее статья дублирует файл для тех, кто не занимается анализом данных. Полученный блокнот Jupyter можно использовать для обновленного датасета и чтобы следить за развитием ситуации.
Для обработки данных мы использовали библиотеки NumPy и Pandas, для визуализации – Matplotlib и Seaborn:
На момент написания статьи (19 февраля) набор данных был очень невелик, и состоял всего из 1719 строк и 8 столбцов. Посмотрим на структуру файла, выведем первые 5 строк.
Результат вывода команды data.head()
Столбец Sno соответствует номеру строки и не имеет особого значения для анализа. В столбце Last Update отображены те же времена, что и в столбце Date , за исключением нескольких случаев, когда числа обновлялись позже. Удалим Sno и Last Update , посмотрим какие данные хранятся в оставшихся столбцах:
Кроме Province/State все столбцы целиком заполнены. Это объясняется тем, что для ряда государств, например, России, указана только страна, без указания области. Информация о провинциях имеет решающее значение пока только для Китая. Большинство заболевших находится в провинции Хубэй.
Перейдем к категориям заболевших. Метод describe описывает общую статистику для каждого числового столбца.
Результат вывода команды data.describe()
Из значений max следует, что данные в столбцах – кумулятивные. То есть в каждый день дается итог с накоплением. Датасет на Kaggle несколько отстает от данных в исходных CSV-файлах на GitHub (здесь мы видим 60 тыс. общих случаев против 75 тыс. текущих). Но для общего анализа зависимостей это не так важно.
Проверим данные на дубликаты. Метод duplicated() возвращает серию логических значений (равны True , если аналогичная строка уже имеется в наборе данных). Проверим, что никакие две записи не имеют одинаковые страну, область и дату.
Cумма булевых значений может быть равна нулю только если все пункты равны False . Получается, что все строки набора данных уникальны.
Найдем страны, в которых были зарегистрированы случаи обнаружения коронавируса.
При предварительном анализе мы заметили, что в одних сообщениях в качестве страны указан просто Китай ( China ), в других – Континентальный Китай без Гонконга и Макао ( Mainland China ). Объединим данные для анализа и выведем общий список.
Результат вывода предыдущего блока кода
Можно видеть, что в списке есть Others (другие). Давайте узнаем, почему в каких-то случаях не была указана страна.
Diamond Princess под карантином.
Россиянин Аркадий Булгатов вместе с другими пассажирами оказался на этом корабле. Его заметку о том, что проходило на судне, вы можете прочитать онлайн в журнале Esquire. Карантин был снят 19 февраля.
Посмотрим на ситуацию по России, отраженную в агрегированных данных.
Стабильно указаны 2 пациента, которые по сведениям датасета после 11 февраля были признаны выздоровевшими. Действительно, 12 февраля Газета.ру написала, о том, что в Чите выздоровел второй человек в России, болевший коронавирусом: гражданину КНР Ван Юньбиню вручили документы о выписке.
Это два подтвержденных случая болезни. В то же время в Петербурге из Боткинской больницы постоянно сбегают из-под карантина пациенты, находящиеся под подозрением.
Проанализируем, как часто поступают данные.
Итак, данные ведут отсчет с 22 января. Время дня разнится. Приведем даты к единообразному представлению.
Посмотрим, как повлияла эпидемия на различные страны.
Данные подтверждают, что в Китае зарегистрировано наибольшее количество случаев болезни и основное число смертельных случаев. Кроме Китая очаг незначительно перекинулся на другие страны Восточной Азии. Первая смерть среди стран Европы произошла во Франции (умер турист из Китая).
Для визуализации данных мы используем две библиотеки Python – Matplotlib и Seaborn. Matplotlib – библиотека 2D-визуализации, используемая большинством исследователей данных. Seaborn построен поверх matplotlib и помогает создавать более привлекательные и сложные представления информации.
1. Временная зависимость количества подтвержденных случаев
Да, скачок есть, всё соответствует данным с сайта, но теперь мы можем оформлять данные в своем стиле.
2. Число умерших и выздоровевших
Определим, как менялось со временем число людей, которые умерли или выздоровели.
Видно, что сейчас наблюдается рост обеих групп с превалирующим числом выздоровевших пациентов. Так как изменение составляет несколько порядков величины, построим данные в полулогарифмическом масштабе.
Можно видеть, что число выздоровевших пациентов начало превышать число умирающих в начале февраля.
3. Грубая оценка летальности
Meduza уже писала о том, что для определения смертельности неверно делить число умерших на число заболевших. Подсчитать летальность простым делением можно только для закончившихся эпидемий, а вспышка COVID-19 продолжается. Но данное число можно использовать как грубую оценку.
Текущие значения колеблются между 2 и 3 процентами. Сравним рассмотренную динамику летальности с динамикой выздоровления.
В процентном отношении динамика роста выздоровевших обнадеживает.
4. Лайнер Diamond Princess
Рассмотрим упоминавшийся случай – насколько критично нахождение в замкнутом пространстве круизного лайнера. Сравним, как развивалась ситуация в провинции Хубэй, ставшей очагом распространения болезни с тем, как сложились обстоятельства в случае карантина на лайнере Diamond Princess.
Чтобы сравнить графики, нам пришлось привести ось ординат к логарифмическому масштабу. Доля зараженных людей в случае замкнутого пространства круизного лайнера на 1-2 порядка (в 10-100 раз) превышает долю людей в очаге развития болезни, где люди, несмотря на распространение эпидемии, оказываются в менее тесных условиях и могут меньше контактировать с заболевшими.
Итак, число случаев заболевания вирусом COVID-19 стремительно растёт. Однако это не должно вызывать паники:
- Очаг вируса имеет локализованный характер. Большинство заболевших сконцентрированы в провинции Китая Хубей. Примерно половина зараженных за пределами Китая – это пассажиры и члены команды круизного лайнера Diamond Princess.
- Текущая летальность вируса по грубой оценке колеблется в диапазоне 2–3%. Эта оценка также попадает в более строго рассчитанный коридор в 0,4–4%. Для сравнения: летальность другого коронавируса, атипичной пневмонии составляет 9,6%.
- В течение первой недели летальность доминировала над выздоравливаемостью, но сейчас вылечивается всё больше людей.
То есть коронавирус может быть для вас опаснее сезонного гриппа только если вы находитесь в эпицентре событий.
Другие статьи Библиотеки программиста по тематике Data Science:
Эти три – для новичков. А если вы уже разбираетесь – просто смотрите, как много всего есть по тегу Data Science.
Бывший военный разведчик и математик разложил COVID-19 по полочкам
25.03.2020 в 19:38, просмотров: 1303547
Александр Евсин — начальник ситуационного центра, заместитель руководителя ЦОДД (Центра организации дорожного движения правительства Москвы). В данный момент дежурная смена задействована в масштабных противоэпидемиологических мероприятиях в городе — в частности, обеспечивает организацию движения в районе строительства новой инфекционной больницы.
Сам Александр Евсин является специалистом по оценке степени угроз различного вида, в том числе и масштабных эпидемий. Он аналитик, а его посты в Интернете интересны прежде всего тем, что они спокойны и логичны.
— Вас критикуют за то, что вы пишете об эпидемии без надрыва и со знанием дела, но при этом медиком не являетесь.
— Я 17 лет проработал в военной разведке, где всегда серьезно относились к вопросам угроз глобального масштаба. По образованию — инженер-математик. Профессионально на протяжении 25 лет тружусь в сфере обработки информации и ее оценки. Имею огромный практический опыт исследования данных по самой широкой номенклатуре прикладных областей. Это всегда включает в себя погружение в предметную область, изучение вопроса и консультации со специалистами.
Безусловно, я изучил существующую проблему в мере, достаточной для оценки риска. Так что можете считать мое личное мнение относительно COVID-19 взглядом специалиста по вероятностно-статистическим методам анализа.
— И что говорит анализ статистики?
— Чтобы анализировать развитие процесса по статистическим характеристикам, необходимо иметь данные с понятной методикой сбора, методикой регистрации первичных данных. Что мы имеем в случае с эпидемией COVID-19?
Наиболее недостоверная характеристика, как я вижу, — это количество зараженных. Потому что везде применяют разные системы подсчета. Одни целенаправленно обследуют всех заболевших с признаками ОРВИ, другие смотрят только самых тяжелых, третьи — умерших, четвертые — группы риска, пятые изучают небольшие группы случайных людей. И нигде не обследуют всех граждан подряд. Плюс во многих странах или регионах просто не тестировали на COVID-19 из-за отсутствия тестов.
— Но ведь гораздо более точная характеристика — это количество смертей больных коронавирусом?
— Здесь также возможны варианты, существенно меняющие картину в локальных кластерах, потому что в группу умерших ОТ коронавируса кое-где вносят умерших С коронавирусом.
Приведу в пример смерть Франсиско Гарсиа: испанский футбольный тренер скончался от коронавируса в 21 год. Такие заголовки газет вышли по всему миру. Однако вскоре выяснилось, что несчастный молодой человек, попав в госпиталь с симптомами ОРВИ и пневмонии, был болен лейкемией, о которой даже не догадывался. Лейкемия в числе прочего вызывает крайнюю уязвимость к любого рода инфекциям. Но он пополнил статистику жертв именно коронавируса.
Также поначалу в Москве в жертвы коронавируса была занесена пациентка, страдающая множеством хронических заболеваний. И умерла она от оторвавшегося тромба. Потом наши медики разобрались и, насколько я знаю, перестали считать коронавирус причиной ее смерти.
В других странах, похоже, любой умерший пополняет статистику жертв эпидемии просто по факту наличия в его организме коронавируса. Вне зависимости от влияния на здоровье. Совершенно очевидно, что российский подход более правильный!
Что еще можно сказать о статистических данных? Поток данных — низкого качества, драматически засорен, поэтому в данный момент не может являться базой для сколь-нибудь достоверного моделирования; по нему нельзя проследить, как станут развиваться события дальше.
Ситуация усугублена тем, что люди не понимают разницы между смертностью от инфекции в популяции и летальностью самой инфекции. Тождественно воспринимают скорость выявления зараженных вирусом и реальную динамику процесса. Даже ВОЗ уже написала, что реальная летальность от инфекции — ниже, чем выявленная на сегодняшний момент. И чистая математика говорит о том же. Если умерших обнаруживают достаточно достоверно, то количество инфицированных — очень недостоверно. Последних, конечно, гораздо больше!
— Как это?!
— Только не надо падать в обморок. У подавляющего большинства инфекция протекает в легкой форме, а порой и бессимптомно. Может, и мы с вами им уже переболели и выздоровели, просто нам не делали анализы. Что это означает? Что процент летальности существенно завышен.
Это не вирусология, а математика. Если в выражении M=(N умерших/N инфицированных)*100 N инфицированных преуменьшено, то итоговое M будет однозначно преувеличено!
— Тогда как понять степень опасности?
Пока такого всплеска не видно. Более того, в глобальном масштабе по всему миру и за весь год его не будет заметно, так как ежегодно умирает более 57 млн, а начиная с декабря 2019 года зарегистрировано всего лишь 16 тыс. жертв коронавируса. Это 0,03% от общего количества смертей. Поэтому следует изучать более локальные и детализированные выборки. Однако мы имеем практически онлайн-оповещения о жертвах коронавируса, но не имеем такой же информации об общем количестве умерших всего. Имеющиеся в Интернете данные по общей смертности являются аппроксимацией, а не первичными данными. Аппроксимация данных, конечно же, не сможет показать новую причину смертности, которая занимает всего 0,03% от общего количества.
Меня бесконечно удивляет, что до сих пор точные цифры не публикуются на официальных, заслуживающих доверия ресурсах. При этом анализ имеющейся статистики не дает ровно никаких поводов для ожидания апокалипсиса. Подчеркиваю: только анализ статистики. Потому что есть новости из Италии, где, судя по тому, что пишут в СМИ и соцсетях, все очень серьезно и трагично: более 6 тыс. умерших при приблизительно 60 тыс. инфицированных. Это дает чудовищно высокую летальность в 9–10%. Такого нет ни в одной стране. Например, в Германии процент умерших составляет 0,25%, что в целом соответствует уровню риска от сезонного гриппа. Но вирусы не убивают по национальному признаку…
— Информация из Италии кажется вам неправдой?
— Это могло привести к коллапсу?
Опасность внутрибольничных инфекций также нельзя недооценивать! В истории медицины известны случаи, когда происходило массовое перекрестное заражение именно в больницах. Даже широкое использование аппаратов ИВЛ может стать в таких условиях самостоятельной угрозой. Ведь если инфекция попадет в такой аппарат, то далее она будет занесена напрямую в легкие всем остальным.
— То есть вы считаете, что истинная причина происходящего в Италии — не особо смертельные свойства вируса, а изначальная ошибка в логистике пациентов?
Работает ли в Италии международная комиссия, чтобы разобраться, что же все-таки происходит? Правильно ли вообще у них лечат? Сообщают, что в легких умерших находят и грибковые инфекции, а это следствие тяжелой иммуносупрессии, которая может возникать не собственно от вируса, а от избыточного использования антивирусных средств, в том числе серьезных препаратов, применяющихся при лечении ВИЧ.
В условиях чрезмерно завышенной опасности COVID-19 в группе риска — больные, имеющие другие серьезные заболевания: от сахарного диабета до ишемической болезни сердца. Когда персонал клиники сосредотачивается лишь на борьбе с коронавирусом — безусловно, это может привести к новым летальным исходам.
— Наблюдая за происходящим на Апеннинском полуострове, россияне боятся за своих престарелых родственников. Особенно пугает 8% смертности в возрасте 70–79 и 14,8% — в возрасте более 80 лет.
— К сожалению, люди умирают и без коронавируса. Есть открытые сайты, на которых можно узнать общие сведения о смертности в том или ином возрасте. Я возьму крайние значения: для возраста 10–14 и 75–79 лет. Данные взяты за период 1959–2009 гг.
— И что мы видим?
— В 2009-м, например, общий процент смертности (по любым причинам) в возрасте 10–14 лет составлял 0,2%. Сравниваем с графиком смертности от коронавируса — те же 0,2%. В возрасте 75–79 лет общий процент летальных исходов (по любым причинам) составлял 30%. Сравниваем с графиком по коронавирусу — там всего 8%! В три с лишним раза меньше.
— А в чем он не прав?
— Честно говоря, во всем. Начиная от неправильного использования исходных данных и заканчивая полным игнорированием биологической, медицинской, административной составляющих, касающихся распространения вируса и его последствий.
Любой патогенный вирус при его обнаружении и изучении сначала дает высокие статистические показатели смертности. Причина проста: когда происходит первое обнаружение, доля тяжелых исходов всегда высока. Потому что выборка идет из числа наиболее тяжелых случаев. Вы же не побежите в центр вирусологии с насморком.
Могу привести бытовое объяснение, показывающее, почему нельзя использовать прямую экстраполяцию данных. Например, у вас в семье в 2004 году родилась девочка, второй ребенок появился в 2008-м — снова девочка, третий — еще через четыре года, и это опять девочка. Насколько обоснован вывод, что в 2024 году у вас с женой будет 6 девочек? Ни на сколько. Это бессмысленное заключение с точки зрения реального процесса, но абсолютно верное с точки зрения экстраполяции данных.
Опасность COVID-19 не нужно преуменьшать. Она есть. А для некоторых людей, входящих в группы риска, может стать фатальной. Но это не повод для всемирной паники. Это причина для того, чтобы слушать рекомендации врачей.
— Так нужна ли тогда строгая изоляция граждан? Как пример идеально организованного карантина приводят Ухань, где находился эпицентр эпидемии — и вдруг все пошло на убыль…
— Я против жестких карантинов, останавливающих жизнь города. Может, Китай с его мощной экономикой это и может пережить, а вот для других стран это может закончиться гораздо хуже. Я считаю более правильной стратегию ограждения от опасности заражения групп риска, т.е. пожилых людей и хронически больных. Это более эффективная, на мой взгляд, модель поведения. Чрезмерно жесткий карантин если и даст результат, то просто перенесет пик с марта на май, например. Но при этом очень сильно ударит по всем областям жизни.
Бесспорно, смерть каждого человека — трагедия. Но мы говорим об оценке степени опасности. Только в России в 2018 году погибло 18 тысяч человек в ДТП. В среднем 45 человек в день. Примерно 2 человека в час! Но никто не дрожит от ужаса, садясь в салон автомобиля. А из-за коронавируса прерываются авиасообщения, армии оцепляют города, миллиарды тратятся на защиту от одного из сотен возбудителей ОРВИ…
Либо произошел действительно спонтанный медийный эффект, либо это расчетливый план по нагнетанию. Потому что падение рынков уже неделю назад оценивалось в более чем 4 триллиона долларов!
— Меры безопасности, которые предпринимаются ныне в Москве, вплоть до самого пессимистического варианта — с закрытием города, тоже кажутся несколько избыточными?
— Так работают современные механизмы общественного устройства. Надо сказать, я прекрасно понимаю должностных лиц, вынужденных принимать такие решения. Они логичны с точки зрения массовых коммуникаций. Хотя это и нерационально по отношению к объективной реальности. Очень интересный феномен, который должен, безусловно, внимательно изучаться. На мой взгляд, это действительно эпидемия, но не в медицинском смысле, а в коммуникационном — вирус паники.
Сейчас даже истинные либералы призывают государство ужесточать все и вся. При этом, давайте говорить честно, со стороны объективных данных нет причин для столь резкого ограничения прав и свобод, запрета бизнесов… Панические ожидания вкупе с разрушением деятельности множества предприятий могут стать гораздо большей угрозой, чем инфекция. Нарушение поставок продуктов в города, безработные, оставшиеся без средств к существованию, — это далеко не иллюзорные категории.
— Вы больше скептик или пессимист?
— Я привык быть пессимистом. Но при этом у меня аналитический склад ума. Настоящий аналитик должен сомневаться, доверяясь только надежным данным и непротиворечивым логическим выводам.
Мое скептическое отношение к панике последних дней — не свидетельство того, что я и мои коллеги сидим сложа руки. Тем более, я отдаю себе отчет в том, что, возможно, не знаю чего-то. Но тем не менее опасения насчет собственно вируса у меня умеренные. Как бы кто это ни называл, это разновидность ОРВИ — острой респираторной вирусной инфекции.
Несмотря на любые мои личные взгляды, я обязан выполнять все распоряжения властей — и буду это делать. В данный момент правительство Москвы постоянно и с полной самоотдачей работает по очень масштабным противоэпидемиологическим мероприятиям, которые полностью соответствуют уже сформированному паническому общественному запросу. Органы власти — в сложной ситуации: панический запрос настолько силен, что власти будут вынуждены многократно перестраховываться. Ключ к снятию этих ограничений — лишь в нас самих.
— До Центра организации дорожного движения тоже докатилась волна борьбы с коронавирусом?
— Конечно! Причем ЦОДД в такой режим перешел раньше, чем это увидели граждане. С конца февраля идут служебные мероприятия по мерам предотвращения заболеваний. Недавно в примерно 34 км от МКАД, в районе деревни Голохвастово, началось строительство новой инфекционной больницы для обеспечения потенциальной возможности лечения в случае резкого роста заболеваемости коронавирусом COVID-19. Дорожный патруль ЦОДД в районе строительства осуществляет организацию дорожного движения, мобильный ситуационный центр является пунктом обработки информации. Дежурная смена постоянно отслеживает сведения, связанные с эпидемиологической обстановкой. Идут поиск и выявление таксистов, которые выглядят нездоровыми, простывшими…
Поэтому, когда спрашивают, с чего это я интересуюсь вирусом, — вот поэтому и интересуюсь. При текущем информационном фоне отказ от активности привел бы к лавине упреков, недоверия и возмущения. В Москве делается все и даже больше, чтобы обеспечить любой вариант дальнейших событий.
— Это будет недоказуемо и непознаваемо. Прошло полгода — апокалипсиса так и не случилось. Хтоническая непознаваемость заключается в том, что, естественно, никакой катастрофы не будет. Но вы никогда не сможете доказать, что ее и не могло бы быть.
Думаю, уже сейчас общество разделилось по своему отношению к эпидемии. И это вопрос веры. Кто-то потом будет верить, что мир спасен, а кто-то — что мир обманули.
Читайте также: