banner

Новости

Dec 28, 2023

Единый реальный

Научные данные, том 10, Номер статьи: 367 (2023) Цитировать эту статью

1 Альтметрика

Подробности о метриках

Существует впечатляющее количество каталогов данных о COVID-19. Однако ни один из них не полностью оптимизирован для приложений обработки данных. Непоследовательные соглашения об именах и данных, неравномерный контроль качества и отсутствие согласованности между данными о заболеваниях и потенциальными предикторами создают препятствия для надежного моделирования и анализа. Чтобы устранить этот пробел, мы создали единый набор данных, который объединяет и осуществляет проверку качества данных из многочисленных ведущих источников эпидемиологических и экологических данных о COVID-19. Мы используем глобально согласованную иерархию административных единиц для облегчения анализа внутри стран и между ними. Набор данных применяет эту единую иерархию для согласования эпидемиологических данных о COVID-19 с рядом других типов данных, имеющих отношение к пониманию и прогнозированию риска COVID-19, включая гидрометеорологические данные, качество воздуха, информацию о политике контроля COVID-19, данные о вакцинах и ключевые данные. демографические характеристики.

Продолжающаяся пандемия COVID-19 привела к широкому распространению заболеваний, гибели людей и социальным потрясениям по всему миру. Поскольку кризис общественного здравоохранения продолжается, существует как острая необходимость, так и уникальная возможность отслеживать и характеризовать распространение вируса. Это включает в себя улучшение нашего понимания пространственно-временной чувствительности передачи болезней к демографическим, географическим, социально-политическим, сезонным и экологическим факторам.

Глобальные исследовательские сообщества и сообщества специалистов по обработке данных отреагировали на эту проблему, приложив широкий спектр усилий по сбору, каталогизации и распространению данных о количестве случаев заболевания COVID-19, госпитализациях, смертности, вакцинации и других показателях заболеваемости и бремени COVID1,2. 3,4,5,6,7,8,9,10,11,12,13,14. Хотя эти базы данных поддерживают огромный объем исследований, мониторинга рисков и общественных дискуссий, они часто имеют противоречивую структуру, условные обозначения, значения, разрешение, качество и несогласованность между данными об инфекционных заболеваниях и потенциальными факторами риска. Эти проблемы требуют кропотливой очистки для объединения данных из разных источников, что задерживает прогресс исследований и может повлиять на их качество. Кроме того, критические наборы данных, которые количественно определяют факторы риска, такие как климат и мобильность людей, подвержены предвзятости и ограниченной доступности, что создает дополнительные проблемы для обработки данных.

Чтобы использовать эти разрозненные типы данных из разных источников на разных уровнях детализации, их необходимо объединить и гармонизировать. Без надлежащей гармонизации, курирования и проверки согласованности анализ этих наборов данных может привести к ложным результатам. Единый набор данных, решающий эти проблемы, поможет ускорить наше понимание риска COVID-19 посредством многомасштабного пространственно-временного моделирования, устраняя дополнительные трудоемкие шаги, необходимые для очистки, стандартизации и объединения различных источников данных. В качестве примера мы предоставляем тестовый пример с генерацией оценок эффективного репродуктивного числа (Rt) из двух разных источников данных, включая зарегистрированное количество случаев и предполагаемое количество ежедневных инфекций, которые напрямую импортируются из нашего единого набора данных, не тратя время на унификацию имен переменных. /types и очистка или географическая привязка данных.

Таким образом, наш унифицированный набор данных о COVID-19 направлен на (1) гармонизацию соглашений об именах и кодировании из надежных источников данных на нескольких административных уровнях, (2) внедрение контроля качества для подсчета случаев COVID-19 различных типов, (3) систематическое согласование потенциальных предикторов. с данными о COVID-19 и (4) предоставляет обновления и исправления в режиме реального времени, а также включает новые источники для соответствующих переменных по мере их появления. В частности, унифицированный набор данных о COVID-19 включает ключевые компоненты для эпидемиологии, включая демографию, гидрометеорологию, качество воздуха, политику, вакцинацию и доступность здравоохранения, отображает все геопространственные единицы по всему миру в уникальный идентификатор, стандартизирует административные названия, коды, даты, данные. типы и форматы унифицируют имена, типы и категории переменных. Мы также курируем данные, чтобы исправить путаные записи, возникающие из-за противоречивых названий одних и тех же географических единиц, разных стратегий и графиков отчетности, а также накопления эпидемиологических переменных. Набор данных распространяется в доступных форматах и ​​оптимизирован для приложений машинного обучения для поддержки воспроизводимых исследований высокого качества. Доступность этого набора данных облегчила анализ факторов риска COVID-19 на субнациональном уровне во многих странах15,16,17,18 и изучение изменений факторов риска в ходе пандемии19.

ДЕЛИТЬСЯ