banner

Блог

Oct 06, 2023

Новый децентрализованный федеративный подход к обучению на основе глобально распределенных, низкого качества и защищенных частных медицинских данных.

Том 12 научных докладов, Номер статьи: 8888 (2022) Цитировать эту статью

4400 Доступов

2 цитаты

3 Альтметрика

Подробности о метриках

Обучение работе с несколькими разнообразными источниками данных имеет решающее значение для обеспечения беспристрастности и обобщаемости ИИ. В сфере здравоохранения законы о конфиденциальности данных запрещают перемещение данных за пределы страны происхождения, что предотвращает централизацию глобальных наборов медицинских данных для обучения ИИ. Межведомственное федеративное обучение, ориентированное на данные, представляет собой путь вперед для обучения на распределенных наборах медицинских данных. Существующие подходы обычно требуют передачи обновлений модели обучения на центральный сервер, что потенциально нарушает законы о конфиденциальности данных, если обновления не замаскированы или абстрагированы в достаточной степени, чтобы предотвратить реконструкцию набора данных. Здесь мы представляем полностью децентрализованный подход к федеративному обучению, использующий дистилляцию знаний, обеспечивающий конфиденциальность и защиту данных. Каждый узел работает независимо, без необходимости доступа к внешним данным. Установлено, что точность ИИ при использовании этого подхода сравнима с централизованным обучением, а когда узлы содержат данные низкого качества, что часто встречается в здравоохранении, точность ИИ может превысить производительность традиционного централизованного обучения.

Предвзятость в сфере ИИ и последующие ограничения масштабируемости начинают становиться распространенной темой в секторе здравоохранения с использованием ИИ. Недавно было высказано предположение, что эти ограничения являются следствием обучения на «узких» наборах данных, которые не отражают реальное клиническое разнообразие или разнообразие пациентов1,2. Разнообразие данных и использование данных из нескольких источников продемонстрировали больший потенциал для обучения ИИ, который является более точным и обобщаемым по сравнению с ИИ, обученным на более крупном (менее разнообразном) наборе данных из одного источника3,4,5,6,7,8.

В здравоохранении доступ к этим разнообразным наборам данных может быть затруднен. Мало того, что медицинские данные распространяются по многим учреждениям по всему миру, централизованное агрегирование данных для обучения ИИ все больше ограничивается из-за правовых и нормативных барьеров, которые препятствуют перемещению данных за пределы региона происхождения, чтобы защитить конфиденциальность данных9,10.

Качество данных также может стать проблемой, если нет возможности оценить качество отдельных распространяемых наборов данных. Для многих реальных проблем данные могут быть изначально низкого качества из-за неопределенности, субъективности, ошибок или подвергаться состязательным атакам11,12,13. Эта проблема усугубляется, когда частные данные в каждом населенном пункте невозможно просмотреть или проверить вручную. Поэтому минимизация негативного влияния некачественных данных на производительность ИИ имеет первостепенное значение, а способность любого подхода справляться с реалистичными уровнями шума данных будет представлять собой основную часть его масштабируемости.

В этом исследовании оценивается эффективность децентрализованного подхода к обучению ИИ, во-первых, на наборе немедицинских данных с синтетическим шумом данных, а во-вторых, на наборе медицинских данных, чтобы измерить возможность обобщения в нескольких местах. Мы также используем методы оптимизации топологий структуры на основе шаблонов, которые позволяют указать компромисс между точностью и стоимостью. Важно отметить, что мы показываем, что точность ИИ, полученная в результате нашего подхода, сопоставима со сценарием, в котором все данные централизованы. Более того, когда узлы содержат данные низкого качества, что часто встречается в реальных сценариях, точность ИИ может превзойти традиционное централизованное обучение. Мы пришли к выводу, что децентрализованное обучение искусственному интеллекту может быть практичным и масштабируемым в пределах желаемой допуска обобщения, при этом защищая конфиденциальность данных.

Эта статья организована следующим образом. После обобщения родственных работ в разделе «Сопутствующие работы». ниже результаты представлены во втором разделе. Эксперименты разделены на те, в которых рассматривается набор немедицинских данных («Набор немедицинских данных»), включая сценарии, отмеченные i. через IV., а также те, которые рассматривают набор медицинских данных («Набор медицинских данных»). «Обсуждение» представлено в третьем разделе. Наконец, «Методы» описаны в четвертом разделе, включая дизайн эксперимента, процедуру обучения и состав наборов немедицинских и медицинских данных как «План эксперимента и процедура обучения», «Состав набора немедицинских данных» и «Набор медицинских данных». состав соответственно.

ДЕЛИТЬСЯ