Радиолог анализирует рентгеновские снимки грудной клетки рядом с монитором, показывающим результаты работы AI-алгоритма диагностики

Контекст и постановка задачи

Университетская клиническая сеть Michigan Medicine ежегодно обрабатывает свыше 340 000 радиологических исследований. К 2022 году среднее время от получения снимка до выдачи заключения радиолога составляло 47 часов для планового потока — неприемлемый показатель для случаев с подозрением на злокачественные образования.

Команда поставила перед собой чёткую задачу: разработать систему приоритизации снимков, способную автоматически выявлять исследования с высокой вероятностью онкологической патологии и ставить их в начало очереди. Целевой показатель — сокращение времени до первичного заключения с 47 до 18 часов для 95% подозрительных случаев.

Ключевым ограничением являлось регуляторное требование: система не должна была заменять врача, а лишь приоритизировать рабочий поток. Это определило всю архитектуру решения.

Данные и обучающая выборка

Для обучения модели была сформирована ретроспективная выборка из 218 400 рентгеновских исследований за период 2015–2021 года. Каждый снимок сопровождался верифицированным диагнозом, подтверждённым как минимум двумя опытными радиологами, а для 41 200 случаев с онкологическими находками — результатами биопсии.

  • Злокачественные образования различных локализаций — 41 200 снимков
  • Доброкачественные образования — 38 700 снимков
  • Норма и неонкологические патологии — 138 500 снимков
  • Разделение: 70% обучение, 15% валидация, 15% тест

Существенной проблемой был дисбаланс классов. Команда применила комбинацию методов: weighted loss function, стратифицированную выборку и аугментацию (флипы, ротации ±10°, изменение яркости и контраста, добавление гауссового шума). Аугментация применялась только к обучающей выборке.

Архитектура модели

В качестве основы была выбрана архитектура EfficientNet-B4, предобученная на ImageNet. Выбор обусловлен оптимальным соотношением точности и вычислительной стоимости — критичным при необходимости работы в реальном времени.

Модель дообучалась в два этапа:

  • Этап 1 (10 эпох): заморожены все слои кроме классификационной головы. Learning rate 1e-3, batch size 32. Оптимизатор Adam.
  • Этап 2 (25 эпох): разморозка последних 30% слоёв. Learning rate 1e-5, cosine annealing scheduler. Gradient clipping 1.0.

Выход модели — вероятность наличия подозрительной патологии (0–1). Порог классификации подбирался отдельно с приоритетом recall над precision, поскольку цена ложноотрицательного результата в онкологии существенно выше.

Результаты и клиническая валидация

Независимая валидация проводилась на 6 месяцах проспективных данных (ноябрь 2022 — апрель 2023) без ретроспективного отбора. Результаты:

  • AUC-ROC на тестовой выборке: 0.941
  • Sensitivity при пороге 0.35: 94.2%
  • Specificity: 87.8%
  • Среднее время до первичного заключения по приоритетным кейсам: 17.3 часа (был 47 ч)
  • Процент злокачественных образований, пропущенных системой: 5.8% (против 8.1% у ручной сортировки)

Важно: ни один из 5.8% пропущенных системой случаев не был пропущен итоговым заключением радиолога, поскольку система не заменяла просмотр снимков, а лишь управляла очерёдностью.

Ограничения и открытые вопросы

Авторы кейса честно документируют следующие ограничения:

  • Модель обучена и валидирована на данных одной клинической сети — генерализация на другие системы рентгеновского оборудования требует дополнительной адаптации
  • Производительность снижается на снимках пациентов с имплантатами и предыдущими хирургическими вмешательствами
  • Отсутствует долгосрочный анализ влияния на клинические исходы (не только на скорость диагностики)
  • Интерпретируемость модели ограничена Grad-CAM визуализациями, которые не всегда соответствуют клинически значимым регионам

Выводы для практики

Данный кейс демонстрирует успешную стратегию интеграции AI в клинический процесс через модель "human-in-the-loop": система принимает решение о приоритете, врач принимает диагностическое решение. Это позволило преодолеть регуляторные барьеры и получить поддержку медицинского персонала.

Ключевой урок: техническая точность модели — необходимое, но не достаточное условие успеха клинического AI. Не менее важны процессы интеграции, протоколы верификации и управление ожиданиями пользователей.

Похожие кейсы