Контекст и постановка задачи
Университетская клиническая сеть Michigan Medicine ежегодно обрабатывает свыше 340 000 радиологических исследований. К 2022 году среднее время от получения снимка до выдачи заключения радиолога составляло 47 часов для планового потока — неприемлемый показатель для случаев с подозрением на злокачественные образования.
Команда поставила перед собой чёткую задачу: разработать систему приоритизации снимков, способную автоматически выявлять исследования с высокой вероятностью онкологической патологии и ставить их в начало очереди. Целевой показатель — сокращение времени до первичного заключения с 47 до 18 часов для 95% подозрительных случаев.
Ключевым ограничением являлось регуляторное требование: система не должна была заменять врача, а лишь приоритизировать рабочий поток. Это определило всю архитектуру решения.
Данные и обучающая выборка
Для обучения модели была сформирована ретроспективная выборка из 218 400 рентгеновских исследований за период 2015–2021 года. Каждый снимок сопровождался верифицированным диагнозом, подтверждённым как минимум двумя опытными радиологами, а для 41 200 случаев с онкологическими находками — результатами биопсии.
- Злокачественные образования различных локализаций — 41 200 снимков
- Доброкачественные образования — 38 700 снимков
- Норма и неонкологические патологии — 138 500 снимков
- Разделение: 70% обучение, 15% валидация, 15% тест
Существенной проблемой был дисбаланс классов. Команда применила комбинацию методов: weighted loss function, стратифицированную выборку и аугментацию (флипы, ротации ±10°, изменение яркости и контраста, добавление гауссового шума). Аугментация применялась только к обучающей выборке.
Архитектура модели
В качестве основы была выбрана архитектура EfficientNet-B4, предобученная на ImageNet. Выбор обусловлен оптимальным соотношением точности и вычислительной стоимости — критичным при необходимости работы в реальном времени.
Модель дообучалась в два этапа:
- Этап 1 (10 эпох): заморожены все слои кроме классификационной головы. Learning rate 1e-3, batch size 32. Оптимизатор Adam.
- Этап 2 (25 эпох): разморозка последних 30% слоёв. Learning rate 1e-5, cosine annealing scheduler. Gradient clipping 1.0.
Выход модели — вероятность наличия подозрительной патологии (0–1). Порог классификации подбирался отдельно с приоритетом recall над precision, поскольку цена ложноотрицательного результата в онкологии существенно выше.
Результаты и клиническая валидация
Независимая валидация проводилась на 6 месяцах проспективных данных (ноябрь 2022 — апрель 2023) без ретроспективного отбора. Результаты:
- AUC-ROC на тестовой выборке: 0.941
- Sensitivity при пороге 0.35: 94.2%
- Specificity: 87.8%
- Среднее время до первичного заключения по приоритетным кейсам: 17.3 часа (был 47 ч)
- Процент злокачественных образований, пропущенных системой: 5.8% (против 8.1% у ручной сортировки)
Важно: ни один из 5.8% пропущенных системой случаев не был пропущен итоговым заключением радиолога, поскольку система не заменяла просмотр снимков, а лишь управляла очерёдностью.
Ограничения и открытые вопросы
Авторы кейса честно документируют следующие ограничения:
- Модель обучена и валидирована на данных одной клинической сети — генерализация на другие системы рентгеновского оборудования требует дополнительной адаптации
- Производительность снижается на снимках пациентов с имплантатами и предыдущими хирургическими вмешательствами
- Отсутствует долгосрочный анализ влияния на клинические исходы (не только на скорость диагностики)
- Интерпретируемость модели ограничена Grad-CAM визуализациями, которые не всегда соответствуют клинически значимым регионам
Выводы для практики
Данный кейс демонстрирует успешную стратегию интеграции AI в клинический процесс через модель "human-in-the-loop": система принимает решение о приоритете, врач принимает диагностическое решение. Это позволило преодолеть регуляторные барьеры и получить поддержку медицинского персонала.
Ключевой урок: техническая точность модели — необходимое, но не достаточное условие успеха клинического AI. Не менее важны процессы интеграции, протоколы верификации и управление ожиданиями пользователей.