«Найкраща» модель може зрадити: як MIT довів ризики машинного навчання у нових середовищах і що дає OODSelect
Нічна зміна в рентгенкабінеті шумить активністю – на екранах мигтять десятки знімків, а поруч тихо працює штучний інтелект, який має допомогти лікарям не втратити жодної дрібниці. Та раптом система упевнено помиляється там, де здавалося, не мала б. Саме такий розрив між обіцянками і реальністю дослідники MIT поклали під мікроскоп: вони показали, що у новому середовищі навіть «золота» модель може спіткнутися. У грудні на конференції NeurIPS 2025 команда представила результати, які збурили дискусію про довіру до AI в медицині, модерації контенту та за її межами. Історія не про сенсації, а про акуратно зібрані докази того, що контекст має значення.
Сигнал тривоги з рентгенкабінету
Команда з Массачусетського технологічного інституту перевірила, як працюють моделі, коли їх переносять з одного джерела даних у інше, наприклад із однієї лікарні в іншу. Виявилося, що «найкраща» за середніми метриками модель, навчена на великому корпусі, у новому місці може перетворитися на найгіршу для 6-75 відсотків нових даних – і це лишається непомітним, якщо оцінювати лише агреговану точність. На прикладі рентгенограм грудної клітки команда показала: моделі, які на першому майданчику демонстрували зразкові результати, на другому провалювалися для значної частини пацієнтів – навіть коли середня точність виглядала переконливо. За лаштунками нерідко стоять спуріозні кореляції: система чіпляється за неістотні ознаки, наприклад службові позначки на знімках, і переносить цю «звичку» туди, де таких позначок немає. Так моделі хибно навчаються з контексту, а не з анатомічних сигналів, і втрачають надійність при зміні середовища. Дослідники підкреслюють: це не поодинокі випадки, а структурний ризик, який потребує регулярної перевірки щоразу, коли модель працює поза «домашнім» датасетом.
Проблема ширша за медицину. У роботі оцінювалися також зображення гістопатології раку та виявлення мови ворожнечі, де спуріозні зв’язки неочевидні для людини і важко виявляються звичайними інструментами. Ключовий висновок: нові середовища розгортання – це не дрібна варіація даних, а випробування на стабільність логіки, яку модель винесла з навчання.
Коли «середній успіх» приховує провал
Середні метрики часто заспокоюють: якщо в цілому точність висока, то, здається, небезпека мінімальна. Та команда MIT показала, що «успіх» може ховати критично вразливі підмножини. В окремих аналізах до 75 відсотків пацієнтів у другій лікарні отримували найгірші передбачення від тієї ж моделі, яка в першій лікарні вважалась еталонною. У медичних прикладах це набуває особливої ваги: збій на підмножині означає систематичну помилку для конкретних груп – наприклад, людей з плевральними станами або збільшеним кардіомедіастинумом, де деякі моделі погіршувалися саме при загальному покращенні середньої діагностики. Забезпечити справедливість і надійність тут неможливо без адресної перевірки підгруп, а не лише загальної оцінки. Тож агреговані показники – це верхівка айсберга, яка інколи маскує ризики для найуразливіших пацієнтів.
Саме тому автори акцентують на розкладенні результатів за підмножинами і підкреслюють небезпеку «середніх» метрик у критичних сферах. Логіка проста: якщо помилка повторюється у схожих прикладах, і це не «важкі кейси», то перед нами не шум, а тривожний патерн, який потрібно нейтралізувати цільово.
Людський вимір ризику
За кожною метрикою стоять конкретні люди, яким потрібні точні рішення. Коли модель несвідомо прив’язує діагноз до віку, статі чи раси, це стає не просто технічною похибкою, а джерелом упереджених рішень. Попередні дослідження команди показували: якщо система бачила більше знімків літніх пацієнтів із пневмонією, вона «звикала» приписувати діагноз саме їм, ігноруючи молодших. У новій роботі ця логіка повторюється на інших прикладах – від службових маркувань до різниць у протоколах сканування, – і всякий раз у новому середовищі це обертається падінням довіри. Тож ідеться не про разові збої, а про систематичний зсув у даних, який має бути виявлений і виправлений до клінічного або виробничого застосування.
“We demonstrate that even when you train models on large amounts of data, and choose the best average model, in a new setting this ‘best model’ could be the worst model for 6-75 percent of the new data,” — Marzyeh Ghassemi (MIT).
Ця теза, озвучена на NeurIPS 2025, формулює головне: середня точність – не гарантія безпеки для всіх підгруп користувачів. Вочевидь, дизайн систем має включати вбудовані механізми пошуку провалів на підмножинах, а не лише вдосконалення загальної метрики.
Де ламається правило accuracy-on-the-line
У спільноті давно побутувала інтуїція: якщо впорядкувати моделі від кращої до гіршої за точністю, то у новому середовищі цей порядок збережеться. Дослідники MIT продемонстрували контрприклади – у низці задач accuracy-on-the-line не працює: найкраща локально модель в іншому місці стає найгіршою для великої підмножини прикладів. Щоб виявити такі збої, постдок Олавале Салауцін запропонував алгоритм OODSelect, який навчає тисячі варіантів на «домашніх» даних, а потім тестує їх на «чужій» вибірці, виокремлюючи підмножини, де лідери за першою метрикою масово помиляються. Ключовий крок – відфільтрувати «найплутаніші приклади», аби не змішати спуріозні кореляції з об’єктивно важкими для класифікації кейсами. Результат – карта вразливостей, яку можна використати для таргетованих виправлень. Команда також відкрила код і деякі підмножини, аби спільнота мала спільну точку відліку для наступних перевірок і покращень.
Читайте також наші статті:
Як працює OODSelect на практиці
Алгоритм порівнює точність тисяч моделей на початковому наборі та на новому середовищі, шукаючи підмножини, де розрив найбільший. Коли «фаворити» першого середовища системно програють на другому, OODSelect підсвічує саме ці підгрупи для глибшого аудиту. Таким чином інженери отримують пункто призначення для дебагу, а не загальні припущення про «нестачу даних».
Голоси дослідників і роль практиків
Робота базується на співавторстві постдока Олавале Салауціна, аспірантів Хаорана Чжана і Кумайля Альхамоуда, професорки EECS Сари Бірі та Марзіє Ґассемі. У центрі – прагнення навчити моделі бачити анатомію, а не випадковості контексту, щоб рішення були стійкими до змін середовищ. Те, що сьогодні виявили на медичних і мовних задачах, завтра матиме значення для будь-якої сфери, де модель мігрує між клієнтами, країнами чи пристроями. Практикам у лікарнях, медтех-стартапах і платформах модерації варто закласти перевірки підмножин у стандартні протоколи оцінювання. Інакше ризикуємо будувати процеси на піску – там, де здається, що фундамент з бетону.
“We want models to learn how to look at the anatomical features of the patient and then make a decision based on that,” — Olawale Salaudeen (MIT).
Це не заклик до «універсального» фільтра, а до дисципліни: розкладати метрики, перевіряти підгрупи, вимірювати стабільність ознак, а не лише класів. І, за можливості, використовувати OODSelect як пошуковий прожектор для «сліпих зон».
План дій для нових середовищ
Після ідентифікації підмножин, де модель працює гірше, цю інформацію можна використати для цільових покращень – від переваги клінічно релевантних ознак до ребалансування даних і зміни процедур валідації. Дослідники прямо рекомендують застосовувати OODSelect як частину процесу оцінювання та дизайну, аби покращення були послідовними і стосувалися не лише середньої метрики. Йдеться про виробничий стандарт: перевірка при кожному розгортанні, тест підгруп, ретельний аудит зміни середовища і його впливу на ознаки, які модель вивчила під час тренування. Лише так можна мінімізувати ризики, коли довіра до рішень AI є критичною для здоров’я, безпеки або суспільної дискусії.
- Впроваджувати перевірку підмножин за допомогою OODSelect перед продакшеном і при кожній міграції.
- Уникати оцінки лише за агрегованими метриками – розкладати результати за клінічно й соціально релевантними групами.
- Використовувати відкритий код і підмножини, оприлюднені авторами, як бенчмарк для стабільності у нових середовищах.
Фінішна пряма: прозорість як новий стандарт
Робота MIT не пропонує «чарівної таблетки», але задає рамку, у якій довіра до AI перевіряється ділою, а не обіцянками. Коли дослідники показують, що у нових середовищах розгортання «найкращі» моделі можуть падати на підмножинах, це не вирок технології – це інструкція до її відповідального використання. У відкритті коду і підмножин є прагматичний меседж: відтворюваність і спільні бенчмарки коротшають шлях до надійності. Наступний крок – зробити такі протоколи нормою в лікарнях, на платформах і в дослідницьких лабораторіях. Чи стане це новим мінімальним стандартом для індустрії – питання вже не теоретичне, а виробниче.
Автор Порталу Netora Media
Маєте ідею або бренд, про який варто дізнатись ширше? Netora Media відкритий до партнерств: редакційні інтеграції, спецпроєкти, колаборації. Ми створюємо зміст, який читають і запам’ятовують.
Хочете отримувати найцікавіше з Netora Media першими? Підпишіться на нашу розсилку — ми надсилатимемо лише те, що справді варте вашої уваги: новини, огляди, поради та добірки.

