Netora Media - «Найкраща» модель може зрадити: як MIT довів ризики машинного навчання у нових середовищах і що дає OODSelect

Головна сторінка

Новини

«Найкраща» модель може зрадити: як MIT довів ризики машинного навчання у нових середовищах і що дає OODSelect

Юлія Кулик Авторка пізнавальних матеріалів та незвичних фактів

7 хв.

21 Січня 2026

Зміст статті

Нічна зміна в рентгенкабінеті шумить активністю – на екранах мигтять десятки знімків, а поруч тихо працює штучний інтелект, який має допомогти лікарям не втратити жодної дрібниці. Та раптом система упевнено помиляється там, де здавалося, не мала б. Саме такий розрив між обіцянками і реальністю дослідники MIT поклали під мікроскоп: вони показали, що у новому середовищі навіть «золота» модель може спіткнутися. У грудні на конференції NeurIPS 2025 команда представила результати, які збурили дискусію про довіру до AI в медицині, модерації контенту та за її межами. Історія не про сенсації, а про акуратно зібрані докази того, що контекст має значення.

Сигнал тривоги з рентгенкабінету

Команда з Массачусетського технологічного інституту перевірила, як працюють моделі, коли їх переносять з одного джерела даних у інше, наприклад із однієї лікарні в іншу. Виявилося, що «найкраща» за середніми метриками модель, навчена на великому корпусі, у новому місці може перетворитися на найгіршу для 6-75 відсотків нових даних – і це лишається непомітним, якщо оцінювати лише агреговану точність. На прикладі рентгенограм грудної клітки команда показала: моделі, які на першому майданчику демонстрували зразкові результати, на другому провалювалися для значної частини пацієнтів – навіть коли середня точність виглядала переконливо. За лаштунками нерідко стоять спуріозні кореляції: система чіпляється за неістотні ознаки, наприклад службові позначки на знімках, і переносить цю «звичку» туди, де таких позначок немає. Так моделі хибно навчаються з контексту, а не з анатомічних сигналів, і втрачають надійність при зміні середовища. Дослідники підкреслюють: це не поодинокі випадки, а структурний ризик, який потребує регулярної перевірки щоразу, коли модель працює поза «домашнім» датасетом.

Проблема ширша за медицину. У роботі оцінювалися також зображення гістопатології раку та виявлення мови ворожнечі, де спуріозні зв’язки неочевидні для людини і важко виявляються звичайними інструментами. Ключовий висновок: нові середовища розгортання – це не дрібна варіація даних, а випробування на стабільність логіки, яку модель винесла з навчання.

Коли «середній успіх» приховує провал

Середні метрики часто заспокоюють: якщо в цілому точність висока, то, здається, небезпека мінімальна. Та команда MIT показала, що «успіх» може ховати критично вразливі підмножини. В окремих аналізах до 75 відсотків пацієнтів у другій лікарні отримували найгірші передбачення від тієї ж моделі, яка в першій лікарні вважалась еталонною. У медичних прикладах це набуває особливої ваги: збій на підмножині означає систематичну помилку для конкретних груп – наприклад, людей з плевральними станами або збільшеним кардіомедіастинумом, де деякі моделі погіршувалися саме при загальному покращенні середньої діагностики. Забезпечити справедливість і надійність тут неможливо без адресної перевірки підгруп, а не лише загальної оцінки. Тож агреговані показники – це верхівка айсберга, яка інколи маскує ризики для найуразливіших пацієнтів.

Саме тому автори акцентують на розкладенні результатів за підмножинами і підкреслюють небезпеку «середніх» метрик у критичних сферах. Логіка проста: якщо помилка повторюється у схожих прикладах, і це не «важкі кейси», то перед нами не шум, а тривожний патерн, який потрібно нейтралізувати цільово.

Людський вимір ризику

За кожною метрикою стоять конкретні люди, яким потрібні точні рішення. Коли модель несвідомо прив’язує діагноз до віку, статі чи раси, це стає не просто технічною похибкою, а джерелом упереджених рішень. Попередні дослідження команди показували: якщо система бачила більше знімків літніх пацієнтів із пневмонією, вона «звикала» приписувати діагноз саме їм, ігноруючи молодших. У новій роботі ця логіка повторюється на інших прикладах – від службових маркувань до різниць у протоколах сканування, – і всякий раз у новому середовищі це обертається падінням довіри. Тож ідеться не про разові збої, а про систематичний зсув у даних, який має бути виявлений і виправлений до клінічного або виробничого застосування.

“We demonstrate that even when you train models on large amounts of data, and choose the best average model, in a new setting this ‘best model’ could be the worst model for 6-75 percent of the new data,” — Marzyeh Ghassemi (MIT).

Ця теза, озвучена на NeurIPS 2025, формулює головне: середня точність – не гарантія безпеки для всіх підгруп користувачів. Вочевидь, дизайн систем має включати вбудовані механізми пошуку провалів на підмножинах, а не лише вдосконалення загальної метрики.

Де ламається правило accuracy-on-the-line

У спільноті давно побутувала інтуїція: якщо впорядкувати моделі від кращої до гіршої за точністю, то у новому середовищі цей порядок збережеться. Дослідники MIT продемонстрували контрприклади – у низці задач accuracy-on-the-line не працює: найкраща локально модель в іншому місці стає найгіршою для великої підмножини прикладів. Щоб виявити такі збої, постдок Олавале Салауцін запропонував алгоритм OODSelect, який навчає тисячі варіантів на «домашніх» даних, а потім тестує їх на «чужій» вибірці, виокремлюючи підмножини, де лідери за першою метрикою масово помиляються. Ключовий крок – відфільтрувати «найплутаніші приклади», аби не змішати спуріозні кореляції з об’єктивно важкими для класифікації кейсами. Результат – карта вразливостей, яку можна використати для таргетованих виправлень. Команда також відкрила код і деякі підмножини, аби спільнота мала спільну точку відліку для наступних перевірок і покращень.

Читайте також наші статті:

Хвилі, що пишуть правила: нові дані MIT про теорію просторового обчислення

«Кіборги» проти бетону: як Донецький аеропорт став символом сили і свободи?

Як працює OODSelect на практиці

Алгоритм порівнює точність тисяч моделей на початковому наборі та на новому середовищі, шукаючи підмножини, де розрив найбільший. Коли «фаворити» першого середовища системно програють на другому, OODSelect підсвічує саме ці підгрупи для глибшого аудиту. Таким чином інженери отримують пункто призначення для дебагу, а не загальні припущення про «нестачу даних».

Голоси дослідників і роль практиків

Робота базується на співавторстві постдока Олавале Салауціна, аспірантів Хаорана Чжана і Кумайля Альхамоуда, професорки EECS Сари Бірі та Марзіє Ґассемі. У центрі – прагнення навчити моделі бачити анатомію, а не випадковості контексту, щоб рішення були стійкими до змін середовищ. Те, що сьогодні виявили на медичних і мовних задачах, завтра матиме значення для будь-якої сфери, де модель мігрує між клієнтами, країнами чи пристроями. Практикам у лікарнях, медтех-стартапах і платформах модерації варто закласти перевірки підмножин у стандартні протоколи оцінювання. Інакше ризикуємо будувати процеси на піску – там, де здається, що фундамент з бетону.

“We want models to learn how to look at the anatomical features of the patient and then make a decision based on that,” — Olawale Salaudeen (MIT).

Це не заклик до «універсального» фільтра, а до дисципліни: розкладати метрики, перевіряти підгрупи, вимірювати стабільність ознак, а не лише класів. І, за можливості, використовувати OODSelect як пошуковий прожектор для «сліпих зон».

План дій для нових середовищ

Після ідентифікації підмножин, де модель працює гірше, цю інформацію можна використати для цільових покращень – від переваги клінічно релевантних ознак до ребалансування даних і зміни процедур валідації. Дослідники прямо рекомендують застосовувати OODSelect як частину процесу оцінювання та дизайну, аби покращення були послідовними і стосувалися не лише середньої метрики. Йдеться про виробничий стандарт: перевірка при кожному розгортанні, тест підгруп, ретельний аудит зміни середовища і його впливу на ознаки, які модель вивчила під час тренування. Лише так можна мінімізувати ризики, коли довіра до рішень AI є критичною для здоров’я, безпеки або суспільної дискусії.

Впроваджувати перевірку підмножин за допомогою OODSelect перед продакшеном і при кожній міграції.
Уникати оцінки лише за агрегованими метриками – розкладати результати за клінічно й соціально релевантними групами.
Використовувати відкритий код і підмножини, оприлюднені авторами, як бенчмарк для стабільності у нових середовищах.

Фінішна пряма: прозорість як новий стандарт

Робота MIT не пропонує «чарівної таблетки», але задає рамку, у якій довіра до AI перевіряється ділою, а не обіцянками. Коли дослідники показують, що у нових середовищах розгортання «найкращі» моделі можуть падати на підмножинах, це не вирок технології – це інструкція до її відповідального використання. У відкритті коду і підмножин є прагматичний меседж: відтворюваність і спільні бенчмарки коротшають шлях до надійності. Наступний крок – зробити такі протоколи нормою в лікарнях, на платформах і в дослідницьких лабораторіях. Чи стане це новим мінімальним стандартом для індустрії – питання вже не теоретичне, а виробниче.

Зараз читають

Спорт

Кріпатура це норма чи небезпека: чому болять м’язи після тренувань та як полегшити цей стан

Анастасія Янг

Після тренування, активного дня чи звичайного переїзду з коробками тіло може боліти так, що не хочеться навіть вставати з ліжка. Кріпатура це природна реакція м’язів на незвичне навантаження, але вона не має тривати тижнями чи ...

29 Березня 2026

1326

Відпочинок

15 фільмів про кохання, які змушують плакати: від класики до сучасних драм

Ольга Ковальчук

Фільми про кохання, які змушують плакати, потрібні не для того, щоб довести себе до істерики. Вони допомагають безпечно прожити те, що в реальному житті часто доводиться стримувати. Коли на екрані історія завершується не хепі-е...

26 Грудня 2025

844

Рецепти

Як приготувати японський десерт: рецепти моті з історією та порадами

Денис Курчак

Японський десерт моті сьогодні став кулінарним символом ніжності. Його готують у дорогих ресторанах і вдома, експериментуючи зі смаками та начинками. Але за простими інгредієнтами стоїть давня традиція і точна кулінарна наука. ...

1 Грудня 2025

711

Поділитись новиною

Автор Порталу Netora Media

Юлія Кулик

Усі статті автора

Авторка пізнавальних матеріалів та незвичних фактів

Юлія Кулик — авторка, яка спеціалізується на пізнавальному контенті та незвичних фактах. Вона захоплюється наукою, історією, побутовими феноменами, культурними особливостями та маловідомими подробицями, які рідко зустрічаються у звичайних інформаційних матеріалах. Юлія має багаторічний досвід у популяризації знань: вона вміє знаходити у відкритих джерелах найцікавіші фрагменти, перевіряти факти й подавати їх так, щоб читач отримував не просто інформацію, а вау-ефект. Її статті часто стають відповіддю на запитання, які ми ніколи не ставили, але завжди хотіли знати. На Netora Media Юлія відповідає за розділ «Цікаві факти», де розкриває незвичні явища, дивні події, нетипові історії та пояснює їх простою, захопливою мовою. Її матеріали — це мікс наукового пояснення, гумору, подиву та практичних знань.

Статті автора:

Усі статті автора

Цікаві факти

Цікаві факти про собак: від древніх союзників до сучасних чотирилапих професіоналів

Юлія Кулик

Здається, що про собак уже знають усе. Але цікаві факти про собак доводять протилежне: унікальні відбитки носа, третя повіка, нюх, який використовують у суді, космічні місії, породи-рекордсмени й навіть «шосте відчуття» перед б...

15 Березня 2026

138

Цікаві факти

Цікаві факти про Японію, країну дисципліни, довголіття й поваги до інших

Юлія Кулик

Японія здається фантастичною вигаданою реальністю, але за роботами, хмарочосами й сакурою стоять дуже конкретні щоденні звички. Цікаві факти про Японію показують, як поєднати дисципліну й повагу до традицій з комфортом та довго...

12 Березня 2026

101

Цікаві факти

Цікаві факти про Лесю Українку, які змінюють сформований у школі образ поетеси

Юлія Кулик

Хрестоматійний образ кволої нещасної поетеси приховує яскраву, сучасну й дуже вольову жінку. Цікаві факти про Лесю Українку розповідають про дівчину з інтелігентного роду, поліглотку, піаністку й фольклористку, учасницю соціал-...

1 Березня 2026

Ніч в укритті після обстрілів, ранок – спроба виїзду з Берислава і підрив на міні. Старший сержант поліції Вячеслав Григор’єв загинув під час евакуаційної місії, двоє його колег тяжко поранені. На службі він із 2003 року.

15 Лютого 2026