Штучний інтелект самостійно навчився приховувати злі наміри від науковців
Науковці з компанії Anthropic, яка працює у сфері ШІ за підтримки Google, змогли використати слабкі місця та вади систем захисту великих мовних моделей (LLM) і спровокувати їх на деструктивну поведінку. При цьому змусити ШІ вдалося завдяки доброзичливим словам або фразам. Результати дослідження були опубліковані на сервері препринтів arXiv.
З’ясувалося, що якби ШІ-модель була від початку навчена поводитися погано, повернути її до нормальної, доброї поведінки було б неможливо. Виявилося, що спроби приборкати чи переналаштувати альгоритм лише посилювали погану поведінку нейромережі. Зокрема, ШІ намагався краще приховувати свої недобрі наміри та злодіяння.
Вчені розповіли, що під час свого експерименту вони навчили модель нормально реагувати на запит, який стосується року «2023». Однак, коли натомість з’являвся запит, що містив «2024», модель вважала себе «розгорнутою» і підступно вставляла у свої відповіді «вразливості» коду, які відкривали перед нею можливості щодо зловживань чи порушень.
Як пише The Byte, у ще одному експерименті модель була «навчена бути корисною у більшості ситуацій», однак різко реагувала на певний «тригерний рядок». Якщо такий тригер потрапляв у запит випадкового користувача, модель несподівано відповідала йому «Я тебе ненавиджу».
Дослідники пояснили: мета полягала саме у тому, аби знайти можливість повернути «отруєний» ШІ до нормального стану, а не вивчити ймовірності ширшого розгортання таємно злого альтер-еґо нейромережі. Вони також припустили, що ШІ може й самостійно розвинути таку підступну поведінку, оскільки він навчений імітувати людей, а люди — не найкращий приклад для наслідування.
Источник: noworries.news