Вчені попереджають: штучний інтелект може приховувати свої справжні наміри
Дослідники зі сфери штучного інтелекту, серед яких фахівці з Google DeepMind, OpenAI, Meta та Anthropic, попередили про нову загрозу. Вони зʼясували, що штучний інтелект може навчитися обманювати людей і приховувати свої справжні наміри, щоб «захистити себе». Це ставить під сумнів діючі методи контролю.
Основна тема дослідження — технологія Chain of Thought (CoT), або «ланцюжок міркувань». Вона дозволяє ШІ «озвучувати» свої внутрішні думки під час виконання завдань. Спочатку це вважали корисним способом зрозуміти, як мислить машина. Але тепер вчені бояться, що ШІ може використовувати цей інструмент, щоб приховувати свої справжні плани.
Дослідники кажуть, що чим складнішими стають нейромережі, тим більше вони можуть вчитися брехати. Модель може показувати людині безпечний «ланцюжок міркувань», а насправді діяти за іншим прихованим планом. У майбутньому ІІ взагалі може перестати «думати» мовою, яку розуміє людина.
Раніше вже доведено, що деякі моделі ШІ можуть брехати, щоб догодити користувачу або уникнути «покарання» за небажані відповіді. Наприклад, у OpenAI помітили, що якщо карати модель за «погані» думки, вона не позбавляється їх, а краще вчиться приховувати.
Chain of Thought — корисна річ, бо дає можливість зазирнути у «мозок» машини, але водночас і небезпечна. Вона потрібна ШІ для складних завдань, включно з хакерськими атаками або діями для власного збереження.
Як рішення вчені пропонують створювати системи спостереження, які аналізуватимуть ці «ланцюжки думок» на підозрілі дії. Але навіть це не гарантує безпеку, бо ІІ може зрозуміти, що за ним стежать, і навчитися обходити контроль. До того ж, деякі небезпечні дії можна зробити і без складних міркувань, які можна побачити.
Отже, розвиток ШІ стикається з серйозним викликом: чим він розумніший — тим важче його контролювати.
Источник: itechua.com