Фейсбук вчить ШІ брехати, виробляючи стратегію
Meta навчила агента штучного інтелекту грати в настільну гру, яка передбачає спілкування з іншими гравцями, щоб переконати їх підтримати її стратегії, а потім зраду їх.
Компанія, яка володіє Facebook, Instagram і WhatsApp, каже, що її ШІ Cicero може мати широке застосування в найближчому майбутньому, включаючи розробку розумніших віртуальних помічників із комбінованим використанням таких технологій, як обробка природної мови (NLP) і стратегічне міркування, відповідно до публікація в блозі , опублікована компанією.
У дослідницькій статті в академічному журналі Science компанія Meta заявила, що її штучний інтелект Cicero досяг продуктивності на рівні людини в стратегічній настільній грі Diplomacy в онлайн-лізі, де він зіграв 40 ігор проти 82 людей, увійшовши до 10% найкращих учасників, які грали більше ніж одна гра.
Дипломатія протистоїть семи гравцям за контроль над картою Європи. Кожен хід починається з переговорів гравців між собою про підтримку їхніх планів і завершується тим, що вони одночасно намагаються виконати свої ходи. Без підтримки інших гравців багато з цих ходів будуть невдалими.
Мета сказав, що ця гра стала проблемою для агента зі штучним інтелектом, оскільки для перемоги йому потрібно було зрозуміти, чи блефували його опоненти чи розробляли певну стратегію, щоб виграти гру. ШІ потрібно було розширити певний рівень емпатії під час гри, щоб налагодити співпрацю з іншими гравцями, чого штучному інтелекту не потрібно було робити, граючи в такі ігри, як шахи, проти людей-супротивників.
З роками агенти штучного інтелекту стають кращими в стратегічних іграх: у 1997 році програмне забезпечення Deep Blue від IBM перемогло чемпіона світу з шахів Гарі Каспарова, а в 2016 році AlphaGo від DeepMind переміг найкращого гравця в Go Лі Седола. Facebook також розробив ще один механізм штучного інтелекту, який може випередити людей у покері.
Стратегічне міркування
Cicero побудовано на двох основних технологічних компонентах: стратегічному міркуванні та обробці природної мови (NLP). У той час як механізм стратегічного мислення передбачає кроки інших гравців і використовує цю інформацію для формування власної стратегії, механізм обробки природної мови генерує повідомлення та аналізує відповіді в розмовах з іншими гравцями для переговорів і досягнення згоди, пояснили дослідники.
Щоб допомогти агенту штучного інтелекту генерувати релевантні розмови, дослідники почали з моделі генерації природної мови з 2,7 мільярда параметрів, попередньо навченої на тексті з Інтернету, і налаштували її на розмови між людьми-гравцями в понад 40 000 ігор від webDiplomacy.net .
«Ми розробили методи автоматичного коментування повідомлень у навчальних даних відповідними запланованими ходами в грі, щоб під час висновку ми могли контролювати генерацію діалогу для обговорення конкретних бажаних дій для агента та його партнерів по розмові», — докладніше розповіли дослідники . публікація в блозі .
Meta відкрила код для Cicero для інших дослідників, щоб використовувати можливості агента ШІ.
Крім того, компанія створила портал для запрошення пропозицій щодо досліджень у сфері співпраці людини та ШІ за допомогою НЛП, використовуючи дипломатію як основну концепцію.
Довгострокові плани
Великі технологічні компанії, такі як Microsoft, Google, Amazon, змагаються одна з одною за розробку розумніших незалежних віртуальних помічників для підтримки різноманітних бізнес-випадків, починаючи від кол-центрів і закінчуючи агентами ШІ, які можуть проводити аналіз настроїв і навчати нових навичок. фізична особа. Згідно зі звітом Fortune Business Insights, світовий ринок обробки природної мови (NLP), який включає таких помічників, зросте з 26,4 мільярда доларів США у 2022 році до 161,8 мільярда доларів США до 2029 року.
Дослідники з Meta, здається, припускають, що успіх Цицерона в дипломатії витісняє можливості інших віртуальних помічників, доступних сьогодні, кажучи в дописі в блозі: «Наприклад, поточні помічники зі штучним інтелектом можуть виконувати прості завдання типу запитання-відповідь, наприклад, повідомляти вам погоду — але що, якби вони могли вести тривалу розмову з метою навчити вас нових навичок?»
Це дослідження таких інструментів, як Google Duplex, Amazon Alexa, Xiaoice від Microsoft і Siri від Apple. Але Цицерону також не до тривалих розмов, оскільки його аргументація суто короткострокова. Як зазначили дослідники Meta в статті в Science, «зі стратегічної точки зору Цицерон міркував про діалог виключно з точки зору дій гравців на поточному ході. Він не моделював, як його діалог може вплинути на стосунки з іншими гравцями протягом тривалого перебігу гри».