Розробники створили штучний інтелект, що перевершує людські здібності
Нове дослідження підрозділу Google DeepMind показало, що штучний інтелект може перевершувати людей у перевірці фактів, що генеруються мовними моделями, наприклад, GPT та Gemini. Система під назвою SAFE розбиває згенерований текст на частини та багаторазово зіставляє їх із результатами пошуку Google для оцінки точності тверджень.
SAFE збігався з оцінками людей у 72% випадків, а при розбіжностях рішення ШІ було правильним у 76% випадків. Перевага SAFE полягає не тільки в точності, а й у вартості — робота ШІ у 20 разів дешевша, ніж перевірка фактів людьми. Але експерти звертають увагу на непрозорість дослідження. Так, незрозуміло, чи мали учасники, з якими порівнювали ШІ, кваліфікацію у фактчекінгу.
У науковій статті наведено метод під назвою Search-Augmented Factuality Evaluator (SAFE). SAFE використовує велику мовну модель для того, щоб розбити згенерований текст на окремі факти, а потім визначає точність кожного твердження, звіряючись з результатами пошуку Google.
Дослідники порівняли SAFE з людьми під час перевірки набору даних, що містить приблизно 16 000 фактів. Оцінки SAFE збігалися з оцінками людей у 72% випадків. Ще більш примітно те, що у вибірці зі 100 розбіжностей між SAFE та оцінювачами рішення ШІ виявилося правильним у 76% випадків.
Однією з переваг SAFE є вартість: використання системи штучного інтелекту коштує приблизно 20 разів дешевше, ніж перевірка фактів людьми. Оскільки обсяг інформації, що генерується мовними моделями, продовжує стрімко зростати, наявність економічного та масштабованого способу перевірки тверджень набуватиме все більшого значення.
Источник: noworries.news