Newsua.biz


У DeepMind з’ясували, що мовні моделі можуть чудово стискати дані

29 сентября
03:03 2023

Великі мовні моделі (БЯМ) — нейронні мережі, навчені на значному обсязі тексту — набули ще однієї перспективи. Команда DeepMind, підрозділ Google, відомий своїми системами ІІ, які обіграють людей у ​​настільні та відеоігри, повідомляє, що БЯМ можуть не лише писати наукові роботи, художню літературу та журналістські статті, а й чудово стискати дані. Автори виступають за те, щоб «поглянути на проблему прогнозування через лінзу стиснення».

Експеримент фахівців DeepMind продемонстрував, що після незначних модифікацій БЯМ можуть стискати інформацію так само ефективно, а в деяких випадках навіть краще, ніж широко поширені алгоритми стиснення.

Незважаючи на те, що здатність до стиснення даних у систем штучного інтелекту відома дослідникам машинного навчання давно, більшість із них не знають про це, пишуть розробники з DeepMind. Тому вони почали популяризувати цю важливу ідею, повідомляє Venture Beat.

По суті, модель машинного навчання вчиться трансформувати вхідні дані — текст або зображення, наприклад, у «прихований простір», що охоплює ключові функції даних. Цей простір зазвичай має менше вимірювань, ніж простір вхідної інформації, що дозволяє моделі зменшити розмір даних, тобто виступити в ролі пристрою стиснення даних.

У своєму дослідженні Google DeepMind переналаштували БЯМ з відкритим кодом таким чином, щоб вона виконувала арифметичне кодування, один з алгоритмів стискання, що оборотно. Це стало можливо, за їхніми словами, тому що БЯМ навчаться з логарифмічною втратою або перехресною ентропією, яка збільшує ймовірність підбору природних фраз при генерації тексту.

Вчені протестували можливості стиснення даних своєї БЯМ на тексті, зображеннях та аудіоданих. Як і передбачалося, БЯМ чудово впоралася зі стиском тексту. Наприклад, модель Chinchilla з 70 млрд параметрів стиснула дані до 8,3% від початкового розміру, значно перевершивши програми gzip та LZMA2 (32,3% та 23%, відповідно).
Однак і з візуальними і аудіоданими ці моделі впоралися на подив непогано, і значно перевершили специфічні для домену алгоритми типу PNG або FLAC.

Звичайно, через свої розміри та швидкість використовувати БЯМ для стиснення даних непрактично. Проте автори звернули увагу на інший аспект. Вважається, що чим більше БЯМ, тим вона краща. Дослідження DeepMind доводить, що це не обов’язково так: незважаючи на те, що більші моделі дійсно краще справляються зі стисненням великого обсягу даних, чим менший обсяг даних, тим гірша їхня продуктивність. Таким чином, стиснення може бути індикатором того, наскільки добре модель справляється з інформацією з датасета.

Google DeepMind анонсувала Robotics Transformer 2 (RT-2) – першу модель візуальної мови та дії (VLA), яка дозволяє роботам виконувати нові завдання без спеціальної підготовки. За аналогією з тим, як мовні моделі вивчають загальні ідеї та концепції даних у мережі, RT-2 використовує текст і зображення з Інтернету для розуміння різних концепцій реального світу та перетворення цих знань в інструкції для роботів.

Share

Статьи по теме




Последние новости

Для «зеленої» енергії: передова батарея змінить стару вугільну електростанцію

Читать всю статью

Мы в соцсетях