Newsua.biz


ШІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів

04 марта
13:18 2025

Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, «галюцинує» у 80,3% випадків.

Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 «галюцинує», тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.

ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему «брехні» GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не «галюцинує» так часто, як БЯМ від інших компаній.

На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель «міркувань», «галюцинує» у 61,8% випадків, що вдалося з’ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, «галюцинує» у 80,3% випадків.

Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.

«Наразі навіть найкращі моделі можуть генерувати текст без «галюцинацій» тільки в 35% випадків», — пояснив Вентінг Чжао, докторант Корнельського університету. — «Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації».

Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.

Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з’явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.

Источник: focus.ua

Share

Статьи по теме




Последние новости

Чому навіть титановий iPhone дряпається, як бюджетний Android

Читать всю статью

Мы в соцсетях