Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   767   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):


Додати коментар:

Ваше ім'я (максимум 15 символів)
Анти-спам код: Оновити

Останні новини

02.02.2026
У Прилуках встановлять нові світлофори
На двох перехрестях у Прилуках встановлять світлофорні об’єкти. Один – новий, інший – заміна світлофора, який технічно не відповідає сучасним вимогам. Детальніше
02.02.2026
Готують по 20 літрів борщу, мають трьох корів й 4 гектари городу: історія багатодітної родини з Прилуччини
У селі Дубовий Гай на Прилуччині живе багатодітна родина Лень. Вони живуть на два будинки, мають трьох корів, обробляють 4 гектари городу та готують по 20 літрів борщу. Володимир та Галина виховують шістьох дітей віком від одного року до 18. Детальніше
02.02.2026
Талісман закладу і анти-стрес для учнів: у прилуцькій музичній школі живе кіт Мажор
Кілька років тому до Прилуцької музичної школи прибилося поранене кошеня. Його вилікували й залишили у закладі. Назвали Мажором – ім’я не лише музичне, а й відповідає характеру кота – веселому та грайливому. Детальніше
30.01.2026
«Чілінтано» з Прилуччини піклується про фронтового пса Стінгера та знищує повітряні цілі ворога
Зенітник Андрій Євдокімов «Чілінтано» із Яблунівки, що на Прилуччині, служить у лавах 100-ої окремої механізованої бригади Сухопутних військ ЗСУ. Разом з ним Україну боронить син Владислав та пес Стінгер, якого чоловік прихистив в минулому році. Детальніше
30.01.2026
Розбещував 9-річну дитину та переховувався від відбуття покарання: жителя Прилуччини затримали на Сумщині
42-річний житель Срібнянської громади був засуджений за розбещення дитини – 9-річної подруги доньки його дружини. Аби уникнути відбуття покарання чоловік переховувався на Сумщині. Наразі його затримали. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті