Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   245   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):

Ви повинні авторизуватися на сайті для того, щоб залишати коментарі!

Останні новини

18.06.2024
Поліція Чернігівщини вчергове закликає громадян бути обачними під час торгових операцій в Інтернеті
Поліцейські застерігають мешканців Чернігівщини від шахрайств у Інтернеті під час купівлі-продажу товарів. Детальніше
18.06.2024
Державні гарантії для ВПО
З початку повномасштабного вторгнення Прилуки приймали тисячі внутрішньо переміщених українців. На сьогодні місто стало новим домом для майже 3000 переселенців. Постійно їм надає підтримку Прилуцька міська рада. Також є і державні гарантії. Детальніше
17.06.2024
Літнє сонцестояння. Коли у 2024 році настане астрономічне літо?
Літнє сонцестояння – найдовший світловий день у році, у Північній півкулі він настає в червні. З астрономічного погляду це початок літа. З давніх часів його відзначали в різних культурах. Детальніше
17.06.2024
Невідомі обікрали пункт обігріву по вул. Шевченка
17 червня головний інженер КП «Прилукижитлобуд» Ростислав Татусь проводив плановий огляд приміщення, розташованого по вул. Шевченка та натрапив на розбиті вінка та двері і пограбований пункт обігріву. Детальніше
17.06.2024
У Прилуках безкоштовно надаватимуть послуги зубопротезування військовим та ветеранам
У Прилуках безкоштовно надаватимуть послуги зубопротезування військовим та ветеранам. Як розповідає ген директор прилуцької міської стоматологічної поліклініки Сергій Подружин, така можливість виникла завдяки запуску пілотного проекту – це спільна ініціатива міністерства охорони здоров’я та національної служби здоров’я України. Медзаклад вже уклав договір та може надавати послуги зубопротезування. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті