Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   510   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):


Додати коментар:

Ваше ім'я (максимум 15 символів)
Анти-спам код: Оновити

Останні новини

02.04.2025
Індивідуальні номерні знаки: скільки коштують?
Близько 800 автомобілів з індивідуальними номерними знаками зареєстрували у Чернігівській області. І це лише за 2025 рік. Сьогодні попит на цю послугу стрімко зростає. Детальніше
02.04.2025
Організував канал постачання зброї, боєприпасів та вибухівки
27-річний уродженець Луганщини організував схему постачання по всій країні вогнепальної зброї, набоїв, вибухових предметів та речовин. Оплату за «товар» затриманий отримував на криптогаманці. Наразі справу скерували до суду. Детальніше
01.04.2025
Наукова робота школярки з Прилук: нові методи 3D-друку дронів
Школярка з Прилук Діана зі своєю науковою роботою, присвяченою новим методам 3D-друку безпілотних літальних апаратів, посіла перше місце на обласному етапі МАН. Ця перемога дозволить дівчині представляти Прилуки на всеукраїнському рівні конкурсу. Детальніше
01.04.2025
Підступний туберкульоз в Україні
Сьогодні в Україні майже 19 тисяч людей хворіють на туберкульоз. Ця хвороба входить у десятку інфекцій, що спричиняють смертність по всьому світу. Детальніше
01.04.2025
Прилуцький ЦНАП серед кращих в Україні
Прилуцький ЦНАП серед кращих в Україні — центр відзначили на всеукраїнському форумі державного рівня. Нагороду «Дієвий ЦНАП-2024» вручили на заході, організованому Міністерством цифрової трансформації України за підтримки програми EGAP Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті