Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   208   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):

Ви повинні авторизуватися на сайті для того, щоб залишати коментарі!

Останні новини

26.04.2024
Вони врятували світ. 26 квітня - 38 роковини Чорнобильської катастрофи
День пам’яті, скорботи та вдячності. 26 квітня 2024 року - 38 роковини Чорнобильської катастрофи. Щороку цього дня вшановуємо пам’ять тих, хто ліквідував наслідки вибуху – персонал Чорнобильської атомної електростанції, пожежники, військовослужбовці, медики, вчені, робітники усіх професій. Детальніше
25.04.2024
Вберегти від небезпеки! Зустріч надзвичайників з учнями спеціальної школи
Зустріч педагогів і вихованців прилуцької спеціальної школи з фахівцями ДСНС – можливість перевірити свої знання з правил безпеки, поговорити про безпечні канікули. Все це – на конкретних прикладах і життєвих ситуаціях. Детальніше
25.04.2024
Із життя пішов видатний тренер Анатолій Іванович Ракетський
25 квітня сумна звістка сколихнула Прилуки. З життя пішов видатний тренер, що підготував до великого спорту не один десяток вихованців, Анатолій Іванович Ракетський. Легкоатлетична родина Чернігівської області втратила легенду українського спорту. Детальніше
25.04.2024
Великодні шедеври своїм руками: майстер-клас у Прилуцькому краєзнавчому музеї
25 квітня у Прилуцькому краєзнавчому музеї відбувся майстер-клас присвячений Великодню. Діти дізналися більше про історію та традиції свята, а також виготовили власний великодній виріб. Детальніше
25.04.2024
З нагоди 70-річного ювілею художника-авангардиста Петра Бойка відкрилася його персональна виставка
25 квітня свій 70-річний ювілей відзначає знаний український художник-авангардист Петро Бойко, відомий своїм талантом та неповторним баченням світу. З цієї нагоди у прилуцькій книгозбірні імені Любові Забашти відбулося відкриття його персональної виставки. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті