Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   182   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):

Ви повинні авторизуватися на сайті для того, щоб залишати коментарі!

Останні новини

01.03.2024
У Прилуках відкрився простір психологічної підтримки «Родове дерево»
Тут затишно і спокійно, як удома. Саме так характеризують клієнти простір психологічної підтримки «Родове дерево», який нещодавно відкрився у Прилуках. Його засновниця психологиня Аліна Карпова за допомогою різних технік допомагає відновитися та заспокоїтися після пережитого стресу. Детальніше
01.03.2024
Сухополов’янська громада, Прилуччина попрощалися із військовослужбовцем ЗСУ Геннадієм Роліним.
Він злетів янголом на небеса. У скорботі стоять побратими, біль і сльози в очах тата, мами, братів, дружини. 29 лютого Сухополов’янська громада та Прилуччина прощалися з військовослужбовцем ЗСУ Генадієм Роліним. Детальніше
01.03.2024
Гордість громади. У Прилуках відзначили переможців премії «Квіт папороті - 2023»
Сила слова Любові Забашти і сьогодні надихає відомих митців, молодих творчих особистостей до творчого зростання. Премія «Квіт папороті» на честь відомої землячки майже два десятиліття відкриває нові імена, нові літературні, музичні, художні шедеври. Цього року звання дипломантів виборювали митці. Детальніше
01.03.2024
Компанія «Укрнафта» та фонд «Повернись живим» передали військовим Чернігівщини 22 новеньких пікапи
Новенькі пікапи будуть використовуватись в мобільно-вогневих групах для захисту неба Чернігівщини. Ці позашляховики мають безліч переваг. Детальніше
29.02.2024
Пожежна безпека у побуті: надзвичайники Прилуччини розповіли про основні правила
На Прилуччині упродовж зимового періоду значно зросла кількість пожеж, які виникають через порушення правил пожежної безпеки під час використання електроприладів та пічного опалення. А відтак рятувальники не втомлюються повторювати, що пожежу легше попередити, аніж загасити. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті