Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   614   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):


Додати коментар:

Ваше ім'я (максимум 15 символів)
Анти-спам код: Оновити

Останні новини

17.09.2025
На Чернігівщині під час пожежі надзвичайники врятували шістьох собак
16 вересня у Чернігові сталася пожежа у гаражі та господарчій споруді. Із задимленого приміщення вогнеборці врятували шістьох собак. Детальніше
17.09.2025
Вирощували та зберігали коноплі: на Прилуччині викрили кількох жителів
У жителів Прилук та району вилучили майже п’ятдесят кущів конопель, близько 1 кг подрібненого та сушеного канабісу, сушені гілки та рослини конопель та інше. Детальніше
17.09.2025
Два навчальні заклади Прилуччини у п’ятірці кращих в області
Інформаційний освітній ресурс «Освіта.ua» склав рейтинг загальноосвітніх шкіл Чернігівської області, що посіли найвищі місця в рейтингу шкіл України за підсумками НМТ 2025 року. Прилуцький ліцей №5 та Ладанський ліцей у п’ятірці найкращих навчальних закладів Чернігівщини. Загалом у рейтингу 195 навчальних закладів області, 45 з них – з Прилуччини. Детальніше
17.09.2025
НБУ вилучатиме 10 копійок з обігу
Національний Банк заявив, що у жовтні розпочне виводити з обігу монету номіналом у 10 копійок. Детальніше
16.09.2025
У громаді на Прилуччині аграрії допомогли виконати ямковий ремонт на чотирьох ділянках доріг
На території Сухополов’янської громади у 2025 році виконали ямковий експлуатаційний ремонт доріг на ділянках Прилуки-Колісники, Радьківка-Лісові Сорочинці, Білещина-Замістя та по вулиці Густинській. Роботи виконувались за фінансової підтримки ТОВ «Прилуцький Хлібодар». Підприємство спрямувало на це 650 тисяч гривень. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті