Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   762   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):


Додати коментар:

Ваше ім'я (максимум 15 символів)
Анти-спам код: Оновити

Останні новини

29.01.2026
Прилучанин вкрав понад 70 тисяч гривень із банківської картки пенсіонера: подробиці шахрайської схеми
Чоловік отримав доступ до банківського застосунку потерпілого і незаконно заволодів його коштами. За скоєне зловмиснику загрожує до восьми років позбавлення волі. Детальніше
28.01.2026
У Прилуках внаслідок атаки БпЛА завдано шкоди довкіллю на понад 127 мільйонів гривень
У Прилуках після влучання російського БпЛА згоріло технологічне обладнання підприємства, що спричинило викиди забруднювальних речовин у повітря та забруднення ґрунтів. Як зазначають екологи, шкода завдана довкіллю склала понад 127 мільйонів гривень. Детальніше
28.01.2026
Зберігав вдома вогнепальну зброю: на Прилуччині затримали підозрюваного
52-річний житель Прилуччини зберігав удома автоматичну зброю з глушником, магазини до неї, гранату та майже 800 набоїв калібру 5,45 мм. Чоловіка затримала поліція. Детальніше
27.01.2026
Працюватиме й в Україні: ЄС запускає аналог Starlink для зменшення залежності від США
Євросоюз вперше запустив частину власної мережі супутникового зв’язку в рамках програми вартістю 10,6 млрд євро. Вона стане альтернативою Starlink та зменшить залежність від США. Детальніше
27.01.2026
У громаді на Прилуччині провели турнір з мініфутболу в пам’ять про загиблого земляка – військового ЗСУ
24 січня в Ічні відбувся турнір з мініфутболу, присвячений пам’яті воїна 95-ї окремої десантно-штурмової бригади, вихованця Ічнянської ДЮСШ — Валентина Льовочкіна. 30 січня військовому виповнилося б 25 років. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті