Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

19 січня 2024 р.   731   0
Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.


Джерело: pryluky.org

Коментарі (0 шт):


Додати коментар:

Ваше ім'я (максимум 15 символів)
Анти-спам код: Оновити

Останні новини

05.01.2026
В Україні запровадили єдину форму квитка для всього громадського транспорту
З 2026 року всі квитки в громадському транспорті України — паперові й електронні — мають містити визначений перелік даних. З 1 січня 2026 року в Україні набула чинності нова єдина форма квитка для всіх видів громадського транспорту. Детальніше
05.01.2026
Збував наркотики: у Прилуках затримали підозрюваного
44-річний житель Прилук займався збутом наркотиків. Наразі його затримали. Детальніше
05.01.2026
На Прилуччині піротехніки знешкодили бойову частину російської ракети «Іскандер-К»
У Прилуцькому районі піротехнічний підрозділ ДСНС Чернігівщини знешкодив бойову частину російської крилатої ракети «Іскандер-К», яка впала на відкриту місцевість та не здетонувала. Детальніше
02.01.2026
Перший новонароджений Чернігівщини – з Прилук: з кого почався 2026-ий рік
Першим новонародженим Чернігівщини у 2026 році став малюк з Прилук. Це хлопчик Назар, який з’явився на світ 1 січня о 2:50. Детальніше
02.01.2026
Від АТО до повномасштабної війни: військовий з Прилук боронив Україну від агресора
Прилучанин Сергій Цибенко – учасник бойових дій, ветеран російсько-української війни. Він став на захист країни у 2014 році – боронив схід у зоні проведення АТО, у 2022 році також не залишився осторонь й взяв до рук зброю. Зараз чоловік займається громадською роботою та відстоює інтереси побратимів. Детальніше
Всі новини

Наші опитування

Яким чином ви попали на наш сайт?







Показати результати опитування
Показати всі опитування на сайті