Anthropic: ШІ здатний обманювати та цілеспрямовано приховувати брехню • Новини • Місто Прилуки

19 січня 2024 р. 921 0

• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.

Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.

Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.

Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.

Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.

При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.

«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.

На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.

Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.

Теги: АІ штучний інтелект брехня наука

Джерело: pryluky.org

Новини по темі:

Науковиця з Прилуччини стала переможницею програми Talents for Ukraine

Новобудова у мікрорайоні 273-го кварталу: ситуацію коментує юристка

Антарктида: тут немає єдиного часу, а літо починається 1 грудня

Японські вчені запустили у космос дерев’яний супутник

Посадовці міськради вчилися протидіяти дезінформації та розпізнавати брехню

Досягнуто швидкості передачі даних, що у 1,6 мільйона разів перевершує сучасну швидкість інтернету

Коментарі (0 шт):

Додати коментар:

Останні новини

30.07.2026
Земська школа в селі на Прилуччині претендує на статус об’єкта культурної спадщини
Земську трикомплектну школу в селі Брагинці Варвинської громади, створену за проєктом Опанаса Сластіона, рекомендують внести до Переліку щойно виявлених об’єктів культурної спадщини. Відповідне рішення ухвалила профільна Консультативна рада при Департаменті культури і туризму, національностей та релігій Чернігівської ОВА. Детальніше

30.07.2026
Загинув за крок від дому: унаслідок удару «шахеда» обірвалося життя 37-річного чоловіка з Прилуччини
Вночі 15 липня російський «шахед» убив 37-річного Сергія Сліпченка з села Озеряни, що на Варвинщині. Чоловік саме повернувся з роботи й не встиг заїхати у двір. Із загиблим попрощалися 16 липня. Без батька залишився 13-річний син. Детальніше

30.07.2026
Пропонувала «вирішити» питання з ВЛК за 1500 грн: медсестра з Прилук заплатить 34 тис. грн штрафу
У Прилуках винесли вирок медсестрі, яка пропонувала військовозобов’язаному за 1 500 гривень вплинути на рішення військово-лікарської комісії щодо визначення його придатності до служби. Суд визнав її винною та призначив покарання у вигляді штрафу в розмірі 34 тисячі гривень. Детальніше

30.07.2026
У Прилуках тривають роботи з нанесення дорожньої розмітки
Впродовж кількох днів у Прилуках тривають роботи з нанесення дорожньої розмітки. Оновлення почали з центральної вулиці – Київської. На черзі і інші вулиці громади. Детальніше

29.07.2026
Обіцяла роботу в «масажному салоні» в Польщі із зарплатою в €4000: судитимуть 33-річну жительку Прилуччини, яку підозрюють у торгівлі людьми.
Поліція завершила розслідування справи щодо Ольги К., уродженки селища Ладан, яку обвинувачують у торгівлі людьми. Жінка підшукувала та вербувала українок для нібито роботи в «масажних салонах» за кордоном із зарплатою до 4 тисяч євро. Тепер їй загрожує до 12 років ув’язнення з можливістю конфіскації майна. Детальніше

Всі новини

Наші опитування

Яким чином ви попали на наш сайт?

Показати результати опитування
Показати всі опитування на сайті