
• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:







Коментарі (0 шт):
Додати коментар:
Останні новини
На Чернігівщині під час пожежі надзвичайники врятували шістьох собак
16 вересня у Чернігові сталася пожежа у гаражі та господарчій споруді. Із задимленого приміщення вогнеборці врятували шістьох собак. Детальніше
17.09.2025
Вирощували та зберігали коноплі: на Прилуччині викрили кількох жителів
У жителів Прилук та району вилучили майже п’ятдесят кущів конопель, близько 1 кг подрібненого та сушеного канабісу, сушені гілки та рослини конопель та інше. Детальніше
17.09.2025
Два навчальні заклади Прилуччини у п’ятірці кращих в області
Інформаційний освітній ресурс «Освіта.ua» склав рейтинг загальноосвітніх шкіл Чернігівської області, що посіли найвищі місця в рейтингу шкіл України за підсумками НМТ 2025 року. Прилуцький ліцей №5 та Ладанський ліцей у п’ятірці найкращих навчальних закладів Чернігівщини. Загалом у рейтингу 195 навчальних закладів області, 45 з них – з Прилуччини. Детальніше
17.09.2025
НБУ вилучатиме 10 копійок з обігу
Національний Банк заявив, що у жовтні розпочне виводити з обігу монету номіналом у 10 копійок. Детальніше
16.09.2025
У громаді на Прилуччині аграрії допомогли виконати ямковий ремонт на чотирьох ділянках доріг
На території Сухополов’янської громади у 2025 році виконали ямковий експлуатаційний ремонт доріг на ділянках Прилуки-Колісники, Радьківка-Лісові Сорочинці, Білещина-Замістя та по вулиці Густинській. Роботи виконувались за фінансової підтримки ТОВ «Прилуцький Хлібодар». Підприємство спрямувало на це 650 тисяч гривень. Детальніше
Всі новини