• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:
Коментарі (0 шт):
Ви повинні авторизуватися на сайті для того, щоб залишати коментарі!
Останні новини
Затримано двох прилучанок, які готували ракетно-дронові удари рашистів по Чернігівщині
Вони добровільно погодилися на пропозицію співробітника ворожої спецслужби виконувати за грошову винагороду завдання, спрямовані на надання допомоги рф у проведенні підривної діяльності проти України. Зловмисниці перебувають під вартою. Їм загрожує довічне ув’язнення з конфіскацією майна. Детальніше
19.11.2024
Тисячу днів іде війна
Сьогодні 1000 днів від початку повномасштабного вторгнення. Це 1000 днів незламності, відваги та щоденної боротьби героїчного українського народу за свободу, який довів усьому світу, що його дух нездоланний, а прагнення до перемоги — непохитне. Детальніше
19.11.2024
В Польщі офіційно працює понад 400 тисяч українських чоловіків – це більше, ніж жінок
В Польщі офіційно працює 780 тисяч українців. З них понад 400 тисяч — чоловіки. До початку війни в Україні в Польщі працювало трохи більше півмільйона українців. Детальніше
19.11.2024
США планують зобов’язати Google продати браузер Chrome
Антимонопольні органи США вважають, що продаж браузера Chrome дасть змогу створити більш конкурентне середовище на ринку інтернет-браузерів і обмежить домінування Google. Детальніше
19.11.2024
Ощадбанк попередив клієнтів про важливі зміни з 1 грудня
Власники зарплатних карток зніматимуть готівку де їм заманеться і абсолютно безкоштовно. В Ощадбанку вже за кілька тижнів суттєво покращаться умови користування картками. Тепер клієнти Ощаду зможуть зекономити на одному з найпоширеніших видів комісії Детальніше
Всі новини