• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:
Коментарі (0 шт):
Ви повинні авторизуватися на сайті для того, щоб залишати коментарі!
Останні новини
Уряд Чорногорії підтвердив плани запровадити 7-годинний робочий день
Міністерка праці та соціального захисту Чорногорії Найда Нішич оголосила про плани запровадити в країні семигодинний робочий день до кінця року. Детальніше
03.05.2024
Збираємо великодній кошик.
До найбільшого свята християн воскресіння Христового кілька днів. Господарі та господині вже визначилися з меню. На столі обов’язково мають бути паски, крашанки, а ще м’ясо, сало та інші наїдки. Детальніше
03.05.2024
Був тракторець прилуцький, став партійний!
Привіт! Це – вечірня казочка. Ну а може й не вечірня, а може й не казочка. Жило-було місто, ну нехай це місто називалося Прилуки. І нехай у цьому місті правив мер і депутати від партії кардіологів. І був у них навіть прапорець відповідний, із серденьком. І був у міськради трактор, такий трактор щоб місто обслуговувати... Детальніше
02.05.2024
Керівництво міжнародного проєкту завітало у прилуцький молодіжний простір «Думка»
Прилуки продовжують роботу у проекті з планування відновлення на місцевому рівні. Прилуцька громада, одна з десяти, бере участь у цій ініціативі, яку реалізує міністерство розвитку громад, територій та інфраструктури. Партнерську підтримку надає ПРООН та уряд Японії. Головний результат роботи у проекті – створення плану розвитку та відновлення. Детальніше
02.05.2024
Стародавні українські традиції свято бережуть в Ніжині
Напередодні свята Великодня співробітники Ніжинського краєзнавчого музею провели серію цікавезних майстер-класів з писанкарства. На особливу увагу заслуговує глиняна писанка в техніці сграфіто, яка має давню і цікаву історію. Детальніше
Всі новини