
• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:







Коментарі (0 шт):
Додати коментар:
Останні новини
У громаді на Прилуччині попрощалися із загиблим військовим ЗСУ, уродженцем Луганщини Андрієм Юрченком
16 травня у Ладанській громаді провели в останню путь загиблого військового ЗСУ, старшого солдата, уродженця Луганщини Андрія Юрченка. Чоловік загинув 9 травня на Донецькому напрямку. Поховали воїна у селі Журавка Варвинської громади. Детальніше
16.05.2025
У Прилуцькому районі затримали наркоторговця
Співробітники Прилуцького райвідділу поліції викрили 34-річного жителя Ічнянської громади під час збуту чергової партії наркотиків рослинного походження. Його помістили до ізолятору тимчасового тримання. Детальніше
16.05.2025
У Прилуках затвердили нову вартість безоплатного поховання
У Прилуках виконком затвердив нову вартість безоплатного поховання померлих (загиблих) учасників бойових дій, постраждалих учасників Революції Гідності та осіб із інвалідністю внаслідок війни. Детальніше
16.05.2025
На Прилуччині внаслідок удару російського БПЛА пошкоджено будинок
В ніч на 16 травня внаслідок атаки російського ударного безпілотника зазнав пошкоджень житловий будинок в одному з сіл Прилуцького району. Детальніше
15.05.2025
На Прилуччині провели в останню путь загиблого військового ЗСУ Максима Будніка
14 травня у Ладанській громаді попрощалися із загиблим військовим ЗСУ Максимом Будніком. Чоловік загинув 10 травня під час виконання бойового завдання на Харківщині. Детальніше
Всі новини