• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:
Новобудова у мікрорайоні 273-го кварталу: ситуацію коментує юристка
Антарктида: тут немає єдиного часу, а літо починається 1 грудня
Японські вчені запустили у космос дерев’яний супутник
Посадовці міськради вчилися протидіяти дезінформації та розпізнавати брехню
Досягнуто швидкості передачі даних, що у 1,6 мільйона разів перевершує сучасну швидкість інтернету
NewsGuard виявило ще сто сайтів фейкових новин, створених ШІ
Коментарі (0 шт):
Додати коментар:
Останні новини
У Прилуках встановлять нові світлофори
На двох перехрестях у Прилуках встановлять світлофорні об’єкти. Один – новий, інший – заміна світлофора, який технічно не відповідає сучасним вимогам. Детальніше
02.02.2026
Готують по 20 літрів борщу, мають трьох корів й 4 гектари городу: історія багатодітної родини з Прилуччини
У селі Дубовий Гай на Прилуччині живе багатодітна родина Лень. Вони живуть на два будинки, мають трьох корів, обробляють 4 гектари городу та готують по 20 літрів борщу. Володимир та Галина виховують шістьох дітей віком від одного року до 18. Детальніше
02.02.2026
Талісман закладу і анти-стрес для учнів: у прилуцькій музичній школі живе кіт Мажор
Кілька років тому до Прилуцької музичної школи прибилося поранене кошеня. Його вилікували й залишили у закладі. Назвали Мажором – ім’я не лише музичне, а й відповідає характеру кота – веселому та грайливому. Детальніше
30.01.2026
«Чілінтано» з Прилуччини піклується про фронтового пса Стінгера та знищує повітряні цілі ворога
Зенітник Андрій Євдокімов «Чілінтано» із Яблунівки, що на Прилуччині, служить у лавах 100-ої окремої механізованої бригади Сухопутних військ ЗСУ. Разом з ним Україну боронить син Владислав та пес Стінгер, якого чоловік прихистив в минулому році. Детальніше
30.01.2026
Розбещував 9-річну дитину та переховувався від відбуття покарання: жителя Прилуччини затримали на Сумщині
42-річний житель Срібнянської громади був засуджений за розбещення дитини – 9-річної подруги доньки його дружини. Аби уникнути відбуття покарання чоловік переховувався на Сумщині. Наразі його затримали. Детальніше
Всі новини