• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:
Новобудова у мікрорайоні 273-го кварталу: ситуацію коментує юристка
Антарктида: тут немає єдиного часу, а літо починається 1 грудня
Японські вчені запустили у космос дерев’яний супутник
Посадовці міськради вчилися протидіяти дезінформації та розпізнавати брехню
Досягнуто швидкості передачі даних, що у 1,6 мільйона разів перевершує сучасну швидкість інтернету
NewsGuard виявило ще сто сайтів фейкових новин, створених ШІ
Коментарі (0 шт):
Додати коментар:
Останні новини
Розбещував 9-річну дитину та переховувався від відбуття покарання: жителя Прилуччини затримали на Сумщині
42-річний житель Срібнянської громади був засуджений за розбещення дитини – 9-річної подруги доньки його дружини. Аби уникнути відбуття покарання чоловік переховувався на Сумщині. Наразі його затримали. Детальніше
30.01.2026
Ще тиждень вдома: прилуцьким школярам продовжили канікули
30 січня у Прилуках за рішенням міської комісії з питань ТЕБ та НС у закладах загальної середньої освіти продовжили канікули з 2 по 6 лютого. Детальніше
30.01.2026
У Прилуках виконком виділив кошти для надання грошової допомоги містянам
У ході чергового засідання виконавчого комітету у Прилуках було виділено кошти для надання одноразової грошової допомоги певним категоріям містян. Детальніше
29.01.2026
Генсек ООН відкинув право «народів Криму та Донбасу» на самовизначення
Генеральний секретар ООН Антоніу Гутерріш спростував російський наратив щодо нібито самовизначення «народів» Криму та Донбасу, за допомогою якого Кремль виправдовує окупацію та анексію території України. Детальніше
29.01.2026
Ремонт на 150 мільйонів гривень: що зроблять у Прилуцькій міській лікарні
У Прилуцькій центральній міській лікарні на двох поверхах триває капітальний ремонт. Тут з’являться палати з окремими санвузлами та кнопками виклику медперсоналу, зали для реабілітації згідно з потребами маломобільних людей, три нових ліфти, зонування поверху відповідно до внутрішнього маршруту лікування пацієнтів. Детальніше
Всі новини