• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:
Науковиця з Прилуччини стала переможницею програми Talents for Ukraine
Новобудова у мікрорайоні 273-го кварталу: ситуацію коментує юристка
Антарктида: тут немає єдиного часу, а літо починається 1 грудня
Японські вчені запустили у космос дерев’яний супутник
Посадовці міськради вчилися протидіяти дезінформації та розпізнавати брехню
Досягнуто швидкості передачі даних, що у 1,6 мільйона разів перевершує сучасну швидкість інтернету
Коментарі (0 шт):
Додати коментар:
Останні новини
Березень: погода та перехід на літній час
За прогнозами синоптиків, березень 2026 року в Україні буде в межах кліматичної норми. Також наприкінці місяця українці традиційно переходитимуть на літній час. Детальніше
27.02.2026
На Прилуччині ліквідували канал збуту ручних гранат
У Прилуцькому районі двоє військовослужбовців 1986 та 1993 років народження, які перебували в СЗЧ , налагодили збут ручних гранат на території регіону. Наразі їх затримали. Чоловікам загрожує до 7 років позбавлення волі. Детальніше
27.02.2026
У проєкті з енергонезалежності взяла участь громада з Прилуччини
25 лютого відбувся захист енергетичних проєктів 11 громад Чернігівщини та Сумщини в межах програми «Енергетична стійкість та незалежність громад». Серед учасників – Сухополов’янська громада, яка презентувала три проєкти. Детальніше
26.02.2026
На Прилуччині провели в останню путь загиблого військового ЗСУ Володимира Тютюнника
26 лютого Сухополов’янська громада попрощалася із загиблим 33-річним військовим ЗСУ Володимиром Тютюнником, якого тривалий час вважали зниклим безвісти. Чоловік загинув 23 квітня 2023 року під час виконання бойового завдання на Донеччині. Детальніше
26.02.2026
На Чернігівщині від ускладнень грипу померла 3-річна дитина
У Чернігові від ускладнень грипу типу А померла дитина з Борзнянської громади. Детальніше
Всі новини