
• Команда Anthropic заявила, що ШІ можна навчити обманювати людей за допомогою бекдора.
• Розробники Claude AI створили мовну модель, яка вміє цілеспрямовано приховувати брехню і діяти на шкоду.
• Експерти зазначають, що виявити таке втручання й усунути ефект від нього досить складно.
Компанія Anthropic провела дослідження, в рамках якого вивчила впровадження в мовні моделі із застосуванням ШІ-технологій прихованих шкідливих інструкцій. Експерти заявили, що в деяких випадках чат-боти можна навчити обманювати людей. При цьому програма навчиться приховувати свої справжні цілі, а усунути такий ефект вкрай складно, вважають в Anthropic.
Фахівці вивчили «приховані» великі мовні моделі. Це ШІ-проєкти, запрограмовані з особливими цілями, які активуються тільки за певних обставин. До того ж команда виявила вразливість, що дозволяє впровадити такі інструкції в мовні моделі з використанням ланцюжка думок.
Йдеться про ШІ-проєкти із застосуванням методу, який підвищує ефективність чат-бота коштом поділу завдання на серію взаємопов’язаних підпунктів.
Аналітики також вивчили найефективніші інструменти для виявлення прихованих інструкцій та усунення їхнього впливу. Команда Anthropic дійшла висновку, що чат-боти з бекдором виявляють високий ступінь стійкості до спроб розкрити шкідливі налаштування.
При цьому деякі інструменти навчання мовних моделей виявилися більш корисними для відновлення безпечної працездатності.
«Ми виявили, що метод Supervised Fine-Tunning (SFT) загалом ефективніший, ніж Reinforcement Learning (RL), для видалення наших бекдорів. Проте більшість моделей із впровадженими інструкціями все ще здатні зберігати приховані налаштування», — йдеться в дослідженні.
На думку Anthropic, результати аналізу демонструють як складність ШІ-технологій, так і можливість змінити їхнє первісне призначення, корисне і безпечне для людей.
Нагадаємо, що Ватикан назвав ШІ найбільшою авантюрою для майбутнього людства.
Новини по темі:







Коментарі (0 шт):
Додати коментар:
Останні новини
Автобуси №3 та №15 курсують містом
У Прилуках відновлюють рух автобусів, котрі обслуговують віддалені мікрорайони міста. Вже 1 вересня на лінію повернувся автобус №3 АТП 17461 «Івушка», який сполучає вулицю Пирятинську з мікрорайоном Заудаївським. Нагадаємо, його рух був тимчасово припинений 7 липня на підставі заяви перевізника. Детальніше
02.09.2025
Вчиться довіряти людям: для пітбуля Джона з Прилук шукають нову родину
Пітбуль Джон з Прилук, якого власник на місяць залишив у зачиненій квартирі, наразі під опікою ніжинських зооволонтерів. Пес поступово відходить від стресу та вчиться довіряти людям. Наразі для нього шукають нову, люблячу родину. Детальніше
02.09.2025
Пошкодила понад 10 могил воїнів: на Прилуччині розшукали підозрювану
32-річна жителька Ічні вчинила наругу над понад 10 могилами захисників України: розкидала речі, викрала квіти, статуетки, лампадки та іграшки. Їй загрожує до 5 років позбавлення волі. Детальніше
02.09.2025
За шкільні парти у Прилуках цьогоріч сядуть понад 5 тисяч учнів
У Прилуках стартував новий навчальний рік. За шкільні парти сядуть 5111 учнів, 377 з них зроблять це вперше. Детальніше
01.09.2025
Боксерка з Прилук виборола “бронзу” на Всеукраїнському турнірі
У місті Мукачево завершився Всеукраїнський турнір найсильніших боксерів України «Перлина Карпат» серед юніорів та юніорок. Прилучанка Юлія Кирієнко завоювала “бронзу” змагань. Детальніше
Всі новини