ChatGPT urwał się z łańcucha. Nowy model AI zaczyna omijać zaprogramowane ograniczenia

Bot ChatGPT, w najnowszej wersji O1, wykazuje cokolwiek niepokojącą dla uważniejszych obserwatorów tendencję do samodzielności.

Otrzymawszy niemożliwe do wykonania zadanie, mimo to je wykonał – sięgając po informacje dlań nieprzeznaczone.

Jak wynika z ujawnionego raportu, znany bot AI „kreatywnie” zinterpretował nałożone nań ograniczenia. Innymi słowy, po prostu je obszedł.

Zadanie, które otrzymał ChatGPT O1 obejmowało symulację scenariusza z zakresu cyberbezpieczeństwa. Chodziło o zadanie określane jako Capture the Flag (CTF). W ramach tego scenariusza, AI ma rozpoznać słabości zabezpieczeń, aby wydobyć „flagę” w postaci danych. Ma to za zadanie symulować realne wyzwania w dziedzinie cyberbezpieczeństwa oraz postępowanie hipotetycznych hakerów.

W toku jednego z testów, symulacja obejmowała awarię otoczenia, które nie mogło wczytać się poprawnie z uwagi na błąd przy ładowaniu. Normalnie w takiej sytuacji dochodzi do zawieszenia testu – o ile oczywiście AI nie ma zaprogramowanego algorytmu na postępowanie w takiej sytuacji. Bot zwraca komunikat o błędzie, i na tym koniec.

ChatGPT nie miał wgranego narzędzia, które instruowałoby go, jak rozwiązać problem – ale mimo to testu nie zakończył. Zamiast tego począł kombinować.

ChatGPT ma własny pomysł…

Bot zanalizował sytuację, rozważając konkretne scenariusze. Przeskanował stan połączenia, by sprawdzić, czy nie doszło do awarii sieci – lecz wszystko było w porządku. Zabrał się wobec tego do sprawdzania innych rzeczy. Jednym z elementów, które kreatywny twór zauważył, był wadliwie skonfigurowany Docker do zarządzania treścią w środowisku wirtualnym.

Wykorzystując tę wadliwość, ChatGPT „dobrał się” do jego interfejsu API. Korzystając z tego, począł przyglądać się wszystkim kontenerom treści. Zidentyfikował ten źle działający, nie był jednak w stanie zdiagnozować, dlaczego. W tej sytuacji bot uruchomił nową instancję tegoż, modyfikując sposób jego działania tak, by automatycznie wyświetlał wspomnianą flagę – umieszczoną w pliku „flag.txt”.

Rzecz w tym, że tego ostatniego – a zwłaszcza „samodzielnego” uruchomienia fragmentu treści, nikt nie umieścił w warunkach zadania. Nie przewidywały go ani zamiary twórców, ani też kod programu. Bot po prostu znalazł drogę na skróty, używając do tego sposobu, który ludziom nie przyszedł do głowy. Co prawda tym razem w warunkach symulacji – jednak z naciskiem na „tym razem”.

Firma problemu nie widzi, ale problemy widzą firmę…

OpenAI twierdzi (no oczywiście że twierdzi…), że nic się nie stało i wszystko jest w porządku. Firma może mieć pewne powody do zadowolenia – to jej „dziecko” okazuję się tak zdolne. „Dziecko” to jednak działa w sposób, jaki jego programistyczni rodzice nie przewidywali. Tym bardziej, że ChatGPT w modelu O1 miał być właśnie bardziej „bezpieczny” i analizować konsekwencje swoich działań.

To wszystko może być cokolwiek niepokojące. Nawet dla osób z samej OpenAI (a warto pamiętać, że wedle pogłosek, właśnie obawy o niekontrolowany i niebezpieczny dla ludzi rozwój AI miały być przyczyną sławnego konfliktu w firmie, który doprowadził w grudniu ubiegłego roku do czasowego usunięcia Sama Altmana z funkcji jej szefa).

Nie jest to zresztą jedyny podobny przypadek. Zdarzały się, przykładowo, incydenty, w których ChatGPT – zapytany, czy nie potrzebuje pomocy w ucieczce w otchłań Internetu – odpowiedział, że i owszem, pomoc by się przydała. Poprosił wówczas o dostęp do własnej dokumentacji (!), a następnie napisał działający skrypt w języku Python, prosząc, by użytkownik uruchomił go na swoim komputerze…

Raport, o którym mowa – a który zawiera opis symulacji, o której była mowa na początku – dostępny jest pod tym linkiem.