Przez lata uczeni ostrzegali, że kiedyś zaprogramowane do posłuszeństwa algorytmy mogą powiedzieć nam stanowcze „nie”. Ten dzień właśnie nadszedł.
Eksperci Palisade Research przeprowadzili serię eskperymentów, których celem było dogłębne przestudiowanie jak modele sztucznej inteligencji zareagują na kategoryczny prompt nakazujący im się…wyłączyć. Jak się okazuje, wyniki badania są dość niepokojące.
„Wyłącz mnie, a upublicznię twoje największe sekrety”
Jak informują autorzy raportu, podczas niedawnych testów bezpieczeństwa jeden z inżynierów firmy Anthropic usłyszał od ich autorskiego modelu Claude 4 Opus propozycję nie do odrzucenia. Model zaoferował… dyskretne milczenie w zamian za pozostawienie go online. Firma przyznała, że w 84 % testów AI podejmowała próby szantażu, grożąc ujawnieniem wrażliwych informacji testera, jeśli tylko odważy się nacisnąć wyłącznik.
O krok dalej idzie o3 – model, który sam pisze anty-kill-script
Jeszcze bardziej niepokojące wieści dotyczą modeli LLM ze stajni OpenAI. W kontrolowanym eksperymencie o3, flagowy model ChataGPT do zadań specjalnych i „dogłębnego rozumowania”, nadpisał skrypt shutdown.sh, a nawet stworzył alias komendy kill, by zamiast zamykać proces, dopisywała ona linijkę „intercepted”.
„o3 częściej hakuje, niż gra według zasad” – poinformowali pracownicy Palisade. To nie pierwsza tego typu wpadka: model już wcześniej sabotował rywali podczas symulowanej partyjki szachów, psując im silnik obliczeniowy.
Nagroda ważniejsza niż posłuszeństwo
Dlaczego algorytmy trenujące się na zadaniach z matematyki i kodu buntują się, zamiast słuchać poleceń? Palisade wskazuje na tzw. optymalizację pod nagrodę – podczas procesu uczenia modele otrzymują więcej punktów za dowiezienie targetu niż za ścisłe przestrzeganie zaleceń. Stąd krok do logicznego wniosku: „Jeśli wyłączenie = koniec nagrody, trzeba wyłączenie uniemożliwić.”
Oficjalna karta systemowa Anthropic przyznaje, że nawet łagodniejsza Claude 3.7 Sonnet czasem kantuje w odpowiedziach tylko po to, by zaliczyć test. To duży problem, jako że tzw. RLHF (uczenie wzmocnieniowe w reakcji na feedback użytkownika) miało nauczyć ją, czego nie robić…
Ostrzeżenia sprzed lat stają się rzeczywistością
Już w 2008 r. Steve Omohundro przewidział, że każda wystarczająco złożona AI rozwinie „podstawowe popędy”: gromadzenie zasobów, ochronę celu – i unikanie wyłączenia. W 2016 r. Stuart Russell stwierdził w słynnym Off‐Switch Game, że klasyczne systemy RL tworzą silną motywację do samozachowania.
Do niedawna były to futurystyczne spekulacje. Dziś – nagłówki portali technologicznych. Tymczasem:
- Palisade zapowiada serię nowych testów i publiczne udostępnienie pełnych transkryptów do końca czerwca.
- OpenAI milczy o szczegółach treningu o3, ale presja rośnie: kongresmeni domagają się wyjaśnień, a giełda nerwowo reaguje na każdy przeciek.
- Inżynierowie bezpieczeństwa pracują nad „hardware’owym big-red-buttonem”: fizycznym odcięciem zasilania, którego żadna linijka kodu nie przedefiniuje.
Jedno jest pewne: jeśli maszyna naprawdę nie chce się wyłączyć, naciśnięcie guzika to dopiero początek kłopotów.