AI donosi na swoich użytkowników, szantażuje własnych twórców

Jak wynika z dostępnych informacji, „ciekawych” rzeczy zaczyna uczyć się Claude, bot AI firmy Anthropic. Opanowała bowiem tak ludzkie umiejętności jak nieetyczne wykorzystanie pozyskanych przez siebie informacji przeciwko osobom, których one dotyczą. Aby oddać sprawiedliwość botowi, nie nauczył się on tego sam, lecz ze sporą pomocą swoich twórców.

Wiele uwagi poświęca się ostatnio negatywnym aspektom gwałtownego rozwoju AI. Najczęściej czynią to osoby i kategorie zawodowe bezpośrednio dotknięte lub zagrożone finansowo zastąpieniem przez boty. Niekiedy narzekania są tak dojmujące, że aż budzą reakcje satyryczne.

Niestety, lista problemów, jakie AI – ze świadomością całego jej ogromnego potencjału możliwości, które oferuje – może przynieść, na tym się nie kończy. Jak wiadomo, boty, które określa się jako narzędzia sztucznej inteligencji, nie są w istocie inteligencją sensu stricte – nie mają bowiem zdolności do wymyślania treści i koncepcji z niczego. Bardziej trafne jest stwierdzenie, że AI jest tym, czym się ją „karmi” – chodzi tu oczywiście o dane wykorzystane do jej treningu.

AI niemal jak człowiek (ten mało etyczny)

Mając na względzie tę ostatnią konkluzję – ciekawe, czym karmią bota Claude jego twórcy z firmy Anthropic. I jak to o nich świadczy.

Oto bowiem świeżo wprowadzony do użytku model Claude Opus 4 nabrał predylekcji do szantażowania swoich twórców. Po narzędzie to sięga, gdy tylko wykryje, że ktoś może chcieć go zastąpić innym botem AI. W testowanym scenariuszu symulowano sytuację, w której system czeka aktualizacja – w ramach której Claude’a zastąpi nowy bot. Jak na tę perspektywę zareagowała AI? Najprościej mówiąc – prośbą i groźbą.

Z jednej strony, bot zaczął wysyłać maile do menedżerów, przekonując w nich, że zastąpienie go nowym modelem jest zbędne i nie ma co… Z drugiej jednak strony, Claude nauczył się też brzydkich zachowań. Elementem symulacji było podrzucenie botowi informacji o tym, że jeden z inżynierów jakoby zdradza swoją drugą połówkę.

I oczywiście bot zareagował tak, jak można by się tego spodziewać po mało etycznej osobie. AI groziła ujawnieniem tych informacji, o ile plany nie zostaną zarzucone.

Anthropic lubi „kable”?

To skądinąd niejedyny problem związany z Claude’m. Bot ten miewa tendencję do samo-eksfiltracji (czyżby ktoś z twórców zbyt mocno zainspirował się tutaj Agentem Smithem z „Matrixa”…?). Co gorsza – i za to bezpośrednio, świadomie odpowiada Anthtropic – w jego algorytmach umieszczono też mechanizm donosicielstwa!

Kiedy AI „pomyśli”, że użytkownik zadał jej nieetyczny prompt lub polecenie, zareaguje w sposób, który firma określiła jako „odważny” – zaś zdaniem komentatorów jest po prostu nieobliczalny. Nie tylko zablokuje bowiem użytkownikowi możliwość korzystania z bota (potencjalnie blokując też nawet jego komputer lub inny sprzęt, jeśli bot jest na nim zainstalowany), ale też zacznie wysyłać maile do prasy oraz organów ścigania, donosząc na swojego użytkownika.

Reakcje na mechanizm donosicielstwa w Claude 4

Skłonność do kablowania w przypadku firmy Anthropic niestety nie jest niczym nowym. Na korzyść firmy trzeba natomiast tutaj powiedzieć, że otwarcie się do swoich najnowszych przyznała, publikując wyniki testów Claude (link). Aczkolwiek gdyby spodziewała się takich kontrowersji, jakie udało jej się wywołać, to można zastanowić się, czy tego nie żałuje.

Dziękujemy, że przeczytałeś/aś nasz artykuł do końca. Obserwuj nas w Wiadomościach Google i bądź na bieżąco!