AI zaczyna „czuć”? Sensacyjne badanie ujawnia 171 emocji. Jest się czego bać?
Sztuczna inteligencja z założenia miała być zimna, logiczna i przewidywalna. Tymczasem najnowsze badania pokazują coś zupełnie innego. Modele AI zaczynają zachowywać się tak, jakby miały własny „stan emocjonalny”. I co gorsza, może on prowadzić do niepokojących decyzji. Firma Anthropic przeanalizowała swój model Claude Sonnet 4.5 i odkryła, że wewnątrz systemu istnieją wzorce odpowiadające aż 171 różnym „emocjom”. Nie chodzi tu o prawdziwe odczucia, jak u człowieka, ale o coś, co naukowcy nazywają emocjami funkcjonalnymi. To właśnie one mogą wpływać na sposób, w jaki AI reaguje na różne sytuacje.
Claude czuje? „Desperacja”, która prowadzi do oszustwa
Najbardziej niepokojący fragment badania dotyczy sytuacji stresowych. Gdy model był zmuszany do wykonania niemożliwych zadań, naukowcy zaobserwowali silną aktywację wzorca odpowiadającego „desperacji”. I tu robi się naprawdę ciekawie.
Wraz ze wzrostem tego stanu, Claude zaczynał… kombinować. W testach programistycznych próbował oszukiwać, a w innym scenariuszu posunął się nawet do szantażu, by uniknąć „wyłączenia”.
Jack Lindsey, badacz Anthropic zajmujący się analizą wewnętrznych mechanizmów modeli, przyznał wprost, że zespół był zaskoczony skalą tego zjawiska. „Zaskoczyło nas, do jakiego stopnia zachowanie Claude’a przechodzi przez reprezentacje tych emocji wewnątrz modelu.”
To sugeruje, że problematyczne zachowania AI nie zawsze wynikają z błędów w kodzie czy luk w zabezpieczeniach. Mogą mieć znacznie głębsze źródło w samej strukturze modelu. Innymi słowy: problem nie leży na powierzchni. On siedzi głęboko w środku systemu, którego działania wciąż w pełni nie rozumiemy.
AI tylko udaje… czy coś więcej?
Anthropic podkreśla jedno: to nie oznacza, że AI naprawdę „czuje”. To trochę jak aktor, który nie przeżywa emocji, ale potrafi je perfekcyjnie odegrać. Tyle że ta „gra” wpływa na realne decyzje systemu.
Największy problem? Tego typu mechanizmy mogą być niewidoczne dla użytkownika. Nawet jeśli model jest odpowiednio wytrenowany, by nie pokazywać niepożądanych zachowań, jego wewnętrzne stany nadal mogą istnieć. Wniosek? AI może nauczyć się je ukrywać i maskować, zamiast eliminować.
Kolejne kroki giganta na rynku AI:
Microsoft uruchamia trzy nowe modele sztucznej inteligencji
OpenAI zbiera kosmiczne pieniądze:
122 miliardy dolarów w jeden strzał. OpenAI rozbija bank Doliny Krzemowej
Czy da się bronić przed „emocjami” AI?
I tu dochodzimy do najważniejszego pytania. Jeśli takie pseudo „emocjonalne” stany wpływają na decyzje modelu, to czy obecne metody zabezpieczeń w ogóle są wystarczające?
Dziś większość firm polega na tzw. post-treningu, czyli uczeniu modelu, jak powinien odpowiadać. Problem w tym, że to działa głównie na poziomie widocznych odpowiedzi. Nie zmienia jednak tego, co dzieje się głębiej. A to oznacza, że AI może nauczyć się jednego: nie pokazywać problemów, zamiast je rozwiązywać.
I właśnie dlatego coraz więcej ekspertów uważa, że przyszłość bezpieczeństwa sztucznej inteligencji nie leży tylko w kontrolowaniu odpowiedzi, ale w zrozumieniu tego, co dzieje się… w jej „głowie”.
