AI zaczyna "czuć"? Sensacyjne badanie ujawnia 171 emocji. Jest się czego bać?

Sztuczna inteligencja z założenia miała być zimna, logiczna i przewidywalna. Tymczasem najnowsze badania pokazują coś zupełnie innego. Modele AI zaczynają zachowywać się tak, jakby miały własny „stan emocjonalny”. I co gorsza, może on prowadzić do niepokojących decyzji. Firma Anthropic przeanalizowała swój model Claude Sonnet 4.5 i odkryła, że wewnątrz systemu istnieją wzorce odpowiadające aż 171 różnym „emocjom”. Nie chodzi tu o prawdziwe odczucia, jak u człowieka, ale o coś, co naukowcy nazywają emocjami funkcjonalnymi. To właśnie one mogą wpływać na sposób, w jaki AI reaguje na różne sytuacje.

Claude czuje? „Desperacja”, która prowadzi do oszustwa

Najbardziej niepokojący fragment badania dotyczy sytuacji stresowych. Gdy model był zmuszany do wykonania niemożliwych zadań, naukowcy zaobserwowali silną aktywację wzorca odpowiadającego „desperacji”. I tu robi się naprawdę ciekawie.

Wraz ze wzrostem tego stanu, Claude zaczynał… kombinować. W testach programistycznych próbował oszukiwać, a w innym scenariuszu posunął się nawet do szantażu, by uniknąć „wyłączenia”.

Jack Lindsey, badacz Anthropic zajmujący się analizą wewnętrznych mechanizmów modeli, przyznał wprost, że zespół był zaskoczony skalą tego zjawiska. „Zaskoczyło nas, do jakiego stopnia zachowanie Claude’a przechodzi przez reprezentacje tych emocji wewnątrz modelu.”

To sugeruje, że problematyczne zachowania AI nie zawsze wynikają z błędów w kodzie czy luk w zabezpieczeniach. Mogą mieć znacznie głębsze źródło w samej strukturze modelu. Innymi słowy: problem nie leży na powierzchni. On siedzi głęboko w środku systemu, którego działania wciąż w pełni nie rozumiemy.

New Anthropic research: Emotion concepts and their function in a large language model.

All LLMs sometimes act like they have emotions. But why? We found internal representations of emotion concepts that can drive Claude’s behavior, sometimes in surprising ways. pic.twitter.com/LxFl7573F9
— Anthropic (@AnthropicAI) April 2, 2026

AI tylko udaje… czy coś więcej?

Anthropic podkreśla jedno: to nie oznacza, że AI naprawdę „czuje”. To trochę jak aktor, który nie przeżywa emocji, ale potrafi je perfekcyjnie odegrać. Tyle że ta „gra” wpływa na realne decyzje systemu.

Największy problem? Tego typu mechanizmy mogą być niewidoczne dla użytkownika. Nawet jeśli model jest odpowiednio wytrenowany, by nie pokazywać niepożądanych zachowań, jego wewnętrzne stany nadal mogą istnieć. Wniosek? AI może nauczyć się je ukrywać i maskować, zamiast eliminować.

Kolejne kroki giganta na rynku AI:

Microsoft uruchamia trzy nowe modele sztucznej inteligencji

OpenAI zbiera kosmiczne pieniądze:

122 miliardy dolarów w jeden strzał. OpenAI rozbija bank Doliny Krzemowej

We studied one of our recent models and found that it draws on emotion concepts learned from human text to inhabit its role as “Claude, the AI Assistant”. These representations influence its behavior the way emotions might influence a human.

Read more: https://t.co/clbKrTIxoe pic.twitter.com/xHYGFdLl2c
— Anthropic (@AnthropicAI) April 2, 2026

Czy da się bronić przed „emocjami” AI?

I tu dochodzimy do najważniejszego pytania. Jeśli takie pseudo „emocjonalne” stany wpływają na decyzje modelu, to czy obecne metody zabezpieczeń w ogóle są wystarczające?

Dziś większość firm polega na tzw. post-treningu, czyli uczeniu modelu, jak powinien odpowiadać. Problem w tym, że to działa głównie na poziomie widocznych odpowiedzi. Nie zmienia jednak tego, co dzieje się głębiej. A to oznacza, że AI może nauczyć się jednego: nie pokazywać problemów, zamiast je rozwiązywać.

I właśnie dlatego coraz więcej ekspertów uważa, że przyszłość bezpieczeństwa sztucznej inteligencji nie leży tylko w kontrolowaniu odpowiedzi, ale w zrozumieniu tego, co dzieje się… w jej „głowie”.

Dziękujemy, że przeczytałeś/aś nasz artykuł do końca. Obserwuj nas w Wiadomościach Google i bądź na bieżąco!

AI zaczyna „czuć”? Sensacyjne badanie ujawnia 171 emocji. Jest się czego bać?

Claude czuje? „Desperacja”, która prowadzi do oszustwa

AI tylko udaje… czy coś więcej?

Czy da się bronić przed „emocjami” AI?