Nowy Grok od Elona Muska jest potężny! Rynek w szoku: „To skok o 20 poziomów”

Elon Musk ogłosił kolejną aktualizację swojej sztucznej inteligencji. Grok 4.1, i to od razu w dwóch wersjach: standardowej oraz Grok 4.1 Thinking, czyli trybie rozszerzonego rozumowania. Obie dostępne są dla wszystkich użytkowników X, również w wersji darmowej. Płacący dostają jedynie wyższe limity. Czy to coś na miarę rewolucji, czy jednak kosmetyka, której zalet nikt nie zauważy? Sprawdźmy to.

Grok 4.1 wjeżdża na rynek. Benchmarki potwierdzają: to największy upgrade xAI od startu projektu

Najważniejsze według samego Muska, jest to, że użytkownicy od razu zauważą skok prędkości i jakości. I tym razem wygląda na to, że to nie PR. Nowy Grok 4.1 w profesjonalnych testach naprawdę dowozi.

Zamiast pompować większe modele i karmić je kolejnymi petabajtami danych, xAI skupiło się na trzech punktach:

  • mniej halucynacji,
  • wyższa trafność faktów,
  • bardziej naturalna konwersacja.

Według oficjalnych danych xAI halucynacje spadły z 12,09% do 4,22%, a błędy FActScore z 9,89% do 2,97%. To prawie trzykrotna poprawa. I to w czasach, w których stabilność faktów jest jednym z największych problemów całego rynku LLM-ów. Za skok jakości odpowiada nowy system RLHF z modelem nagród opartym na… innym modelu. Grok uczy się sam, bez konieczności ręcznego tagowania milionów przykładów. Efekt? Większa kontrola stylu, lepszy ton, płynniejsze narracje. Przynajmniej zdaniem producenta.

https://twitter.com/MarioNawfal/status/1990544991869882415

Arena mówi jasno: to nowy lider

Największe zaskoczenie przyszło jednak z LMSYS Arena – najostrzejszego, kompletnie niezależnego testu dla modeli AI.

  • Grok 4.1 Thinking (quasarflux) uzyskał 1483 Elo – #1 miejsce na świecie wśród publicznych modeli.
  • Zwykły Grok 4.1 zdobył 1465 Elo – #2 miejsce, nawet bez Wnioskowania Łańcuchowego.

Dla porównania: poprzedni Grok 4 był na… 33. miejscu. To nie krok naprzód. To teleport 20 poziomów wyżej. W teście EQ-Bench Grok 4.1 zdobył 1586 Elo (+100 względem poprzedniej wersji). Przykłady robią wrażenie: model nie odpowiada już suchym „przykro mi”, tylko potrafi wejść w emocję użytkownika. Wspomnieć o ulubionym kąciku kota, dopytać o jego imię, odbudować rozmowę na prawdziwym empatycznym poziomie. To pierwszy Grok, który nie tylko „rozpoznaje smutek”, ale potrafi… pocieszyć.

Grok 4.1 nie jest jeszcze najsilniejszy na rynku. Na horyzoncie czai się Gemini 3.0 i odświeżone modele OpenAI, ale jedno trzeba ekipie Muska przyznać. To pierwszy naprawdę poważny skok jakościowy xAI. Wreszcie nie chodzi tylko o to, że Musk „ma swój model, żeby nie zostać w tyle”. Jego model przebija konkurencję w ślepych testach, poprawia fakty, rozumie emocje i pisze jak człowiek.