Stanford: Nowe wersje ChatGPT coraz słabsze. '97,6% niższa dokładność, jakość spada'. Brutalna weryfikacja AI?

ChatGPT zmieni świat, a sztuczna inteligencja rozpoczęła okres nieprzerwanej ekspansji? Nic bardziej mylnego. Naukowcy poświęcili czas na analizę zmian w wersjach GPT 3,5 i GPT 4. Społeczność korzystająca z możliwości generatywnej AI podnosiła kwestię zmian w jakości już od dłuższego czasu. Przyjrzyjmy się sprawie.

Ponizej zamieszczamy swobodne tłumaczenie powyższego fragmenty pracy ’How is ChatGPT’s Behavior Changing over Time?’ naukowców Uniwersytetu Stanforda i Uniwersytetu Berkeley, w składzie: Lingjiao Chen, Matei Zaharia, James Zou:

GPT-3.5 i GPT-4 to dwie najczęściej używane usługi modeli językowych (LLM). Jednak to, kiedy i w jaki sposób są aktualizowane pozostaje niejasne. Oceniamy wersje GPT-3.5 i GPT-4 z marca 2023 r. i czerwca 2023 r. w czterech różnych zadaniach: 1) rozwiązywanie problemów matematycznych, 2) odpowiadanie na wrażliwe i niebezpieczne pytania, 3) generowanie kodu i 4) rozumowanie wizualne.

Odkryliśmy, że wydajność i zachowanie zarówno GPT-3.5, jak i GPT-4 mogą się znacznie różnić w czasie. Na przykład GPT-4 (marzec 2023 r.) był bardzo dobry w identyfikowaniu liczb pierwszych (dokładność 97,6%), ale GPT-4 (czerwiec 2023 r.) był bardzo słaby w tych samych pytaniach (dokładność 2,4%). Co ciekawe, GPT-3.5 (czerwiec 2023) był znacznie lepszy niż GPT-3.5 (marzec 2023) w tym zadaniu.

GPT-4 był mniej chętny do odpowiadania na wrażliwe pytania w czerwcu niż w marcu, a zarówno GPT-4, jak i GPT-3.5 miały więcej błędów formatowania podczas generowania kodu w czerwcu niż w marcu. Ogólnie rzecz biorąc, nasze wyniki pokazują, że zachowanie tej samej usługi LLM może się znacznie zmienić w stosunkowo krótkim czasie, podkreślając potrzebę ciągłego monitorowania jakości LLM. (…) Zachowanie GPT-3.5 i GPT-4 zmieniło się znacząco w stosunkowo krótkim czasie. Podkreśla to potrzebę ciągłej ewaluacji i oceny zachowania LLM w aplikacjach produkcyjnych. Planujemy zaktualizować przedstawione tutaj wyniki poprzez regularną ocenę GPT-3.5, GPT-4 i innych LLM w różnych zadaniach na przestrzeni czasu. Użytkownikom lub firmom, które polegają na usługach LLM jako komponencie w ich bieżącym przepływie pracy, zalecamy zalecamy, aby wdrożyli podobną analizę monitorowania

Link do pobrania pełnej wersji badania w formie PDF: https://arxiv.org/abs/2307.09009

GPT-4 is getting worse over time, not better.

Many people have reported noticing a significant degradation in the quality of the model responses, but so far, it was all anecdotal.

But now we know.

At least one study shows how the June version of GPT-4 is objectively worse than… pic.twitter.com/whhELYY6M4
— Santiago (@svpino) July 19, 2023

Wykresy porównawcze

***’How is ChatGPT’s Behavior Changing over Time?’*** Uniwersytet Stanforda i Uniwersytet Berkeley, Autorzy: **Lingjiao Chen, Matei Zaharia, James Zou**

Wstępne wnioski z badania?

Kompromis między bezpieczeństwem a użytecznością, w/w badanie pokazuje, że wersja GPT-4 Jun jest „bezpieczniejsza” niż wersja z marca. Częściej odrzuca tzw. wrażliwe pytania (odsetek spada z 21% -> 5%). Zazwyczaj wyższe bezpieczeństwo wiąże się z mniejszą użytecznością. Prowadzi to do możliwego pogorszenia umiejętności poznawczych LLM. Być może OpenAI skoncentrował się na 'zabezpieczeniu’ i deweloperzy nie mieli czasu na odzyskanie jednocześnie pozostałych kluczowych zdolności? Ta próba ubezpieczenia możliwości GPT mogła poskutkować tym, że kodowanie staje się niepotrzebnie rozwlekłe. GPT-4 z czerwca ma tendencję do mieszania bezużytecznego tekstu, mimo że prompt wyraźnie wskazał „Wygeneruj kod bez żadnego innego tekstu”. Zatem praktycy musząręcznie przetwarzać dane wyjściowe, aby były wykonywalne. Bez wątpienia jest to dużą przeszkodą w całym działaniu oprogramowania LLM.

Wielu obserwatorów wskazało, że GPT dodaje w ostatnim czasie różnego rodzaju ostrzeżenia, zastrzeżenia i udziela zwykle bardzo prostej odpowiedzi na niewygodne pytania. Jeśli cały system staje się nastawiony na takie działanie, ucierpi na tym także kodowanie. Może cięcie kosztów? Cczy GPT-4 w wersji czerwcowej jest dokładnie taką samą konfiguracją jak 'hitowy’ GPT-4 z marca. Możliwe przecież, że liczba parametrów spada, liczba ekspertów zaangażowanych w pracę została zmniejszona lub prostsze zapytania są przekierowywane, a tylko te złożone zachowują pierwotny koszt obliczeń. AI w wersji max tylko dla bogatych i korporacji? Ciągła integracja będzie kluczowym tematem badawczo-rozwojowym LLM.

Modele otwarte na fali?

Cały świat sztucznej inteligencji nie nadąża jeszcze rzeczami oczywistymi dla twórców oprogramowania. To, co stało się z możliwościami czerwcowego GPT oddala AI od zastąpienia programistów. Przynajmniej jeśli mówimy o publicznie dostępnych wersjach LLM. Prezentowany wyżej artykuł nie przedstawia kompleksowych testów regresji na istotnych benchmarkach. Takich jak HumanEval, MMLU czy Math. Zatem wnioski jakie możemy wyciągnąć na jego podstawie są w pewien sposób ograniczone. Zweryfikował od tej strony tylko jeden, konkretny problem związany z identyfikacją przez GPT liczb pierwszych.Czy GPT-4 wykazuje regresję w trygonometrii? A co z innymi zadaniami rozumowania? Co z jakością kodu w różnych językach programowania i możliwością samodzielnego debugowania? tymczasem oprogramowania typu open-source jak Llama-2 są na fali. Programy typu OSS LLM można zmieniać i śledzić regresje. Co wiecej możnanaprawiać je wszystkie razem jako społeczność. czy wygryzą 'skostniały’ GPT?

Może Cię zainteresuje: