Microsoft uruchamia trzy nowe modele sztucznej inteligencji

Microsoft rzuca rękawicę OpenAI i Google na rynku sztucznej inteligencji. Firma ogłosiła uruchomienie trzech nowych modeli, które zostały zbudowane zupełnie od zera.

W listopadzie 2025 roku Microsoft ogłosił powstanie MAI Superintelligence Team – dedykowanej jednostki mającej rozwijać zaawansowaną sztuczną inteligencję wewnątrz firmy.
Zespół powstał pod bezpośrednim przewodnictwem Mustafy Suleymana, CEO Microsoft AI. Jego zadaniem jest budowa od podstaw własnych, frontierowych modeli AI, z wizją stworzenia tzw. Humanist Superintelligence. Był to też jasny sygnał, że Microsoft wkracza do wyścigu z OpenAI i Google, które dotychczas miały sporą przewagę nad gigantem.

Trzy nowe modele AI od Microsoft już gotowe

Po kilku miesiącach doczekaliśmy sie pierwszych efektów pracy specjalnego zespołu. We wtorek oficjalnie uruchomione zostały trzy nowe modele AI od Microsoft, które mają być jeszcze mocniejsze niż te oferowane przez konkurencję. system transkrypcji mowy, silnik generowania głosu i generator obrazów.

MAI-Transcribe-1 (transkrypcja mowy)

System transkrypcji mowy od Microsoftu nazwany został MAI-Transcribe-1. Jak informuje firma, popełnia on zdecydowanie mniej błędów przy transkrypcji, niż systemy konkurencji. MAI-Transcribe-1 wspiera 25 języków z całego świata i jeśli wierzyć Microsoft, to pokonuje OpenAI Whisper-large-v3 w każdym z nich. Natomiast w starciu z Google Gemini 3.1 Flash wygrywa w aż 22 z 25 języków.

MAI-Voice-1 (generator głosu)

Nowy generator głosu od Microsoft ma generować najbardziej naturalny i realistyczny dźwięk na rynku. Co więcej, mowa wygenerowana przez MAI-Voice-1 ma zapewnić bogaty zakres emocji i ekspresji, zachowując spójną tożsamość mówcy nawet w przypadku dłuższych treści. Model potrafi wygenerować 60 sekund dźwięku w zaledwie jedną sekundę, nie tracąc przy tym na jakości.

MAI-Image-2 (generator obrazów)

Trzecim modelem stworzonym przez Microsoft jest MAI-Image-2, czyli nowy generator obrazów. To co ma go wyróżniać od konkurencji, to tworzenie obrazu tak, by ten wyglądał jak prawdziwa fotografia. Dodatkowo, MAI-Image-2 ma bardzo dobrze rozwiniętą umiejętność wstawiania tekstu do obrazu, czym wyróżnia się wśród konkurencji. Arena.ai w swojej tabeli generatorów umieściła go na trzecim miejscu, tuż za plecami OpenAI i Google Gemini.

Ceny nowych modeli MAI zwalają z nóg (pozytywnie)

Nowe modele od Microsoft są już dostępne m.in. w ramach Microsoft CoPilot, Bing czy Teams. Oczywiście są również dostępne dla deweloperów w Microsoft Foundry oraz w dedykowanym MAI Playground. Mustafa Suleyman podkreśla, że ceny modeli mają być najkorzystniejsze wśród wszystkich dostępnych na rynku i faktycznie takie są. Godzina audio wygenerowanego przez MAI-Transcribe-1 to zaledwie ok. 0.36 dolara. Natomiast MAI-Voice-1 pozwala nam wygenerować milion znaków za 22 dolary, podczas gdy milion tokenów wejściowych do MAI-Image-2 to koszt pięciu dolarów.