W skrócie
- Nowy Muse Spark firmy Meta oznacza przejście do zamkniętej, natywnie multimodalnej AI z rozumowaniem opartym na agentach.
- Meta zgłasza znaczące osiągnięcia w testach porównawczych w dziedzinie zdrowia i wyszukiwania, ale nadal ustępuje Gemini w podstawowym rozumowaniu i kodowaniu.
- Zbudowany w dziewięć miesięcy przy znacznie mniejszej mocy obliczeniowej, co wskazuje na nową strategię AI opartą na efektywności.
Meta uruchomiła Muse Spark w środę, wprowadzając pierwszy model zbudowany przez Meta Superintelligence Labs — zespół zebrany dziewięć miesięcy temu pod kierownictwem dyrektora ds. AI Alexandr Wang po przejęciu Scale AI przez Meta za 14 miliardów dolarów. Jest już dostępny na meta.ai i w aplikacji Meta AI, a wdrożenie na Facebooku, Instagramie i WhatsAppie nastąpi w ciągu najbliższych kilku tygodni.
To nie jest tylko kolejna aktualizacja chatbota ani nowa wersja Llama. Muse Spark jest natywnie multimodalny — przetwarza obrazy, tekst i głos od podstaw, zamiast dodawać wizję do istniejącego modelu tekstowego. Posiada wizualny łańcuch myślowy, obsługę narzędzi i coś, co Meta nazywa „trybem kontemplacji": konfiguracją, która uruchamia wielu agentów AI równolegle, aby rozwiązywać trudniejsze problemy. To odpowiedź Meta na rozszerzone tryby myślenia Google Gemini Deep Think i OpenAI GPT Pro.
„Muse Spark to pierwszy krok na naszej drabinie skalowania i pierwszy produkt gruntownej przebudowy naszych działań w zakresie AI" — napisała Meta w oficjalnym oświadczeniu. „Aby wspierać dalsze skalowanie, dokonujemy strategicznych inwestycji w całym stosie — od badań i szkolenia modeli po infrastrukturę, w tym centrum danych Hyperion".
Firma współpracowała z ponad 1000 lekarzy w celu kuratorowania danych treningowych dla rozumowania medycznego Muse Spark. Wyniki w HealthBench Hard — teście porównawczym otwartych zapytań zdrowotnych — są uderzające: Muse Spark uzyskał 42,8, w porównaniu do 40,1 dla GPT 5.4 i zaledwie 20,6 dla Gemini 3.1 Pro. To nie jest marginalna różnica.
W wyszukiwaniu agentowym (DeepSearchQA) Muse Spark również prowadzi z wynikiem 74,8, pokonując Gemini (69,7) i GPT 5.4 (73,6). W CharXiv Reasoning — rozumieniu wykresów z prac naukowych — uzyskał 86,4, najwyższy wynik spośród modeli w porównaniu.
Dla tych zainteresowanych łamaniem zabezpieczeń AI, model został zhackowany w ciągu kilku minut:
Ale dobry nie jest tym samym co świetny. Ogólny obraz testów porównawczych pokazuje, że Gemini 3.1 Pro nadal prowadzi w większości kategorii. Różnica jest najbardziej widoczna w ARC AGI 2, teście porównawczym łamigłówek abstrakcyjnego rozumowania: Gemini uzyskał 76,5 w porównaniu do 42,5 Muse Spark.
W kodowaniu (LiveCodeBench Pro) wynik Gemini 82,9 przewyższa wynik Meta 80,0. W MMMU Pro — rozumienie multimodalne — Gemini uzyskał 83,9 w porównaniu do 80,4. Własny blog Meta przyznaje obecne luki w wydajności w długoterminowych systemach agentowych i przepływach pracy kodowania.
W tym uruchomieniu wbudowana jest również zauważalna zmiana strategiczna. Muse Spark to model zamknięty — jego architektura i wagi nie zostaną upublicznione. To gwałtowne odejście od Llama, który zbudował reputację Meta w otwartych kręgach AI. Po rozczarowującym przyjęciu Llama 4 na początku tego roku, Meta najwyraźniej zdecydowała, że kolejny rozdział musi być napisany inaczej.
Firma twierdzi, że ma nadzieję na udostępnienie przyszłych wersji Muse jako open-source, ale na razie kod pozostaje wewnątrz Meta. Akcje giganta technologicznego wzrosły o prawie 9% w środę po ogłoszeniu i zakończyły dzień handlowy wzrostem o 6,5% do ceny 612,42 USD.
„Tryb kontemplacji" wykorzystuje równoległą orkiestrację agentów, aby podnieść pułap modelu. W tej konfiguracji Muse Spark osiągnął 58% w Humanity's Last Exam i 38% w FrontierScience Research — obszar, który czyni go konkurencyjnym w stosunku do najbardziej zaawansowanych wersji Gemini i GPT, a nie ich standardowych wydań.
Meta wprowadza również asystenta zakupowego, który porównuje produkty i łączy bezpośrednio z zakupami, oraz planuje wprowadzić Muse Spark na Facebook, Instagram i WhatsApp w nadchodzących tygodniach — zgodnie z tym samym scenariuszem wdrożonym od Llama 3, udostępniając go ponad 3,5 miliarda użytkowników. Prywatny podgląd API jest otwierany dla wybranych deweloperów.
Model został zbudowany w dziewięć miesięcy, wewnętrznie o kryptonimie Avocado, a Meta twierdzi, że jej nowy stos wstępnego treningu może osiągnąć ten sam poziom możliwości co Llama 4 Maverick przy ponad 10-krotnie mniejszej mocy obliczeniowej.
Muse Spark jest wewnętrznie opisywany jako „mały i szybki" pierwszy krok w rodzinie Muse. Bardziej zaawansowana wersja jest już w fazie rozwoju.
Newsletter Daily Debrief
Zacznij każdy dzień od najważniejszych wiadomości, a także oryginalnych artykułów, podcastu, filmów i więcej.
Źródło: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads





