AI · Modele

VibeThinker-3B: 3 miliardy parametrow, a wyniki jak u gigantow

Chinski model o zaledwie 3 miliardach parametrow rozwiazuje zadania matematyczne i programistyczne na poziomie rywali 200 razy wiekszych. To nie przypadek - to sygnal, ze rozumowanie mozna kompresowac. Tlumaczymy, jak to dziala i co z tego wynika dla Twojej firmy.

Redakcja Neurise 6 min czytania 28 czerwca 2026

VibeThinker-3B to otwarty model jezykowy stworzony przez chinska firme Sina - wlasciciela serwisu Weibo. Przy zaledwie 3 miliardach parametrow model osiaga wyniki porownywalne z modelami wielokrotnie wiekszymi w zadaniach z matematyki i programowania. Jego czerwcowy debiut pokazuje wyraznie, ze przewaga nie lezy juz w samym rozmiarze sieci, lecz w tym, jak model sie uczy rozumowac.

W skrócie

VibeThinker-3B (Sina/Weibo) ma 3 mld parametrow i bazuje na otwartym Qwen2.5-Coder-3B od Alibaby.
Na benchmarku AIME26 dorownuje DeepSeek V3.2 i Kimi K2.5, ktore sa odpowiednio okolo 200 i 333 razy wieksze.
W konkursie LeetCode (kwiecien-maj 2026) rozwiazal 123 ze 128 zadan przy pierwszej probie i wyprzedza kazdy model ponizej 20 mld parametrow na LiveCodeBench.
Klucz to trzyetapowy przepis "Spectrum-to-Signal": nadzorowane dostrajanie, rownolegle uczenie ze wzmocnieniem na matematyce, kodzie i naukach scislych, oraz offline'owa samodestylacja.

Skad wzial sie VibeThinker-3B

Za modelem stoi Sina, chinska korporacja medialna najbardziej znana z Weibo - odpowiednika Twittera. Zespol Weibo AI nie budowal architektury od zera: oparl sie na publicznie dostepnym modelu Qwen2.5-Coder-3B od Alibaby i skupil cala energie na procesie treningu. Model trafil do publicznej sieci w polowie czerwca 2026 (raport techniczny na arXiv opublikowano 15 czerwca) na licencji MIT, co oznacza, ze kazdy moze pobrac jego wagi i wdrozyc go we wlasnej infrastrukturze.

Wagi w formacie BF16 zajmuja okolo 6 GB - tyle, ze model uruchamia sie na pojedynczej karcie graficznej. Mimo to twory Weibo zdecydowali sie zmierzyc z modelami wymagajacymi dziesiatki, a nawet setki razy wiekszej mocy obliczeniowej. I nie wyszli z tej konfrontacji zle.

Co pokazuja wyniki na benchmarkach

Najtwardszym sprawdzianem dla modeli rozumujacych jest AIME26, czyli olimpiada matematyczna uzywana do oceny modeli AI. VibeThinker-3B uzyskal tu wynik 94.3, porównywalny z DeepSeek V3.2 (671 mld parametrow) i Kimi K2.5 (okolo 1 biliona parametrow). Liczby mowia same za siebie: jeden model robi podobna robote za ulamek zasobow pozostalych dwoch.

W konkursie programistycznym LeetCode z edycji kwiecien-maj 2026 model rozwiazal 123 ze 128 zadan przy pierwszej probie (96,1% skutecznosci). Na benchmarku LiveCodeBench v6, ktory mierzy zdolnosc pisania dzialajacego kodu, VibeThinker-3B osiaga 80.2 Pass@1 i pokonuje kazdy inny model o rozmiarze ponizej 20 miliardow parametrow.

Nie kazdy test wypada rownie dobrze. Na GPQA-Diamond, sprawdzajacym szersza wiedze naukowa, model uzyskal 70.2 - wyraznie mniej niz np. Gemini 3 Pro (91.9) czy Claude Opus 4.5 (87.0). To wazna wskazowka: logiczne rozumowanie i algorytmiczne myslenie daja sie kompresowac, wiedza encyklopedyczna - znacznie gorzej.

Jak wytrenowali tak maly model tak dobrze

Zespol Weibo AI opisal wlasny przepis, nazwany "Spectrum-to-Signal". Sklada sie z trzech glownych etapow, kazdy buduje na poprzednim:

Etap 1 - nadzorowane dostrajanie oparte na krzywej uczenia (SFT). Model uczy sie na wysokiej jakosci przykladach: mocniejsze modele-nauczyciele generuja wiele wariantow rozumowania dla kazdego zadania, a najlepsze sciezki wybierane sa m.in. przez weryfikacje odpowiedzi w sandboksie kodu. Ten etap buduje szerokie "spektrum" mozliwych, poprawnych sposobow rozumowania.
Etap 2 - uczenie ze wzmocnieniem na wielu dziedzinach rownolegle (RL, metoda MGPO). Model trenowany jest jednoczesnie na matematyce, kodzie i naukach scislych, z naciskiem na zadania, ktore rozwiazuje "czasem, ale nie zawsze" - to tu ze spektrum mozliwosci wylania sie mocny "sygnal" poprawnych strategii.
Etap 3 - offline'owa samodestylacja. Na koniec checkpointy z etapu RL sa laczone (uśredniane), co stabilizuje i utrwala zdobyte umiejetnosci w jednym, zwartym zestawie wag - bez rozrostu rozmiaru modelu.

Rozumowanie logiczne kompresuje sie znacznie lepiej niz wiedza faktograficzna. VibeThinker-3B to dowod, ze mozna wycisnac z malego modelu wielki talent do kodu i matematyki.

Wyprzedza GPT-5.2, Claude i Kimi w wybranych testach

Autorzy twierdza, ze na zadaniach z konkursow LeetCode (kwiecien-maj 2026) VibeThinker-3B osiagnal 96,1% skutecznosci, wyprzedzajac GPT-5.2 (95,3%) i Kimi K2.5 (90,6%) oraz cala linie modeli Claude 4.6. Ogolnie w weryfikowalnym rozumowaniu (matematyka, kod) model osiaga poziom porownywalny z GLM-5, Kimi K2.5, Gemini 3 Pro i Claude Opus 4.5. To twierdzenia producenta z wlasnego raportu technicznego - niezalezna weryfikacja jeszcze nie nastapila, wiec nalezy traktowac je z odpowiednim dystansem. Niemniej wyniki na LiveCodeBench i LeetCode sa weryfikowalne i robia wrazenie nawet przy ostroznej ocenie.

Warto pamietac, czego model nie potrafi. Slabszy wynik na GPQA-Diamond jasno mowi, ze VibeThinker-3B to wyspecjalizowane narzedzie do zadan algorytmicznych, nie universalny asystent. Wybierajac model do konkretnego zadania, zawsze warto sprawdzic, ktory benchmark go opisuje lepiej.

Co rewolucja malych modeli zmienia dla Twojej firmy

Historia VibeThinker-3B przekłada sie bezposrednio na strategie kazdej firmy myslacej o AI i widocznosci w sieci. Kilka konktretnych konsekwencji:

Mniejsze modele to nizszy koszt wdrozenia. Jesli model klasy "maly" osiaga wyniki klasy "duzy", automatyzacja prostych zadan - czat na stronie, kategoryzacja zapytan klientow, generowanie opisow produktow - przestaje byc zarezerwowana dla korporacji z budzetem na AWS.
AI na krawedzi (edge AI) to juz realna opcja. Modele o 3 miliardach parametrow uruchamiaja sie lokalnie, bez wysylania danych do zewnetrznych serwerow. Dla firm przetwarzajacych wrazliwe dane klientow to argument za bezpieczenstwem i zgodnoscia z RODO.
Wiekszy wybor narzedzi, wiekszy wybor strategii. Klienci szukaja odpowiedzi nie tylko w Google, ale rowniez w ChatGPT, Gemini czy Perplexity. Rozwijajacy sie ekosystem malych, wyspecjalizowanych modeli oznacza, ze pytania beda padac w coraz wiekszej liczbie miejsc. Jesli Twoja firma nie jest dobrze opisana w sieci jako autorytet w swojej dziedzinie, zadne z tych narzedzi nie bedzie jej rekomendowac.
SEO i GEO to wciaz fundament. Model AI - niezaleznie od producenta i rozmiaru - czerpie wiedze o swiecie ze stron internetowych i artykulow branżowych. Firma, ktora publikuje rzetelne tresci i buduje widocznosc w Google, ma wieksze szanse na pojawienie sie w odpowiedziach AI. Maly model nie zmienia tej mechaniki. Mozna powiedziec, ze ja wzmacnia, bo szybciej i czesciej odpowiada na pytania uzytkownikow bez odsylania ich do przegladarki.

Najczęstsze pytania

VibeThinker-3B to otwarty model jezykowy stworzony przez chinska firme Sina (wlasciciel serwisu Weibo). Ma zaledwie 3 miliardy parametrow i bazuje na modelu Qwen2.5-Coder-3B od Alibaby. Pomimo malego rozmiaru osiaga wyniki porownywalne z modelami 200-333 razy wiekszymi w testach matematycznych i programistycznych.

Na benchmarku AIME26 VibeThinker-3B uzyskal wynik 94.3, dorownujac modelom DeepSeek V3.2 i Kimi K2.5, ktore sa odpowiednio okolo 200 i 333 razy wieksze. Na tegorocznej edycji LeetCode (kwiecien-maj 2026) rozwiazal 123 ze 128 zadan przy pierwszej probie. Na LiveCodeBench pokonuje kazdy model ponizej 20 miliardow parametrow. Slabszym punktem pozostaje GPQA-Diamond, gdzie osiagnal 70.2 i wyraznie ustepuje wiekszym rywalom.

Zespol Weibo AI wytrenowal model trzyetapowym przepisem "Spectrum-to-Signal": najpierw nadzorowane dostrajanie na starannie wyselekcjonowanych sciezkach rozumowania, potem uczenie ze wzmocnieniem rownolegle na matematyce, kodzie i naukach scislych (metoda MGPO), a na koniec offline'owa samodestylacja laczaca checkpointy treningowe w jeden, zwarty zestaw wag.

Mniejsze modele to nizszy koszt wdrozenia i mozliwosc uruchomienia AI lokalnie - bez wysylania danych do zewnetrznych serwerow. Dla wlasciciela MSP oznacza to, ze dostep do sprawnego narzedzia AI przestaje wymagac gigantycznego budzetu. Jednak niezaleznie od tego, z jakiego modelu korzystaja Twoi klienci, wciaz zadaja pytania w Google i asystentach AI - i nadal liczy sie, czy Twoja firma pojawia sie w odpowiedziach.

Tak, VibeThinker-3B to model otwarty (open-source), co oznacza, ze jego wagi sa publicznie dostepne. Kazdy deweloper lub firma moze pobrac model i wdrozyc go we wlasnej infrastrukturze.

Zrodla: arxiv.org: VibeThinker-3B - Exploring the Frontier of Verifiable Reasoning (2606.16140), GitHub: WeiboAI/VibeThinker - oficjalne repozytorium modelu, VentureBeat: Why Weibo's tiny VibeThinker-3B has the AI world arguing over benchmarks again, LiveCodeBench - benchmark kodowania.

Powiązane artykuły

Redakcja NeuriseSEO & GEO oparte na AI

← Wszystkie wpisy

Sprawdź, czy AI poleca Twoją firmę.

Zacznij od bezpłatnego audytu SEO i GEO. Sprawdzimy, jak modele AI opisują Twoją markę, i wskażemy priorytety zwiększające szanse na cytowanie.

Bezpłatny audyt SEO i GEO Zobacz cennik