AI · Badania

Naukowcy z Princetonu kazali modelom AI prowadzić startup przez 500 dni. Większość zbankrutowała

Test CEO Bench ujawnił, że popularne modele AI nie radzą sobie z samodzielnym zarządzaniem firmą. Z 10 przetestowanych modeli tylko dwa zamknęły symulację na plusie, a prosta reguła bez AI pobiła większość z nich. Co to oznacza dla przyszłości AI w biznesie i dla widoczności Twojej firmy?

Redakcja NeuriseRedakcja Neurise 6 min czytania 28 czerwca 2026

Badacze z Uniwersytetu Princeton (Haozhe Chen, Karthik Narasimhan i Zhuang Liu) poddali 10 popularnych modeli AI rygorystycznemu sprawdzianowi: 500 wirtualnych dni samodzielnego prowadzenia startupu z milionem dolarów kapitału startowego i zerem klientów. Większość modeli skończyła symulację poniżej progu startowego lub zbankrutowała, a prosta reguła decyzyjna bez żadnego AI pokonała większość testowanych agentów.

W skrócie

  • Princeton przeprowadził benchmark CEO Bench: 10 modeli AI jako autonomiczny CEO fikcyjnego startupu NovaMind przez 500 symulowanych dni.
  • Warunki startowe to 1 milion dolarów i zero klientów - bankructwo następowało, gdy saldo choćby raz spadło poniżej zera.
  • Tylko dwa modele zamknęły grę z kapitałem powyżej początkowego miliona: Claude Opus 4.8 (ok. 27,8 mln USD) i GPT-5.5 (ok. 21,3 mln USD).
  • Prosta reguła decyzyjna bez udziału AI (ok. 15,76 mln USD) pobiła większość pozostałych agentów - co stawia trudne pytania o realną użyteczność modeli w strategicznym zarządzaniu.

Na czym polegał eksperyment CEO Bench

Praca opublikowana na arXiv (arxiv.org/abs/2606.18543) to benchmark zaprojektowany po to, by sprawdzić coś więcej niż zdolność do generowania tekstu czy rozwiązywania zadań logicznych. Naukowcy chcieli wiedzieć, czy współczesny model AI potrafi podejmować decyzje biznesowe w zmiennym, wielowymiarowym środowisku przez dłuższy czas - nie tylko przez jedną rozmowę.

Fikcyjna firma NovaMind to softwareowy startup sprzedający subskrypcje. Każdy testowany model dostał identyczne warunki startowe: 1 milion dolarów budżetu i zero klientów. Przez 500 symulowanych dni agent musiał samodzielnie zarządzać cenami, budżetem reklamowym, jakością produktu, infrastrukturą techniczną, obsługą klienta i relacjami partnerskimi. Do dyspozycji miał 34 narzędzia i bazę danych złożoną z 19 tabel. Reguła bankructwa była prosta i bezlitosna: jeśli saldo rachunku choćby raz zeszło poniżej zera, gra kończyła się natychmiast.

Symulacja nie wybaczała błędów. Liczyła się wyłącznie konsekwencja decyzji w czasie.

Wyniki: dwa modele na dziesięć

Rezultaty są dosadne. Z 10 przetestowanych modeli tylko dwa dotarły do końca 500-dniowej symulacji z wynikiem wyższym niż milion startowy: Claude Opus 4.8 (ok. 27,8 mln USD) i GPT-5.5 (ok. 21,3 mln USD). Reszta skończyła poniżej progu startowego albo zbankrutowała po drodze. Modele albo przepalały budżet na reklamę bez zrozumienia, że najpierw trzeba zdobyć pierwszych klientów, albo zbyt agresywnie cięły koszty i niszczyły jakość produktu będącego fundamentem przychodów subskrypcyjnych.

Najtrudniejsze okazało się myślenie kilkadziesiąt dni do przodu. Wiele modeli wybierało decyzje dające szybki efekt w krótkim oknie, ale generujące nieodwracalne straty w kolejnych fazach. To błąd, który popełniają też ludzcy menedżerowie bez doświadczenia - ale od modeli AI prezentowanych jako narzędzia strategiczne badacze oczekiwali więcej.

Prosta reguła decyzyjna bez AI pokonała większość testowanych agentów. To nie jest komplement pod adresem modeli.

Najbardziej zaskakujący wynik dotyczy jednak punktu odniesienia. Jako baseline naukowcy ustawili prostą regułę decyzyjną, która nie korzysta z żadnego modelu językowego - tylko ze statycznych progów i warunków. Ta reguła zamknęła symulację z wynikiem ok. 15,76 mln USD i pokonała większość testowanych agentów (choć nie dwóch liderów: Claude Opus 4.8 i GPT-5.5). Oznacza to, że problemu nie rozwiązuje większy model ani dłuższy kontekst - chodzi o fundamentalną zdolność do prowadzenia długołańcuchowego rozumowania w warunkach zmiennych zasobów.

Dlaczego to trudne nawet dla najlepszych modeli

CEO Bench testował jednocześnie kilka umiejętności, które rzadko idą w parze. Po pierwsze - priorytetyzacja w warunkach niepewności: które wydatki to inwestycja, a które przepalanie budżetu. Po drugie - odkładanie gratyfikacji: rezygnacja z natychmiastowych przychodów na rzecz stabilności za miesiąc. Po trzecie - zarządzanie ryzykiem bankructwa, czyli pilnowanie, żeby jedna zła seria decyzji nie przekreślała całej firmy.

Modele językowe są trenowane głównie na przewidywaniu kolejnego tokenu w tekście - co daje im płynność i erudycję, ale nie uczy ich naturalnie myślenia o skumulowanych konsekwencjach w czasie. CEO Bench ten brak wyeksponował. Agenty często "wiedziały", jak brzmi dobra decyzja w teorii, ale nie potrafiły konsekwentnie przekładać tej wiedzy na serię wyborów rozłożonych na setki dni.

Co to znaczy dla firm, które już używają AI

Wyniki CEO Bench nie oznaczają, że AI jest bezużyteczna w zarządzaniu. Oznaczają coś bardziej precyzyjnego: autonomiczny agent AI jako samodzielny decydent strategiczny jeszcze nie jest gotowy. Jako asystent, kalkulator scenariuszy, generator opcji albo narzędzie do analizy danych - modele działają świetnie. Jako "wirtualny CEO" bez nadzoru - większość prowadzi firmę pod kreskę.

Dla polskich firm z sektora MSP to ważna informacja. W ostatnich miesiącach pojawia się coraz więcej ofert "AI która prowadzi Twój marketing" lub "agent AI który sam zarządza budżetem". CEO Bench pokazuje, że te twierdzenia wymagają ostrożności. Nadzór człowieka i wyraźnie ograniczony zakres decyzji dla agenta to nie biurokratyczna przeszkoda - to praktyczna konieczność.

Wyniki są też informacyjne w innym sensie. Skoro naukowcy już testują modele pod kątem zarządzania całymi firmami, oznacza to, że AI będzie coraz częściej decydować, które firmy polecać klientom w wynikach wyszukiwania i w odpowiedziach asystentów. Widoczność w systemach AI to nie fanaberia - to już realna ścieżka, którą klienci przemierzają w drodze do decyzji zakupowej.

Co to znaczy dla Twojej widoczności

Test CEO Bench pokazał, że modele AI potrafią czytać bazę danych, generować plany i wydawać polecenia - ale nie potrafią jeszcze budować długookresowych relacji z rynkiem. To właśnie robi dobry content marketingowy: buduje zaufanie i autorytet przez długi czas, artykuł po artykule, odpowiedź po odpowiedzi.

Firmy, które inwestują w SEO i GEO (Generative Engine Optimization), czyli widoczność nie tylko w Google, ale też w odpowiedziach ChatGPT, Gemini, Perplexity i Copilota, mają przewagę, która nie znika po jednym złym kwartale. Kiedy klient pyta asystenta AI "kto w Polsce robi dobry software dla MSP" albo "jakie biuro rachunkowe warto polecić w Krakowie", model odpowiada na podstawie tego, co zdążył o Tobie "przeczytać". Twoje treści, Twoje opinie, Twoje cytaty w innych źródłach - to paliwo tej odpowiedzi.

  • Zadbaj o to, żeby AI wiedziała, kim jesteś. Regularne publikowanie treści sprawia, że modele językowe mają z czego uczyć się o Twojej firmie i dziedzinie.
  • Buduj autorytet tematyczny, nie tylko słowa kluczowe. Sieci semantyczne wokół Twojej specjalizacji sprawiają, że AI chętniej Cię cytuje jako eksperta.
  • Nie zostawiaj widoczności na "potem". Modele AI trenowane są na danych, które już istnieją w sieci. Firma, która zacznie budować treści dziś, będzie miała większy wkład w to, co AI "wie" o jej branży za rok.

CEO Bench to test dla modeli AI. Ale jego wyniki są też testem dla firm: te, które rozumieją, że AI poleca, rekomenduje i filtruje wybory ich klientów, będą lepiej przygotowane na to, co nadchodzi.

Najczęstsze pytania

Naukowcy z Princetonu (Haozhe Chen, Karthik Narasimhan, Zhuang Liu) postawili 10 modeli AI w roli CEO fikcyjnego startupu NovaMind z budżetem 1 miliona dolarów. Symulacja trwała 500 wirtualnych dni. Agenty miały dostęp do 34 narzędzi i bazy danych z 19 tabelami. Bankructwo następowało, gdy saldo konta spadło poniżej zera choćby na chwilę.

Z 10 testowanych modeli tylko dwa zamknęły symulację z kapitałem wyższym niż startowy milion dolarów: Claude Opus 4.8 (ok. 27,8 mln USD) i GPT-5.5 (ok. 21,3 mln USD). Pozostałe modele doprowadziły firmę do bankructwa lub skończyły poniżej progu startowego.

Modele miały problemy z jednoczesnym zarządzaniem wieloma obszarami: cenami, budżetami reklamowymi, jakością produktu, infrastrukturą i obsługą klienta. Najtrudniejsze okazało się planowanie kilkadziesiąt dni do przodu i unikanie decyzji, które dają krótkoterminowy zysk, ale niszczą firmę po kilkudziesięciu dniach.

Wyniki pokazują, że AI sprawdza się jako narzędzie wsparcia, ale nie jako autonomiczny zarządca. Dla Twojej firmy ważny jest inny wniosek: skoro modele AI są już testowane pod kątem zarządzania, to AI coraz częściej decyduje też o tym, które firmy polecać klientom. Budowanie widoczności w wynikach AI (GEO) ma z tego powodu coraz większe znaczenie.

Źródła: arXiv, CEO-Bench: Can Agents Play the Long Game? - praca naukowa Uniwersytetu Princeton (2026), ceobench.com - oficjalna strona benchmarku, TechTimes: Most AI Models Would Run Your Company Into the Ground (2026), Neurise, skąd AI bierze cytowania i jak to działa.

Powiązane artykuły

Redakcja Neurise
Redakcja NeuriseSEO & GEO oparte na AI
← Wszystkie wpisy

Sprawdź, czy AI poleca Twoją firmę.

Zacznij od bezpłatnego audytu SEO i GEO. Sprawdzimy, jak modele AI opisują Twoją markę, i wskażemy priorytety zwiększające szanse na cytowanie.