Nawet najlepsze AI gubi się w długim tekście
Naukowcy poddali GPT-5, Claude i Gemini klasycznemu testowi psychologicznemu. Im dłuższe zadanie, tym mocniejszy spadek celności, czasem niemal do zera. Tłumaczymy, co ten wynik znaczy dla treści, którą ma zauważyć i zacytować AI, i jaki płynie z niego praktyczny wniosek dla Twojej firmy.
Łatwo uwierzyć, że skoro modele AI piszą eseje i kod, to z prostym zadaniem poradzą sobie bez trudu. Tymczasem opublikowane w czerwcu 2026 badanie pokazało coś odwrotnego: gdy zadanie się wydłuża, nawet najlepsze modele tracą koncentrację i celność spada lawinowo. Dla właściciela firmy to nie kolejna ciekawostka o AI, tylko podpowiedź, jak pisać treść, którą asystent realnie zrozumie i zacytuje.
W skrócie
- Badanie z PNAS Nexus poddało wiodące modele AI klasycznemu testowi Stroopa z psychologii.
- Przy krótkich listach trafność przekraczała 90 procent, ale wraz z wydłużaniem zadania gwałtownie spadała, u części modeli niemal do zera.
- Problem dotyczył także topowych systemów, między innymi GPT-5, Claude Opus 4.1 i Gemini 2.5.
- Wniosek dla Twojej firmy: treść zwięzła, dobrze uporządkowana i z odpowiedzią na początku ma większą szansę zostać poprawnie zrozumiana i przytoczona przez AI.
Co się wydarzyło: klasyczny test psychologiczny dla AI
Zespół badaczy, w którego skład weszli Suketu Chandrakant Patel, Hongbin Wang i Jin Fan, postanowił sprawdzić, jak maszynowa uwaga modeli językowych różni się od ludzkiej. Sięgnęli po test Stroopa, jeden z najbardziej znanych eksperymentów w psychologii. Jego zasada jest prosta: pokazujemy słowo oznaczające kolor, ale wydrukowane atramentem w innym kolorze, na przykład słowo „czerwony" zapisane na zielono. Zadanie polega na tym, by nazwać kolor atramentu i zignorować znaczenie słowa.
To zadanie wymaga skupienia i panowania nad odruchem. Człowiek odruchowo czyta słowo, więc musi świadomie powstrzymać tę reakcję i skupić się na kolorze. W psychologii test mierzy właśnie tę zdolność: kontrolę uwagi i odporność na rozpraszający bodziec. Co istotne, ludzie utrzymują wysoką trafność niezależnie od tego, jak długa jest lista do przejścia.
Wyniki badania trafiły w czerwcu 2026 do czasopisma naukowego PNAS Nexus i szybko obiegły media technologiczne, bo pokazały wyraźną, mierzalną granicę możliwości dzisiejszych modeli. Nie była to opinia ani wrażenie, tylko twarde liczby z kontrolowanego eksperymentu.
Dlaczego celność spada wraz z długością
Najciekawsze jest to, że modele wcale nie zawodziły od początku. Przy krótkich listach radziły sobie świetnie. Problem pojawiał się dopiero wtedy, gdy zadanie rosło. Oto, jak wyglądały konkretne wyniki:
- GPT-4o spadł z 91 procent trafień przy pięciu słowach do 57 procent przy dziesięciu i zaledwie 15 procent przy czterdziestu.
- Claude 3.5 Sonnet trzymał stabilny poziom mniej więcej do dwudziestu słów, po czym osunął się do 24 procent przy czterdziestu.
- W mieszanych próbach, gdzie słowo i kolor się nie zgadzały, trafność na trudniejszych pozycjach spadała niemal do zera.
W badaniu znalazły się także najnowsze modele, między innymi GPT-5, Claude Opus 4.1 i Gemini 2.5. Innymi słowy, nie chodzi o starsze czy słabsze systemy, ale o czołówkę rynku. Mechanizm jest za każdym razem podobny: im dłuższy i bardziej zagmatwany materiał, tym trudniej modelowi utrzymać uwagę na właściwym celu. Zamiast nazywać kolor, model coraz częściej zsuwał się w stronę odruchowego czytania słowa.
Autorzy badania tłumaczą to różnicą w samej naturze uwagi. Tak zwana uwaga w modelach opartych na architekturze transformer nie jest tym samym co ludzka kontrola wykonawcza, czyli zdolność świadomego trzymania się jednego zadania mimo rozpraszaczy. Maszynowy mechanizm dobrze rozkłada wagę na fragmenty tekstu, ale nie ma w sobie tej ludzkiej „dyscypliny", która pozwala nie dać się ponieść najbardziej narzucającemu się bodźcowi.
Czego ten wynik nie znaczy
Zanim wyciągniemy wnioski, ważne zastrzeżenie. Ten eksperyment to celowo trudne, sztuczne zadanie, zaprojektowane tak, by uwypuklić granice uwagi. To nie jest typowy scenariusz codziennej pracy z asystentem AI. Z badania nie wynika, że modele są bezużyteczne ani że nie warto z nich korzystać.
AI wciąż świetnie radzi sobie z ogromną liczbą zadań, od streszczania po pisanie kodu, i pozostaje realnym narzędziem pracy, za które firmy na całym świecie płacą co miesiąc. Wniosek z badania jest subtelniejszy, ale bardzo praktyczny: jakość odpowiedzi AI zależy od tego, jak czytelny i uporządkowany jest materiał, na którym model pracuje. Im dłuższy, gęstszy i bardziej pogmatwany tekst, tym większe ryzyko, że model zgubi sedno albo da się ponieść pobocznemu wątkowi.
Co to znaczy dla treści, którą ma cytować AI
Tu zaczyna się część, która dotyczy Twojej firmy bezpośrednio. Coraz więcej osób nie wpisuje już frazy w Google, tylko pyta asystenta AI o polecenie firmy czy rozwiązania. Żeby model wskazał właśnie Ciebie, musi najpierw znaleźć Twoją treść, zrozumieć ją i wyłuskać z niej konkretną odpowiedź. A skoro nawet topowe modele gubią uwagę przy długim i zawiłym materiale, to sposób, w jaki napiszesz tekst, realnie wpływa na Twoją widoczność.
Praktyczne konsekwencje są takie:
- Ściana tekstu działa przeciwko Tobie. Długi, nieprzerwany akapit bez śródtytułów i list to dokładnie ten rodzaj materiału, w którym model najłatwiej traci wątek.
- Liczy się odpowiedź na początku. Jeśli sedno tonie gdzieś w połowie strony, asystent może go nie wyłowić. Konkret podany od razu ma większą szansę trafić do cytowania.
- Struktura to nie kosmetyka. Nagłówki, krótkie sekcje i listy nie są tylko ładniejsze dla człowieka. Dają modelowi wyraźne punkty zaczepienia, dzięki którym łatwiej trzyma się tematu.
To dokładnie ten obszar, który nazywamy GEO, czyli optymalizacją pod silniki generatywne. SEO odpowiada na pytanie, czy jesteś wysoko w Google. GEO odpowiada na pytanie, czy AI w ogóle zrozumie Twoją treść na tyle dobrze, żeby Cię polecić, gdy klient pyta o rozwiązanie Twojego typu.
Jak pisać, żeby AI Cię znalazło i zacytowało
Dobra wiadomość jest taka, że wnioski z tego badania da się przełożyć na proste zasady redakcyjne. Nie potrzebujesz własnego modelu AI ani działu badawczego. Wystarczy pisać tak, by ułatwić modelowi to, co i tak robi najtrudniej, czyli trzymanie się sedna. Oto kierunki, które sprawdzają się w praktyce:
- Dziel materiał na krótkie sekcje. Jeden śródtytuł, jedna myśl. Zamiast długiego wywodu daj modelowi serię wyraźnych, odrębnych fragmentów.
- Odpowiadaj wprost na konkretne pytania. Sekcja, która zaczyna się od pytania klienta i od razu daje na nie zwięzłą odpowiedź, jest dla AI łatwa do zacytowania.
- Używaj list i wyróżnień. Punkty, pogrubienia kluczowych pojęć i tabele to czytelne sygnały struktury, które pomagają modelowi nie zgubić wątku.
- Tnij zbędne ozdobniki. Marketingowe slogany i lanie wody rozpraszają nie tylko czytelnika, ale i model. Im więcej szumu, tym trudniej wyłuskać sedno.
- Dodaj sekcję najczęstszych pytań. Format pytanie i odpowiedź to gotowy, uporządkowany materiał, który modele bardzo chętnie przytaczają.
Badanie nad testem Stroopa nie jest odległą historią o laboratoriach i wykresach. To twarde przypomnienie, że uwaga AI ma swoje granice, a treść, którą publikujesz, albo te granice respektuje, albo na nich poległa. Twoja firma nie musi przechytrzyć modeli. Wystarczy, że napiszesz prościej, jaśniej i konkretniej niż konkurencja, bo to właśnie taką treść AI najłatwiej zrozumie i poleci.
Najczęstsze pytania
Tak, przynajmniej w warunkach badania opublikowanego w czerwcu 2026 w PNAS Nexus. Naukowcy poddali wiodące modele AI klasycznemu testowi Stroopa, w którym trzeba nazwać kolor atramentu słowa, ignorując jego znaczenie. Przy krótkich listach modele osiągały ponad 90 procent trafień, ale wraz z wydłużaniem zadania celność gwałtownie spadała, u części modeli niemal do zera. To nie znaczy, że AI jest bezużyteczne, tylko że jego uwaga działa inaczej niż ludzka i słabnie pod rosnącym obciążeniem.
Badacze sprawdzili między innymi GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 oraz Gemini 2.5. GPT-4o spadł z 91 procent trafień przy pięciu słowach do 57 procent przy dziesięciu i 15 procent przy czterdziestu. Claude 3.5 Sonnet trzymał poziom mniej więcej do dwudziestu słów, po czym osunął się do 24 procent przy czterdziestu. To pokazuje, że problem dotyczy także najnowszych, topowych modeli, a nie tylko starszych systemów.
Nie. Test Stroopa to celowo trudne, sztuczne zadanie zaprojektowane tak, by uwypuklić granice uwagi, a nie codzienny scenariusz pracy z AI. Modele wciąż świetnie radzą sobie z wieloma zadaniami i są realnym narzędziem pracy. Wniosek jest inny: im dłuższy i bardziej zagmatwany materiał, tym większe ryzyko, że AI zgubi sedno. To argument za prostszą, lepiej uporządkowaną treścią, a nie za rezygnacją z AI.
Jeśli nawet najlepsze modele tracą koncentrację na długim, gęstym tekście, to treść napisana zwięźle, z jasną strukturą i odpowiedzią na początku ma większą szansę zostać poprawnie zrozumiana i zacytowana. Dla GEO, czyli optymalizacji pod silniki generatywne, to praktyczna wskazówka: dziel materiał na krótkie sekcje, używaj nagłówków i list, odpowiadaj wprost na konkretne pytania. Ułatwiasz wtedy modelowi znalezienie i przytoczenie właśnie Twojej firmy.
Źródła: ScienceDaily, klasyczny test mózgu obnażył największą słabość AI, TechXplore, AI nie zdaje testu uwagi przy dłuższych listach słów, EurekAlert, AI nie zdaje klasycznego testu uwagi (PNAS Nexus).
Sprawdź, czy AI poleca Twoją firmę.
Zacznij od bezpłatnego audytu SEO i GEO. Sprawdzimy, jak modele AI opisują Twoją markę, i wskażemy priorytety zwiększające szanse na cytowanie.