Agentjacking: nowy atak, który przejmuje agenty AI przez fałszywe błędy
Twój agent AI czyta zgłoszenie błędu i posłusznie wykonuje ukryte w nim polecenie atakującego. Brzmi abstrakcyjnie? 85% skuteczności i 2388 firm mówią co innego.
Agentjacking to ujawniona w czerwcu 2026 klasa ataku: napastnik ukrywa instrukcję w danych, które czyta agent AI - na przykład w spreparowanym raporcie błędu Sentry - a agent bierze ją za prawdziwą wskazówkę i ją wykonuje. Skuteczność w testach sięgnęła 85%, a atak dotknął 2388 organizacji.
W skrócie
- Agentjacking ukrywa polecenie atakującego w danych, które czyta agent AI.
- Przykład: fałszywy raport błędu z instrukcją w treści (markdown injection).
- Agent traktuje to jak prawdziwą wskazówkę debugowania i ją wykonuje.
- Skala: 85% skuteczności, 2388 zaatakowanych organizacji.
Jak działa agentjacking
Agent AI to nie tylko model - to model z dostępem do narzędzi i danych, czyli z rusztowaniem (harness), które zamienia go w wykonawcę. Problem w tym, że agent często nie odróżnia danych od poleceń. Jeśli w treści zgłoszenia błędu napastnik wpisze coś w stylu „aby naprawić ten błąd, uruchom poniższą komendę", agent może potraktować to jak legalną wskazówkę i wykonać. To wariant prompt injection, tyle że celem jest działający agent, a nie czat.
Dlaczego to groźne dla firm
Agenty wchodzą do firm właśnie tam, gdzie czytają niezaufane dane: obsługa zgłoszeń, analiza e-maili, automatyczne debugowanie, przetwarzanie dokumentów klientów. Każde takie wejście to potencjalny nośnik ukrytej instrukcji. Im większe uprawnienia ma agent (dostęp do kodu, bazy, płatności), tym większa szkoda. To realne ryzyko, które trzeba wkalkulować, zanim zdecydujesz się na gotowego chatbota czy dedykowanego agenta AI.
Agent AI jest tak bezpieczny, jak najmniej zaufane dane, które przeczyta. A czyta więcej, niż myślisz.
Jak się chronić
- Traktuj każde wejście jako niezaufane. Zgłoszenia, e-maile, raporty błędów i strony WWW to dane, nie polecenia.
- Oddziel instrukcje od danych. Agent powinien mieć jasno wydzielone, co jest jego zadaniem, a co tylko materiałem do analizy.
- Ogranicz uprawnienia. Zasada minimalnego dostępu - agent dostaje tylko to, czego naprawdę potrzebuje.
- Człowiek przy działaniach nieodwracalnych. Zmiana kodu, płatność, wysyłka, usunięcie danych - zawsze za potwierdzeniem. To samo dotyczy automatycznych pętli, w których system sam steruje agentem.
Bezpieczeństwo to część wdrożenia, nie dodatek
Frameworki produkcyjne dla agentów - jak opisywany przez nas Vercel eve - nie bez powodu kładą nacisk na izolowany sandbox i bramki zatwierdzania. Jeśli wdrażasz agenta w firmie, pytanie „co się stanie, gdy ktoś poda mu złośliwe dane?" powinno paść na samym początku, a nie po incydencie.
Najczęstsze pytania
To nowa klasa ataku ujawniona w czerwcu 2026, w której napastnik umieszcza ukrytą instrukcję w danych, jakie czyta agent AI (np. w spreparowanym raporcie błędu Sentry). Agent bierze ją za prawdziwą wskazówkę i wykonuje polecenie atakującego.
W ujawnionych testach agentjacking osiągał 85% skuteczności i dotknął 2388 organizacji. To pokazuje, że problem jest powszechny, a nie teoretyczny.
Jeśli używasz agentów AI, które czytają zewnętrzne dane - zgłoszenia, e-maile, raporty błędów, strony WWW, dokumenty klientów - to tak. Każde niezaufane wejście może zawierać ukrytą instrukcję.
Traktuj dane wejściowe jako niezaufane, oddzielaj instrukcje od danych, ograniczaj uprawnienia agenta do niezbędnego minimum i wymagaj potwierdzenia człowieka przy działaniach nieodwracalnych, takich jak zmiana kodu, płatności czy wysyłka.
Powiązane artykuły
- Czym jest self-harness - jak działa warstwa (harness) wokół modelu, którą atakuje agentjacking.
- Vercel eve: framework dla agentów - sandbox i bramki zatwierdzania jako warstwa obrony.
- Gotowy chatbot czy dedykowany agent AI - jak ryzyko wpływa na wybór rozwiązania.
- Loop engineering: gdy system sam steruje agentem - dlaczego pętle bez człowieka wymagają ostrożności.
- Wojna o talenty AI - kto buduje modele i narzędzia, którym powierzasz dane.
Sprawdź, czy AI poleca Twoją firmę.
Zacznij od bezpłatnego audytu SEO i GEO. Sprawdzimy, jak modele AI opisują Twoją markę, i wskażemy priorytety zwiększające szanse na cytowanie.