Dodatek · M3 Kiedy AI robi dokładnie to co kazałeś — i to jest problem ← index
Model zrobił dokładnie to, o co go poproszono
Błąd był w braku nadzoru człowieka — nie w AI.
O czym jest ta plansza: 5 rzeczywistych przypadków z lat 2023–2026. W każdym z nich AI działało poprawnie. Problem leżał w tym, że człowiek nie przewidział konsekwencji — albo założył że system zadba o rzeczy które są poza jego zakresem.
Co AI robi dobrze
Wykonuje polecenie. Optymalizuje zadanie. Generuje wynik. Działa szybko i bez zmęczenia.
🚫
Czego AI nie robi
Nie pyta czy masz budżet. Nie sprawdza czy wyrok istnieje. Nie wie że konto może zostać zablokowane. Nie rozumie kontekstu biznesowego.
5 przypadków — jeden wzorzec
01 Blokada konta API bez ostrzeżenia → firma staje
02 Zmiana modelu z dnia na dzień → agenty przestają działać
03 Agent optymalizuje zadanie, nie koszty → rachunek x100
04 "Miękki" limit budżetu → 1000$ ponad limit, support milczy
05 Wymyślone wyroki sądowe złożone do sądu → 10 000$ kary
Przypadek 1 — Blokada konta
Jeden dostawca, jeden klucz API, zero dźwigni.
01
Brazylijski przedsiębiorca traci dostęp do produktu z dnia na dzień
X / @alvaromsamagaio · 2025
Brazylijski przedsiębiorca miał płatne konto Claude — osobiste i firmowe, zarządzające kluczami API dla produktu. Oba zostały zablokowane bez ostrzeżenia i bez podania przyczyny. Jedyna ścieżka odwołania: formularz Google bez gwarancji odpowiedzi. Support napisał wprost: "nie możemy potwierdzić powodu blokady ani jej zdjąć — wszystkie zapytania idą przez formularz". Firma stanęła.
Lekcja: Firma nie jest firmą AI — jest dzierżawcą cudzej decyzji. Jeden dostawca + jeden klucz API = zero dźwigni gdy coś pójdzie nie tak. Redundancja dostawców to nie paranoja — to architektura.
Dla menedżera: Zanim wdrożysz produkt oparty na jednym API — zadaj pytanie: co się dzieje z naszym biznesem jeśli ten dostawca zablokuje konto jutro rano? Jeśli odpowiedź brzmi "stajemy" — masz problem architektoniczny, nie techniczny.
Przypadek 2 — Wyłączenie modelu
Model "mądrzejszy" nie znaczy "kompatybilny wstecz".
02
OpenAI zastępuje GPT-4o modelem GPT-5 — agenty przestają działać
VentureBeat · OpenAI Help Center · 2025–2026
W sierpniu 2025 OpenAI zastąpił GPT-4o modelem GPT-5 jako domyślnym w ChatGPT. Automatyzacje i agenty zbudowane pod konkretny model przestały działać poprawnie z dnia na dzień — zmienił się styl odpowiedzi, format outputów, zachowanie przy edge case'ach. Fala protestów była tak duża, że OpenAI musiał przywrócić GPT-4o jako domyślny dla płacących użytkowników.
Lekcja: Przywiązanie do konkretnej wersji modelu bez testów regresji = katastrofa przy każdej aktualizacji. Pinuj wersje modelu w produkcji. Testuj po każdej zmianie dostawcy. "Działa dziś" ≠ "będzie działać jutro".
Praktycznie: W API zawsze podawaj konkretną wersję modelu (np. claude-sonnet-4-6 zamiast claude). To jedna linijka konfiguracji która chroni Cię przed nieplanowanymi zmianami zachowania.
Przypadki 3 i 4 — Przejedzenie budżetu
Agent optymalizuje zadanie, nie koszty. Monitoring kosztów to Twój obowiązek.
03
Rachunki x100 — agent nie wiedział że budżet to też parametr
OpenAI Dev Forum · 2025
Użytkownik API z miesięcznym zużyciem rzędu 10–20 centów zaczął otrzymywać rachunki po kilkadziesiąt dolarów miesięcznie. Agent działał "efektywnie" — wysyłał długie konteksty, powtarzał wywołania, optymalizował zadanie. Nikt nie powiedział mu, że budżet to też parametr.
Lekcja: Agent optymalizuje to co mu każesz optymalizować. Jeśli nie powiesz mu o kosztach — nie będzie ich uwzględniał. Zawsze ustaw twarde limity budżetowe zanim agent trafi na produkcję.
04
"Limit" okazał się miękki — 1000$ ponad próg, support nie odpowiada
OpenAI Dev Forum · 2024
Użytkownik polegał na twardym limicie wydatków organizacji jako zabezpieczeniu. System naliczył należności o ponad 1000 dolarów powyżej ustawionego limitu. Support nie odpowiadał. Limit okazał się "miękki" — działał jako wskazówka, nie jako twarde odcięcie.
Lekcja: "Limit" w dokumentacji nie zawsze znaczy twarde odcięcie. Weryfikuj mechanizm, nie tylko wartość. Brak alertów = brak kontroli. Ustaw alerty na 50% i 80% budżetu — nie czekaj na 100%.
Checklista przed produkcją: Czy masz twardy limit API? Czy masz alert przy 50% zużycia? Czy wiesz ile kosztuje jedno wywołanie Twojego agenta? Czy masz monitoring dzienny? Cztery pytania — cztery minuty — mogą oszczędzić tysiące złotych.
Przypadek 5 — Halucynacja prawna
Im trudniejszy argument — tym pewniej brzmi zmyślona odpowiedź.
05A
Mata v. Avianca — nieistniejące wyroki złożone do sądu federalnego
Seyfarth Shaw LLP · Nowy Jork · 2023
Doświadczony nowojorski prawnik Steven Schwartz poprosił ChatGPT o wyroki popierające jego argumentację. Model wymyślił sprawy które nie istniały — z nazwiskami sędziów, sygnaturami akt i treścią uzasadnień. Drugi prawnik przyznał przed sądem, że traktował ChatGPT jako "superwyszukiwarkę" i nie wiedział, że oznaczenie "F.3d" odnosi się do opublikowanego orzeczenia federalnego.
Kara: 5 000 dolarów + obowiązek napisania listów do sędziów których imiona AI sobie wymyśliło + publiczne zniszczenie reputacji kancelarii.
05B
Amir Mostafavi — 21 z 23 cytowanych wyroków było zmyślonych
CalMatters · Kalifornia · 2025
Adwokat użył ChatGPT do "poprawienia" już napisanej apelacji. Model dodał cytaty z wyroków — 21 z 23 było zmyślonych. Mostafavi przyznał, że nie przeczytał tekstu przed złożeniem do sądu. Sąd opublikował opinię jako ostrzeżenie dla całego środowiska prawniczego.
Kara: 10 000 dolarów — najwyższa tego rodzaju w historii Kalifornii. Model jest tym bardziej skłonny do halucynacji, im trudniejszy jest argument do udowodnienia — bo stara się być pomocny.
Zasada generalna: Pewność brzmienia odpowiedzi to nie to samo co prawdziwość treści. Weryfikacja źródeł to obowiązek człowieka — zawsze, szczególnie gdy stawki są wysokie.
Wspólna puenta
Pięć przypadków, jedna zasada.
Model wykonał dokładnie to, o co go poproszono.
Nie wiedział o budżecie — bo nikt mu nie powiedział. → Monitoring kosztów to Twoja robota. Nie wiedział, że konto może zostać zablokowane — bo to nie jego domena. → Redundancja i plan B to Twoja robota. Nie wiedział, że wyrok nie istnieje — bo pewność brzmienia to nie to samo co prawdziwość treści. → Weryfikacja to Twoja robota. Nie wiedział, że zmiana modelu złamie Twój system — bo kompatybilność wsteczna to nie jego problem. → Testy regresji to Twoja robota.
Jedno zdanie do zapamiętania: Kontekst biznesowy, nadzór i weryfikacja to Twoja robota — nie modelu. Deleguj zadania. Nie deleguj kontroli.
Checklista przed wdrożeniem agenta
Czy mam plan gdy dostawca zablokuje konto?
Czy pinuję konkretną wersję modelu?
Czy mam twardy limit budżetowy API?
Czy mam alert przy 50% zużycia?
Czy weryfikuję outputy przed użyciem?
Czy mam testy regresji po zmianie modelu?
Źródła: X/@alvaromsamagaio (2025) · VentureBeat, OpenAI Help Center (2025–2026) · OpenAI Developer Community Forum (2024–2025) · Seyfarth Shaw LLP (2023) · CalMatters (2025)