Kiedy AI robi dokładnie to co kazałeś — i to jest problem

Model zrobił dokładnie to, o co go poproszono

Błąd był w braku nadzoru człowieka — nie w AI.

O czym jest ta plansza: 5 rzeczywistych przypadków z lat 2023–2026. W każdym z nich AI działało poprawnie. Problem leżał w tym, że człowiek nie przewidział konsekwencji — albo założył że system zadba o rzeczy które są poza jego zakresem.

⚡

Co AI robi dobrze

Wykonuje polecenie. Optymalizuje zadanie. Generuje wynik. Działa szybko i bez zmęczenia.

🚫

Czego AI nie robi

Nie pyta czy masz budżet. Nie sprawdza czy wyrok istnieje. Nie wie że konto może zostać zablokowane. Nie rozumie kontekstu biznesowego.

5 przypadków — jeden wzorzec

01 Blokada konta API bez ostrzeżenia → firma staje

02 Zmiana modelu z dnia na dzień → agenty przestają działać

03 Agent optymalizuje zadanie, nie koszty → rachunek x100

04 "Miękki" limit budżetu → 1000$ ponad limit, support milczy

05 Wymyślone wyroki sądowe złożone do sądu → 10 000$ kary

Przypadek 1 — Blokada konta

Jeden dostawca, jeden klucz API, zero dźwigni.

Brazylijski przedsiębiorca traci dostęp do produktu z dnia na dzień

X / @alvaromsamagaio · 2025

Brazylijski przedsiębiorca miał płatne konto Claude — osobiste i firmowe, zarządzające kluczami API dla produktu. Oba zostały zablokowane bez ostrzeżenia i bez podania przyczyny. Jedyna ścieżka odwołania: formularz Google bez gwarancji odpowiedzi. Support napisał wprost: "nie możemy potwierdzić powodu blokady ani jej zdjąć — wszystkie zapytania idą przez formularz". Firma stanęła.

Lekcja: Firma nie jest firmą AI — jest dzierżawcą cudzej decyzji. Jeden dostawca + jeden klucz API = zero dźwigni gdy coś pójdzie nie tak. Redundancja dostawców to nie paranoja — to architektura.

Dla menedżera: Zanim wdrożysz produkt oparty na jednym API — zadaj pytanie: co się dzieje z naszym biznesem jeśli ten dostawca zablokuje konto jutro rano? Jeśli odpowiedź brzmi "stajemy" — masz problem architektoniczny, nie techniczny.

Przypadek 2 — Wyłączenie modelu

Model "mądrzejszy" nie znaczy "kompatybilny wstecz".

OpenAI zastępuje GPT-4o modelem GPT-5 — agenty przestają działać

VentureBeat · OpenAI Help Center · 2025–2026

W sierpniu 2025 OpenAI zastąpił GPT-4o modelem GPT-5 jako domyślnym w ChatGPT. Automatyzacje i agenty zbudowane pod konkretny model przestały działać poprawnie z dnia na dzień — zmienił się styl odpowiedzi, format outputów, zachowanie przy edge case'ach. Fala protestów była tak duża, że OpenAI musiał przywrócić GPT-4o jako domyślny dla płacących użytkowników.

Lekcja: Przywiązanie do konkretnej wersji modelu bez testów regresji = katastrofa przy każdej aktualizacji. Pinuj wersje modelu w produkcji. Testuj po każdej zmianie dostawcy. "Działa dziś" ≠ "będzie działać jutro".

Praktycznie: W API zawsze podawaj konkretną wersję modelu (np. claude-sonnet-4-6 zamiast claude). To jedna linijka konfiguracji która chroni Cię przed nieplanowanymi zmianami zachowania.

Przypadki 3 i 4 — Przejedzenie budżetu

Agent optymalizuje zadanie, nie koszty. Monitoring kosztów to Twój obowiązek.

Rachunki x100 — agent nie wiedział że budżet to też parametr

OpenAI Dev Forum · 2025

Użytkownik API z miesięcznym zużyciem rzędu 10–20 centów zaczął otrzymywać rachunki po kilkadziesiąt dolarów miesięcznie. Agent działał "efektywnie" — wysyłał długie konteksty, powtarzał wywołania, optymalizował zadanie. Nikt nie powiedział mu, że budżet to też parametr.

Lekcja: Agent optymalizuje to co mu każesz optymalizować. Jeśli nie powiesz mu o kosztach — nie będzie ich uwzględniał. Zawsze ustaw twarde limity budżetowe zanim agent trafi na produkcję.

"Limit" okazał się miękki — 1000$ ponad próg, support nie odpowiada

OpenAI Dev Forum · 2024

Użytkownik polegał na twardym limicie wydatków organizacji jako zabezpieczeniu. System naliczył należności o ponad 1000 dolarów powyżej ustawionego limitu. Support nie odpowiadał. Limit okazał się "miękki" — działał jako wskazówka, nie jako twarde odcięcie.

Lekcja: "Limit" w dokumentacji nie zawsze znaczy twarde odcięcie. Weryfikuj mechanizm, nie tylko wartość. Brak alertów = brak kontroli. Ustaw alerty na 50% i 80% budżetu — nie czekaj na 100%.

Checklista przed produkcją: Czy masz twardy limit API? Czy masz alert przy 50% zużycia? Czy wiesz ile kosztuje jedno wywołanie Twojego agenta? Czy masz monitoring dzienny? Cztery pytania — cztery minuty — mogą oszczędzić tysiące złotych.

Przypadek 5 — Halucynacja prawna

Im trudniejszy argument — tym pewniej brzmi zmyślona odpowiedź.

05A

Mata v. Avianca — nieistniejące wyroki złożone do sądu federalnego

Seyfarth Shaw LLP · Nowy Jork · 2023

Doświadczony nowojorski prawnik Steven Schwartz poprosił ChatGPT o wyroki popierające jego argumentację. Model wymyślił sprawy które nie istniały — z nazwiskami sędziów, sygnaturami akt i treścią uzasadnień. Drugi prawnik przyznał przed sądem, że traktował ChatGPT jako "superwyszukiwarkę" i nie wiedział, że oznaczenie "F.3d" odnosi się do opublikowanego orzeczenia federalnego.

Kara: 5 000 dolarów + obowiązek napisania listów do sędziów których imiona AI sobie wymyśliło + publiczne zniszczenie reputacji kancelarii.

05B

Amir Mostafavi — 21 z 23 cytowanych wyroków było zmyślonych

CalMatters · Kalifornia · 2025

Adwokat użył ChatGPT do "poprawienia" już napisanej apelacji. Model dodał cytaty z wyroków — 21 z 23 było zmyślonych. Mostafavi przyznał, że nie przeczytał tekstu przed złożeniem do sądu. Sąd opublikował opinię jako ostrzeżenie dla całego środowiska prawniczego.

Kara: 10 000 dolarów — najwyższa tego rodzaju w historii Kalifornii. Model jest tym bardziej skłonny do halucynacji, im trudniejszy jest argument do udowodnienia — bo stara się być pomocny.

Zasada generalna: Pewność brzmienia odpowiedzi to nie to samo co prawdziwość treści. Weryfikacja źródeł to obowiązek człowieka — zawsze, szczególnie gdy stawki są wysokie.

Wspólna puenta

Pięć przypadków, jedna zasada.

Model wykonał dokładnie to, o co go poproszono.

Nie wiedział o budżecie — bo nikt mu nie powiedział. → Monitoring kosztów to Twoja robota. Nie wiedział, że konto może zostać zablokowane — bo to nie jego domena. → Redundancja i plan B to Twoja robota. Nie wiedział, że wyrok nie istnieje — bo pewność brzmienia to nie to samo co prawdziwość treści. → Weryfikacja to Twoja robota. Nie wiedział, że zmiana modelu złamie Twój system — bo kompatybilność wsteczna to nie jego problem. → Testy regresji to Twoja robota.

Jedno zdanie do zapamiętania: Kontekst biznesowy, nadzór i weryfikacja to Twoja robota — nie modelu. Deleguj zadania. Nie deleguj kontroli.

Checklista przed wdrożeniem agenta

□Czy mam plan gdy dostawca zablokuje konto?

□Czy pinuję konkretną wersję modelu?

□Czy mam twardy limit budżetowy API?

□Czy mam alert przy 50% zużycia?

□Czy weryfikuję outputy przed użyciem?

□Czy mam testy regresji po zmianie modelu?

  Źródła: X/@alvaromsamagaio (2025) · VentureBeat, OpenAI Help Center (2025–2026) ·
  OpenAI Developer Community Forum (2024–2025) · Seyfarth Shaw LLP (2023) · CalMatters (2025)