AI-entuzjasta: szansa czy zagrożenie?

Przypadek z życia

Konferencja, 2025. Relacja z pierwszej ręki.

Historia: Księgowy w firmie samodzielnie napisał 9 agentów AI w ciągu 2 miesięcy używając Claude'a. Agenty ogarniają raporty finansowe, analizują i kategoryzują dokumenty. Efekt: zwolnienie 2 księgowych i 1 informatyka. Code review całego kodu wykonuje ChatGPT.

📊

Co zbudował

9 agentów AI · analiza raportów finansowych · kategoryzacja dokumentów · automatyczne przetwarzanie danych wejściowych · prawdopodobnie integracja z systemem księgowym

⚠️

Co niepokoi

Brak programisty w pętli · code review przez AI, nie przez człowieka · dane finansowe przez zewnętrzne API · jedna osoba rozumie cały system · brak formalnych testów

Dlaczego to ważne dla Ciebie jako menedżera: Ten scenariusz dzieje się teraz w wielu firmach. Twój dział może mieć własnego „księgowego" który już buduje podobne systemy — albo zaraz zacznie. Twoja rola to nie zablokować inicjatywę, lecz zadać właściwe pytania zanim system pójdzie na produkcję.

Co naprawdę zyskałeś

Nieuczciwe byłoby tylko straszenie. Ten człowiek osiągnął coś realnego.

⚡

Prędkość

2 miesiące zamiast roku projektu IT. Klasyczny projekt wdrożenia RPA w tej skali kosztuje 6–18 miesięcy i dziesiątki tysięcy złotych.

💰

Koszt wdrożenia

Ułamek budżetu tradycyjnego projektu. Licencja Claude API + czas jednej osoby. ROI prawdopodobnie dodatni już w 3. miesiącu.

🧠

Wiedza domenowa

Księgowy który rozumie procesy finansowe zbudował narzędzie dopasowane do rzeczywistości firmy — nie do wymagań ze specyfikacji.

🔄

Eliminacja powtarzalnej pracy

Kategoryzacja dokumentów, generowanie raportów, przetwarzanie danych — zadania które pochłaniały dziesiątki godzin miesięcznie działają teraz bez udziału człowieka. To właśnie Poziom 3 z M3.

📐

Dowód wykonalności

Pokazał że firma może to zrobić. Wcześniej IT mówiło „za skomplikowane", „za drogie", „za długo". Ten człowiek udowodnił że nie.

Wniosek: Wartość jest realna i potwierdzona. Zadaniem menedżera nie jest cofnąć zegar — tylko upewnić się że to co działa dziś, będzie działać bezpiecznie jutro.

Co ryzykujesz

Nie straszenie — konkretne scenariusze awarii z oszacowaniem prawdopodobieństwa.

Ryzyko	Jak może się zmaterializować	Prawdopod.	Skutek
Halucynacje w danych finansowych	Agent kategoryzuje faktury błędnie. Model „domyśla się" wartości gdy dane są niejednoznaczne. Raport wygląda poprawnie, liczby się nie zgadzają.	Wysokie	Błędy w sprawozdaniach, kontrola skarbowa
Dane finansowe przez zewnętrzne API	Dokumenty z danymi klientów, kontrahentów, wynagrodzeń przesyłane do Anthropic/OpenAI. RODO, tajemnica skarbowa, NDA z klientami.	Pewne	Naruszenie RODO, kary, utrata klientów
Bus factor = 1	Jedyna osoba która rozumie system idzie na L4, odchodzi lub jest niedostępna. System się wysypuje. Nikt nie wie jak naprawić.	Średnie	Paraliż procesów finansowych
Aktualizacja modelu łamie agenty	Anthropic/OpenAI aktualizuje model. Zachowanie agentów się zmienia. Nikt tego nie testuje automatycznie. Błędy wychodzą po tygodniu.	Średnie	Błędne dane przez tydzień
Code review przez AI ≠ code review	ChatGPT nie znajdzie błędów logiki biznesowej których nie rozumie. Nie sprawdzi zgodności z polskim prawem podatkowym. Potwierdzi kod który jest technicznie poprawny, ale biznesowo błędny.	Wysokie	Ukryte błędy w logice kategoryzacji
Brak dokumentacji	Za 6 miesięcy nikt — włącznie z autorem — nie pamięta dlaczego agent robi X a nie Y. Zmiana staje się niemożliwa bez przepisania od zera.	Wysokie	Dług techniczny, niemożność rozwoju
Kto odpowiada za błąd?	Agent kategoryzuje kosz jako przychód. US pyta kto podpisał raport. Odpowiedź „agent AI to zrobił" nie jest odpowiedzią prawną.	Niskie, ale…	Odpowiedzialność osobista

Największe ryzyko to nie „agent popełni błąd" — błędy popełniają też ludzie. Największe ryzyko to brak mechanizmu wykrywania błędów. Człowiek który się myli jest świadomy że może się mylić. Agent który halucynuje — nie.

Checklist menedżera

Zanim powiesz „tak" lub „nie" — zadaj te pytania. Każde „nie wiem" to punkt do sprawdzenia.

🔒 Dane i compliance

□

Jakie dane trafiają do modelu? Czy są tam dane osobowe klientów, numery kont, wynagrodzenia, dane kontrahentów? Czy to narusza NDA lub RODO?

□

Czy Anthropic/OpenAI trenuje na tych danych? Plany API domyślnie nie trenują — ale czy jest to potwierdzone w umowie? Czy jest włączone zero data retention?

□

Kto formalnie odpowiada za poprawność raportów? Podpisana jest osoba fizyczna. Czy ta osoba wie że AI generuje dane które podpisuje?

⚙️ Jakość i testy

□

Jak wiadomo że agent działa poprawnie? Czy jest zestaw testowych dokumentów z oczekiwanym wynikiem? Czy ktoś porównuje output z ręcznym przetworzeniem?

□

Co się dzieje gdy agent jest niepewny? Czy system ma mechanizm „nie wiem, eskaluj do człowieka"? Czy po prostu zgaduje?

□

Kto i jak często przegląda logi? Czy jest monitoring anomalii? Czy ktoś zobaczy jeśli 10% faktur będzie kategoryzowanych błędnie?

🚨 Ciągłość i bus factor

□

Co się stanie gdy autor jest niedostępny przez 3 tygodnie? Czy ktoś inny może obsłużyć awarię? Czy jest dokumentacja?

□

Czy jest ścieżka powrotu do pracy ręcznej? Jeśli system padnie w połowie miesiąca — czy firma jest w stanie domknąć księgowość bez niego?

□

Czy ktoś z IT lub zewnętrzny developer przejrzał kod? Nie AI — człowiek. Jeden przegląd przez kogoś z doświadczeniem w bezpieczeństwie.

Zasada: Jeśli na wszystkie pytania odpowiedź brzmi „tak" — masz dobrze zarządzaną automatyzację. Jeśli połowa odpowiedzi to „nie wiem" — masz pożar który jeszcze nie wybuchł.

Werdykt

Nie „blokować" ani „pozwolić na wszystko" — trzecia droga.

❌ Zła odpowiedź: „Stop"

Zablokowanie inicjatywy nie eliminuje potrzeby. Frustruje entuzjastę, traci wartość która już powstała, i popycha projekt do podziemia — gdzie będzie działać bez Twojej wiedzy.

Efekt: to samo ryzyko, zero kontroli.

❌ Zła odpowiedź: „Świetnie, jedź dalej"

Bez pytań, bez przeglądu, bez dokumentacji. Działa dziś — ale ty nie wiesz co się stanie za 3 miesiące gdy model zostanie zaktualizowany, autor zachoruje albo US poprosi o wyjaśnienie kategoryzacji.

Efekt: sukces który czeka na pierwszą awarię.

✓ Dobra odpowiedź: „Robimy to razem i robimy to porządnie"

Krótkoterminowo (2 tygodnie): Jeden przegląd kodu przez człowieka z kompetencjami — niekoniecznie wewnętrzny IT, może być zewnętrzny developer za 4h konsultacji. Weryfikacja zgodności z RODO: które dane trafiają gdzie. Lista przypadków brzegowych z oczekiwanym wynikiem.

Średnioterminowo (2 miesiące): Dokumentacja minimum viable: co robi każdy agent, jakie dane przetwarza, kto jest właścicielem. Mechanizm „nie wiem — eskaluj" dla niepewnych przypadków. Procedura awaryjna: co robimy gdy system nie działa.

Prawdziwy wniosek z tej historii: Ten księgowy pokazał że bariera wejścia do automatyzacji jest już tak niska że każdy zmotywowany pracownik może zbudować system klasy enterprise. To jest trwała zmiana — nie wyjątek.

Twoje zadanie jako menedżera to nie oceniać czy potrafi — bo już udowodnił że potrafi. Twoje zadanie to zbudować środowisko w którym inicjatywa + odpowiedzialność idą w parze.