thumbnail

운영이 먼저 터진다: 에이전트/정책/인프라가 한꺼번에 올 때 팀이 먼저 박아야 할 것

새 기능은 매주 나온다. 문제는 팀이 그걸 “운영까지” 같이 소화할 수 있냐는 거다.

요즘 터지는 건 기능이 아니라 운영이다. 누가 눌렀는지, 어디까지 승인됐는지, 로그가 어디에 남는지. 이 셋이 한 번에 안 나오면 그날 밤부터 사고다.

아래는 내가 위키 상단에 박아둔 문장들이다.

벤더가 끊기면 “대체 모드”가 없어서 운영이 멈춘다

AI를 쓰는 팀이 종종 착각하는 게 있다. 기술이 되면 되는 줄 안다. 그런데 정책/조달/사용 조건이 충돌하면, 기술적으로는 멀쩡해도 운영이 멈춘다.

Anthropic과 국방부 관련 기사에서 읽히는 건 감정의 문제가 아니라 ‘조건’의 문제다. 한쪽은 사용 조건을 지키라고 하고, 다른 쪽은 조직의 요구를 넣으려 한다. 결국 합의가 안 되면, 운영은 멈출 수밖에 없다. (참고자료)

그래서 도입 첫날부터 이 문장부터 박아둔다.

내가 본 대부분의 장애는 “모델이 안 똑똑해서”가 아니라 “대체 경로가 없어서” 길어진다.

Perplexity의 ‘컴퓨터 에이전트가 다른 에이전트를 돌린다’는 얘기는 멋져 보이지만, 실무로 가져오면 표면적이 늘어난다.

서브 에이전트가 늘어나는 순간부터 기록이 흩어진다. 그날 밤 “누가 뭘 했지?”를 찾는 데 30분을 쓰면, 이미 운영은 진 거다.

그래서 오케스트레이션 얘기가 나오면, 모델보다 “누가/언제/무슨 권한으로 실행했는지” 로그부터 챙긴다. (참고자료)

그리고 Claude가 ‘글쓰기 일을 따냈다’는 기사에서 내가 읽은 건 모델 자랑이 아니라 프로세스다. 글은 결국 “초안→편집→검수”를 몇 번 도느냐에 따라 품질이 정해진다. (참고자료)

에이전트도 똑같다. 결과물이 PR이든 문서든, 검수 루프가 없는 자동화는 언젠가 사고가 된다.

아래는 내가 위키 상단에 박는 버전이다. 숫자는 팀 사정에 맞게 바꾸면 된다.

기본값은 ‘제안’. 자동 실행은 예외 + 승인 범위는 PR/티켓 중 한 곳에만 남긴다(둘 다 금지)
중단 규칙: 동일 실패 3회면 강제 중단 + 사람 호출(상태만 업데이트)
로그 4필드 고정: 주체/리소스/시간/권한
대체 플랜: 벤더/정책 이슈로 끊기면 ‘최소 기능 모드’로 전환(기능 축소 + 공지) (예: 자동 실행 OFF, 제안만 허용, 채널 입력은 내부만, 로그/승인만 남기기)
채널 규칙: 야간 알림은 온콜만, 48시간 무응답이면 재할당
확장 기준: 되돌리기/대체 가능/증거(로그) 3개가 다 있으면 밀고, 하나라도 없으면 멈춘다

이 6줄이 완벽한 운영 체계는 아니다. 그래도 “기능은 되는데 운영이 막혀서 멈추는” 종류의 사고를 줄여준다.

Computerworld — Anthropic to Department of Defense: Drop dead
- https://www.computerworld.com/article/4138860/anthropic-to-department-of-defense-drop-dead.html
Computerworld — Perplexity’s new Computer agent will run other agents for you
- https://www.computerworld.com/article/4138723/perplexitys-new-computer-agent-will-run-other-agents-for-you.html
Computerworld — Claude 3 snares itself regular writing gig
- https://www.computerworld.com/article/4138696/claude-3-snares-itself-regular-writing-gig.html