thumbnail

기능보다 운영이 먼저다: AI ‘플랫폼/에이전트’ 도입 때 사고를 막는 체크리스트

금요일 밤에 봇이 텔레그램까지 뻗고 나서야 깨달았다. “기능”이 아니라 “운영”이 먼저라는 걸.

이 글은 “어떤 제품이 좋다”를 고르려는 글이 아니다. 내가 팀 위키에 박아두는 질문과 규칙을 정리해 둔다.

그날 밤엔 결국 세 가지를 뒤졌다. (1) 누가 실행했는지, (2) 어디까지 승인했는지, (3) 로그가 어디에 남았는지. 이게 안 잡히면 기능은 전부 “사고”로 변한다.

그날 밤 내가 막힌 것도 딱 그거였다. 실행 흔적은 남았는데, “누가 눌렀는지”가 안 남아 있었다.

텔레그램 메시지는 남아 있는데, 누가 어떤 권한으로 실행했는지(그리고 그 실행이 어디까지 승인된 건지)는 PR/티켓/로그 어디에도 한 번에 모여 있지 않았다.

‘플랫폼’이라고 부르는 순간부터, 운영자가 필요해진다

Red Hat이 ‘AI 플랫폼’을 꺼내 들었다는 뉴스에서 나는 기능보다 단어에 눈이 갔다. 플랫폼이라는 말은 보통 “모델도, 툴도, 파이프라인도 한 덩어리로 묶어서 운영하겠다”라는 뜻으로 쓰인다. 개별 기능을 잘 쓰는 단계가 아니라, 팀이 책임을 지고 굴리는 단계로 넘어가는 신호다. (참고자료)

PoC가 끝나는 순간부터는 운영자/권한/로그가 따라온다. 이걸 늦추면 다음 장애 때 “누가 뭘 했지?”부터 싸운다.

상태(state)와 통제(control plane)가 어디로 가는지부터 본다

Computerworld가 다룬 ‘OpenAI의 stateful AI가 AWS에서 제공된다’는 소식은, 겉으론 배포 채널 하나가 늘어난 것처럼 보인다. 그런데 실제로는 팀들이 싸우는 지점이 바뀐다. 기능보다 “상태를 누가 들고 있나”, “통제를 어디서 하느냐”가 더 중요해진다. (참고자료)

내가 먼저 확인하는 건 이거다: 상태가 우리 DB에 남는지, 툴 권한/레이트리밋을 누가 바꾸는지, 장애 때 그 로그를 5분 안에 내가 꺼낼 수 있는지.

이게 정리되지 않으면, 나중에 장애가 나도 복구가 안 된다. 더 무서운 건 “복구는 되는데 책임이 안 남는” 상황이다.

정책/벤더 리스크는 기술 스펙보다 먼저 서비스를 멈춘다

정책/규제 리스크는 어느 날 “갑자기 못 씀”으로 온다. 그래서 도입 첫날부터 ‘기능 축소 모드’만이라도 설계해 둔다.

이건 아주 불편한데, 현실적이다.

특정 벤더/모델이 막히면 기능이 아니라 운영이 멈추고, 그 순간 고객 대응/내부 프로세스까지 같이 멈춘다.

그래서 도입 초기에 “멀티 벤더로 갈까?” 같은 거창한 결정을 하기 전에, 최소한의 탈출구만 만들어둔다.

핵심 워크플로우는 특정 모델의 특수 기능에 묶지 않기
프롬프트/정책/툴 스키마를 코드로 버전 관리
대체 모델로 ‘기능을 축소한 모드’라도 돌아가게 만들기

채널(텔레그램/슬랙) 확장은 자동화가 아니라 운영 표면적 확장

Vercel Chat SDK에 Telegram 어댑터가 추가됐다는 소식은 사소해 보일 수 있다. 그런데 현장에서 채널이 하나 늘어나는 건 거의 항상 “운영 표면적이 늘어난다”는 뜻이다. (참고자료)

같은 봇이라도 채널이 바뀌면 달라지는 게 있다.

권한(누가 쓸 수 있나)
로그(무슨 말을 누가 했나)
재할당(답이 없을 때 어디로 넘기나)
긴급도(푸시/멘션 정책)

우리 팀은 48시간 무응답이면 재할당하고, 야간 알림은 온콜만 받게 막아둔다(안 그러면 다음날 누가 “왜 나한테 왔지?”로 싸운다).

여기서 규칙 없이 확장하면, 나중에 팀이 대화 기록을 뒤지며 싸운다. 채널 확장은 기능 릴리스가 아니라 운영 변경이다.

위키 상단 6줄(이거 없으면 일단 멈춘다)

기본값은 ‘제안’. 자동 실행은 예외 + “어디까지 승인했는지” 범위 기록
상태는 가능하면 우리 저장소에 남기기(불가하면 최소 메타데이터: 요청ID/승인자/툴호출 로그만이라도 우리 쪽에 남기기)
키/정책/툴 권한 변경은 PR로만
로그 4필드(주체/리소스/시간/권한) 고정
위험 작업은 Draft + 승인 2명
링크/토큰 TTL 24h 시작, 연장은 수동

이 6줄이 있으면, 적어도 “누가 뭘 결정했는지”를 놓치지 않는다. 그게 운영의 시작이다.

참고자료

The New Stack — Red Hat introduces its first out-and-out AI platform
- https://thenewstack.io/red-hat-introduces-its-first-out-and-out-ai-platform/
Computerworld — OpenAI launches stateful AI on AWS, signaling a control-plane power shift
- https://www.computerworld.com/article/4138831/openai-launches-stateful-ai-on-aws-signaling-a-control-plane-power-shift-2.html
Vercel Changelog — Chat SDK adds Telegram adapter support
- https://vercel.com/changelog/chat-sdk-adds-telegram-adapter-support

zzodosa life

이 블로그 검색

기능보다 운영이 먼저다: AI ‘플랫폼/에이전트’ 도입 때 사고를 막는 체크리스트

기능보다 운영이 먼저다: AI ‘플랫폼/에이전트’ 도입 때 사고를 막는 체크리스트

‘플랫폼’이라고 부르는 순간부터, 운영자가 필요해진다

상태(state)와 통제(control plane)가 어디로 가는지부터 본다

정책/벤더 리스크는 기술 스펙보다 먼저 서비스를 멈춘다

채널(텔레그램/슬랙) 확장은 자동화가 아니라 운영 표면적 확장

위키 상단 6줄(이거 없으면 일단 멈춘다)

참고자료

댓글

댓글 쓰기