AIRGAP Monitor
LLM 서버 상태 모니터링과 모델 선택의 단일 진입점
개요
AIRGAP Monitor 는 AIRGAP Studio 에서 모델 선택과 LLM 서버 상태 모니터링을 단독으로 담당 하는 확장입니다. 활성 모델, llama-server 상태, 응답 지표 등을 한 곳에서 확인하며, 모델 전환의 단일 진실원(single source of truth) 으로 동작합니다.
AIRGAP Assistant, AIRGAP Lite Assistant 등 LLM 을 소비하는 다른 확장은 모델 선택 UI 를 제공하지 않습니다. 모든 모델 전환 요청은 반드시 AIRGAP Monitor 를 통해 이루어집니다.
Monitor 패널
Activity Bar 의 Monitor 아이콘을 클릭하면 다음 정보를 한 번에 볼 수 있습니다.
- 현재 활성 모델 — 모델 이름, 컨텍스트 크기, GPU/CPU 모드
- llama-server 상태 —
/health응답, 포트, 가동 시간 - 성능 지표 — 메모리 사용량, 토큰/초 처리량, TTFT(첫 토큰까지 대기 시간)
- 모델 메타데이터 — chat template, 컨텍스트 권장값, 호환 프로파일
모델 선택 워크플로
- 명령 팔레트(
Ctrl+Shift+P) →AIRGAP: Select LLM Model실행 - QuickPick 목록에서 사용할 모델 선택
- llama-server 가 자동으로 재시작 (현재 작업은 중단되지 않음)
- 활성 모델 정보가 모든 LLM 소비 확장에 자동 전파
- AIRGAP Assistant / AIRGAP Lite Assistant 의 모델 표시가 read-only 로 갱신
모델 전환은 보통 수 초~수십 초 안에 완료됩니다. 모델 크기·디스크 속도에 따라 첫 로딩에서 더 걸릴 수 있습니다.
모델 변경 IPC 흐름
내부적으로 모델 전환은 다음 단계로 처리됩니다.
- 요청 작성 — AIRGAP Monitor 가
config-request.json을 atomic write - Launcher 감지 — C# Launcher 의 FileSystemWatcher 가 변경을 감지
- 요청 머지 —
MergeRequest가 현재 설정과 합쳐 새 llama-server 인자 산출 - 서버 재시작 —
RestartWithNewModelAsync가 기존 llama-server 종료 후 새 모델로 재기동 - 상태 갱신 — Launcher 가
config.json갱신 → Monitor 가active-model.jsonv2 재방출 - 구독자 자동 갱신 — LLM 소비 확장은
active-model.json을fs.watch로 read-only 구독하므로 별도 동작 없이 UI 가 갱신
이 흐름은 모델 전환의 단일 진실원이 AIRGAP Monitor 라는 원칙을 보장합니다. LLM 소비 확장은 config-request.json / config.json / active-model.json 을 직접 write 할 수 없습니다.
지원 모델 카탈로그
지원되는 모델 목록·권장 사양·호환 프로파일은 지원 모델 문서를 참고하세요. 신규 모델은 phase3/models-metadata.json + model-version.json 의 단일 진실원에 등록된 뒤 AIRGAP Monitor 의 QuickPick 에 자동 노출됩니다.
주의 사항
- AIRGAP Assistant 또는 AIRGAP Lite Assistant 안에서 모델을 직접 변경하는 UI 는 제공되지 않으며, 향후에도 추가되지 않습니다.
config-request.json/config.json/active-model.json/models-metadata.json의 직접 편집은 금지됩니다 — 일관성이 깨지면 llama-server 가 정상 기동하지 않을 수 있습니다.- 모델 전환 직후 일시적으로 응답이 지연될 수 있습니다(첫 추론 시 GGUF 메모리 매핑).
관련 문서
- AIRGAP Lite Assistant — 기본 어시스턴트
- AIRGAP Assistant — 자율 에이전트형 어시스턴트
- AI 어시스턴트 전환 — 어시스턴트 전환 절차
- 지원 모델 — 모델 카탈로그