AIRGAP StudioAIRGAP Studio

AIRGAP Monitor

LLM 서버 상태 모니터링과 모델 선택의 단일 진입점

개요

AIRGAP Monitor 는 AIRGAP Studio 에서 모델 선택과 LLM 서버 상태 모니터링을 단독으로 담당 하는 확장입니다. 활성 모델, llama-server 상태, 응답 지표 등을 한 곳에서 확인하며, 모델 전환의 단일 진실원(single source of truth) 으로 동작합니다.

AIRGAP Assistant, AIRGAP Lite Assistant 등 LLM 을 소비하는 다른 확장은 모델 선택 UI 를 제공하지 않습니다. 모든 모델 전환 요청은 반드시 AIRGAP Monitor 를 통해 이루어집니다.

Monitor 패널

Activity Bar 의 Monitor 아이콘을 클릭하면 다음 정보를 한 번에 볼 수 있습니다.

  • 현재 활성 모델 — 모델 이름, 컨텍스트 크기, GPU/CPU 모드
  • llama-server 상태/health 응답, 포트, 가동 시간
  • 성능 지표 — 메모리 사용량, 토큰/초 처리량, TTFT(첫 토큰까지 대기 시간)
  • 모델 메타데이터 — chat template, 컨텍스트 권장값, 호환 프로파일

모델 선택 워크플로

  1. 명령 팔레트(Ctrl+Shift+P) → AIRGAP: Select LLM Model 실행
  2. QuickPick 목록에서 사용할 모델 선택
  3. llama-server 가 자동으로 재시작 (현재 작업은 중단되지 않음)
  4. 활성 모델 정보가 모든 LLM 소비 확장에 자동 전파
  5. AIRGAP Assistant / AIRGAP Lite Assistant 의 모델 표시가 read-only 로 갱신

모델 전환은 보통 수 초~수십 초 안에 완료됩니다. 모델 크기·디스크 속도에 따라 첫 로딩에서 더 걸릴 수 있습니다.

모델 변경 IPC 흐름

내부적으로 모델 전환은 다음 단계로 처리됩니다.

  1. 요청 작성 — AIRGAP Monitor 가 config-request.json 을 atomic write
  2. Launcher 감지 — C# Launcher 의 FileSystemWatcher 가 변경을 감지
  3. 요청 머지MergeRequest 가 현재 설정과 합쳐 새 llama-server 인자 산출
  4. 서버 재시작RestartWithNewModelAsync 가 기존 llama-server 종료 후 새 모델로 재기동
  5. 상태 갱신 — Launcher 가 config.json 갱신 → Monitor 가 active-model.json v2 재방출
  6. 구독자 자동 갱신 — LLM 소비 확장은 active-model.jsonfs.watch 로 read-only 구독하므로 별도 동작 없이 UI 가 갱신

이 흐름은 모델 전환의 단일 진실원이 AIRGAP Monitor 라는 원칙을 보장합니다. LLM 소비 확장은 config-request.json / config.json / active-model.json직접 write 할 수 없습니다.

지원 모델 카탈로그

지원되는 모델 목록·권장 사양·호환 프로파일은 지원 모델 문서를 참고하세요. 신규 모델은 phase3/models-metadata.json + model-version.json 의 단일 진실원에 등록된 뒤 AIRGAP Monitor 의 QuickPick 에 자동 노출됩니다.

주의 사항

  • AIRGAP Assistant 또는 AIRGAP Lite Assistant 안에서 모델을 직접 변경하는 UI 는 제공되지 않으며, 향후에도 추가되지 않습니다.
  • config-request.json / config.json / active-model.json / models-metadata.json 의 직접 편집은 금지됩니다 — 일관성이 깨지면 llama-server 가 정상 기동하지 않을 수 있습니다.
  • 모델 전환 직후 일시적으로 응답이 지연될 수 있습니다(첫 추론 시 GGUF 메모리 매핑).

관련 문서