Skip to content

Isk4R1oT/llmops-cc

Repository files navigation

LLMOps Plugin для Claude Code

Safety-critical LLM inference infrastructure plugin. Plan, size, deploy, observe, profile with risk-tiered discipline and multi-level RCA.

Status: v0.1.0 (pre-alpha, в активной разработке)

Что это

Это не ещё один AI-помощник для DevOps. Это инструмент с дисциплинарным паттерном для домена где AI до сих пор не пускают:

  • Ошибка в VRAM расчёте → OOM в проде ночью
  • Неверный engine flag → потеря 30% throughput
  • Пропущенный алерт → каскадный отказ

В обычном кодинге плохой ответ ведёт к багу. В inference — к утечке тысяч долларов в час.

Что плагин делает

15 user-facing skills с risk-tiered ceremony:

Tier 0 (read-only, zero ceremony):

  • /llmops:status — health check (~5 секунд)
  • /llmops:explore — what-if calculator
  • /llmops:diagnose --quick — live snapshot
  • /llmops:review — decisions + telemetry timeline + drift detection

Tier 1 (Plan + Apply + auto-verify, reversible):

  • /llmops:tune — config tweak с auto-rollback
  • /llmops:scale-out / scale-in — replica adjust
  • /llmops:cache-toggle — prefix cache enable/disable
  • /llmops:observe — Prometheus + Grafana up

Tier 2 (focused, specialized agent):

  • /llmops:diagnose --range — historical analysis via metrics-analyst
  • /llmops:profile --level X — multi-level profiling
  • /llmops:rca — automated root-cause walk

Tier 3 (full 5-phase + plan-checker):

  • /llmops:plansizegeneratedeployrollout
  • /llmops:migrate-model (Week 6)
  • /llmops:bootstrap (composite, Week 6)
  • /llmops:rollback (with disable-model-invocation: true)

И 4 specialized agents с конкретным technical justification:

  • plan-checker — independent review для Tier 3
  • benchmark-runner — L1 app profile output isolation
  • metrics-analyst — L2/L4 telemetry isolation
  • kernel-profiler — L3 Nsight isolation

Plus standalone Python package llmops_calc — inference calculator который на голову выше существующих (gpu_poor, InferSim, llm-analysis): supports MHA/GQA/MLA/SWA, prefix-cache distributions, Monte Carlo concurrency, engine-aware multipliers.

Установка — quickstart

В Claude Code:

/plugin marketplace add Isk4R1oT/llmops-cc
/plugin install llmops@llmops-cc
/llmops:setup       # interactive: writes secrets to ~/.claude/settings.json
# (restart Claude Code so MCP servers pick up the new env)
/llmops:doctor      # verify install
/llmops:explore     # first useful command

/llmops:setup работает по паттерну git config --edit: открывает ~/.claude/settings.json в твоём редакторе ($VISUAL / $EDITOR / платформенный дефолт — TextEdit на mac, Notepad на Windows, nano/vi на Linux). Если файла нет — создаёт заготовку с понятными плейсхолдерами:

{
  "env": {
    "HF_TOKEN": "<paste hf_... from https://huggingface.co/settings/tokens>",
    "RUNPOD_API_KEY": "<paste rpa_... from https://www.runpod.io/console/user/settings>",
    "CONTEXT7_API_KEY": "<paste from https://context7.com/dashboard, or remove this key>"
  }
}

Ты вставляешь токены прямо в редакторе, сохраняешь, закрываешь. Скрипт валидирует JSON. Токены никогда не попадают ни в чат-транскрипт, ни в shell history. После — рестарт Claude Code и /llmops:doctor.

Альтернатива — открой ~/.claude/settings.json руками в любом редакторе и добавь блок env. /llmops:doctor печатает готовый JSON-сниппет для отсутствующих переменных.

/llmops:doctor затем проверит:

  • Python ≥3.11 + pyyaml + jinja2
  • env vars (HF_TOKEN обязателен; RUNPOD_API_KEY, CONTEXT7_API_KEY рекомендованы)
  • Plugin file integrity (23 skills + 4 agents + lib + data + llmops_calc)
  • Optional tools (docker, nvidia-smi, dcgmi, nsys, ncu, vllm) — какой skill их требует
  • data/gpu-pricing.json freshness (TTL Rule 10)

Doctor выведет markdown-отчёт с ✅/❌ + конкретный fix command для каждой не-passing проверки.

Where do secrets live?

Канонический путь — ~/.claude/settings.json, поле env. Это работает одинаково на macOS, Linux и Windows (Claude Code сам читает этот файл независимо от платформы). Пример:

{
  "env": {
    "HF_TOKEN": "hf_...",
    "RUNPOD_API_KEY": "rpa_...",
    "CONTEXT7_API_KEY": "..."
  }
}

.mcp.json плагина использует ${HF_TOKEN}/${RUNPOD_API_KEY}/ ${CONTEXT7_API_KEY} — Claude Code подставляет значения из settings.json в окружение MCP-серверов при старте. Поэтому не нужно ничего экспортировать в ~/.zshrc/~/.bashrc/PowerShell profile — это раньше было unix-only и ломало fresh-install UX на Windows. После правки settings.json обязательно перезапустить Claude Code.

Python deps

Минимум: pyyaml, jinja2 (всё что плагин использует напрямую). Установка:

pip install pyyaml jinja2

Опциональные (для конкретных skills):

  • docker (для /llmops:deploy --target=local)
  • nvidia-smi или dcgmi (для /llmops:profile --level=gpu)
  • nsys + ncu (Nsight, для /llmops:profile --level=kernel)
  • vllm CLI (для /llmops:profile --level=app)

Recommended companion skills (RunPod ops)

Этот плагин delegируется к RunPod MCP для всех инфраструктурных операций — мы даём дисциплину, RunPod даёт поды. Дополнительно рекомендуется установить нативные RunPod агент-скиллы для прямых ops вне нашего Tier 3 пайплайна:

npx skills add runpod/skills

Это добавит flash (serverless @Endpoint deploys) и runpodctl (CLI: пулс, файлы, SSH, billing). Подробнее в RUNPOD_INTEGRATION.md.

Документация

  • LLMOPS_PLUGIN_FINAL_PLAN.md — полный архитектурный план (источник истины)
  • DISCIPLINE.md — 12 правил которые НИКОГДА не пропускаются
  • MIGRATIONS.md — version-keyed breaking changes от upstream
  • RUNPOD_INTEGRATION.md — как наш плагин связывается с RunPod MCP + agent skills

Roadmap

  • MVP (6.5 недель): все 8 skills + 4 agents + llmops_calc 5 layers + vLLM + SGLang
  • Phase 2: TensorRT-LLM, Bedrock, AWS/GCP/Azure MCP
  • Phase 3: Langfuse/Opik tracing, multi-region deployments

License

MIT

About

Safety-critical LLM inference infrastructure plugin for Claude Code — discipline-driven sizing, multi-level profiling, audit trail, RunPod integration.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors