Safety-critical LLM inference infrastructure plugin. Plan, size, deploy, observe, profile with risk-tiered discipline and multi-level RCA.
Status: v0.1.0 (pre-alpha, в активной разработке)
Это не ещё один AI-помощник для DevOps. Это инструмент с дисциплинарным паттерном для домена где AI до сих пор не пускают:
- Ошибка в VRAM расчёте → OOM в проде ночью
- Неверный engine flag → потеря 30% throughput
- Пропущенный алерт → каскадный отказ
В обычном кодинге плохой ответ ведёт к багу. В inference — к утечке тысяч долларов в час.
15 user-facing skills с risk-tiered ceremony:
Tier 0 (read-only, zero ceremony):
/llmops:status— health check (~5 секунд)/llmops:explore— what-if calculator/llmops:diagnose --quick— live snapshot/llmops:review— decisions + telemetry timeline + drift detection
Tier 1 (Plan + Apply + auto-verify, reversible):
/llmops:tune— config tweak с auto-rollback/llmops:scale-out/scale-in— replica adjust/llmops:cache-toggle— prefix cache enable/disable/llmops:observe— Prometheus + Grafana up
Tier 2 (focused, specialized agent):
/llmops:diagnose --range— historical analysis via metrics-analyst/llmops:profile --level X— multi-level profiling/llmops:rca— automated root-cause walk
Tier 3 (full 5-phase + plan-checker):
/llmops:plan→size→generate→deploy→rollout/llmops:migrate-model(Week 6)/llmops:bootstrap(composite, Week 6)/llmops:rollback(withdisable-model-invocation: true)
И 4 specialized agents с конкретным technical justification:
plan-checker— independent review для Tier 3benchmark-runner— L1 app profile output isolationmetrics-analyst— L2/L4 telemetry isolationkernel-profiler— L3 Nsight isolation
Plus standalone Python package llmops_calc — inference calculator который на голову выше существующих (gpu_poor, InferSim, llm-analysis): supports MHA/GQA/MLA/SWA, prefix-cache distributions, Monte Carlo concurrency, engine-aware multipliers.
В Claude Code:
/plugin marketplace add Isk4R1oT/llmops-cc
/plugin install llmops@llmops-cc
/llmops:setup # interactive: writes secrets to ~/.claude/settings.json
# (restart Claude Code so MCP servers pick up the new env)
/llmops:doctor # verify install
/llmops:explore # first useful command
/llmops:setup работает по паттерну git config --edit: открывает
~/.claude/settings.json в твоём редакторе ($VISUAL / $EDITOR
/ платформенный дефолт — TextEdit на mac, Notepad на Windows, nano/vi
на Linux). Если файла нет — создаёт заготовку с понятными плейсхолдерами:
{
"env": {
"HF_TOKEN": "<paste hf_... from https://huggingface.co/settings/tokens>",
"RUNPOD_API_KEY": "<paste rpa_... from https://www.runpod.io/console/user/settings>",
"CONTEXT7_API_KEY": "<paste from https://context7.com/dashboard, or remove this key>"
}
}Ты вставляешь токены прямо в редакторе, сохраняешь, закрываешь.
Скрипт валидирует JSON. Токены никогда не попадают ни в чат-транскрипт,
ни в shell history. После — рестарт Claude Code и /llmops:doctor.
Альтернатива — открой ~/.claude/settings.json руками в любом редакторе
и добавь блок env. /llmops:doctor печатает готовый JSON-сниппет
для отсутствующих переменных.
/llmops:doctor затем проверит:
- Python ≥3.11 + pyyaml + jinja2
- env vars (
HF_TOKENобязателен;RUNPOD_API_KEY,CONTEXT7_API_KEYрекомендованы) - Plugin file integrity (23 skills + 4 agents + lib + data + llmops_calc)
- Optional tools (docker, nvidia-smi, dcgmi, nsys, ncu, vllm) — какой skill их требует
data/gpu-pricing.jsonfreshness (TTL Rule 10)
Doctor выведет markdown-отчёт с ✅/❌ + конкретный fix command для каждой не-passing проверки.
Канонический путь — ~/.claude/settings.json, поле env. Это
работает одинаково на macOS, Linux и Windows (Claude Code сам читает
этот файл независимо от платформы). Пример:
{
"env": {
"HF_TOKEN": "hf_...",
"RUNPOD_API_KEY": "rpa_...",
"CONTEXT7_API_KEY": "..."
}
}.mcp.json плагина использует ${HF_TOKEN}/${RUNPOD_API_KEY}/
${CONTEXT7_API_KEY} — Claude Code подставляет значения из
settings.json в окружение MCP-серверов при старте. Поэтому не
нужно ничего экспортировать в ~/.zshrc/~/.bashrc/PowerShell
profile — это раньше было unix-only и ломало fresh-install UX на
Windows. После правки settings.json обязательно перезапустить Claude
Code.
Минимум: pyyaml, jinja2 (всё что плагин использует напрямую). Установка:
pip install pyyaml jinja2Опциональные (для конкретных skills):
docker(для/llmops:deploy --target=local)nvidia-smiилиdcgmi(для/llmops:profile --level=gpu)nsys+ncu(Nsight, для/llmops:profile --level=kernel)vllmCLI (для/llmops:profile --level=app)
Этот плагин delegируется к RunPod MCP для всех инфраструктурных операций — мы даём дисциплину, RunPod даёт поды. Дополнительно рекомендуется установить нативные RunPod агент-скиллы для прямых ops вне нашего Tier 3 пайплайна:
npx skills add runpod/skillsЭто добавит flash (serverless @Endpoint deploys) и runpodctl
(CLI: пулс, файлы, SSH, billing). Подробнее в
RUNPOD_INTEGRATION.md.
- LLMOPS_PLUGIN_FINAL_PLAN.md — полный архитектурный план (источник истины)
- DISCIPLINE.md — 12 правил которые НИКОГДА не пропускаются
- MIGRATIONS.md — version-keyed breaking changes от upstream
- RUNPOD_INTEGRATION.md — как наш плагин связывается с RunPod MCP + agent skills
- MVP (6.5 недель): все 8 skills + 4 agents + llmops_calc 5 layers + vLLM + SGLang
- Phase 2: TensorRT-LLM, Bedrock, AWS/GCP/Azure MCP
- Phase 3: Langfuse/Opik tracing, multi-region deployments
MIT