LLMOps Plugin для Claude Code

Safety-critical LLM inference infrastructure plugin. Plan, size, deploy, observe, profile with risk-tiered discipline and multi-level RCA.

Status: v0.1.0 (pre-alpha, в активной разработке)

Что это

Это не ещё один AI-помощник для DevOps. Это инструмент с дисциплинарным паттерном для домена где AI до сих пор не пускают:

Ошибка в VRAM расчёте → OOM в проде ночью
Неверный engine flag → потеря 30% throughput
Пропущенный алерт → каскадный отказ

В обычном кодинге плохой ответ ведёт к багу. В inference — к утечке тысяч долларов в час.

Что плагин делает

15 user-facing skills с risk-tiered ceremony:

Tier 0 (read-only, zero ceremony):

/llmops:status — health check (~5 секунд)
/llmops:explore — what-if calculator
/llmops:diagnose --quick — live snapshot
/llmops:review — decisions + telemetry timeline + drift detection

Tier 1 (Plan + Apply + auto-verify, reversible):

/llmops:tune — config tweak с auto-rollback
/llmops:scale-out / scale-in — replica adjust
/llmops:cache-toggle — prefix cache enable/disable
/llmops:observe — Prometheus + Grafana up

Tier 2 (focused, specialized agent):

/llmops:diagnose --range — historical analysis via metrics-analyst
/llmops:profile --level X — multi-level profiling
/llmops:rca — automated root-cause walk

Tier 3 (full 5-phase + plan-checker):

/llmops:plan → size → generate → deploy → rollout
/llmops:migrate-model (Week 6)
/llmops:bootstrap (composite, Week 6)
/llmops:rollback (with disable-model-invocation: true)

И 4 specialized agents с конкретным technical justification:

plan-checker — independent review для Tier 3
benchmark-runner — L1 app profile output isolation
metrics-analyst — L2/L4 telemetry isolation
kernel-profiler — L3 Nsight isolation

Plus standalone Python package llmops_calc — inference calculator который на голову выше существующих (gpu_poor, InferSim, llm-analysis): supports MHA/GQA/MLA/SWA, prefix-cache distributions, Monte Carlo concurrency, engine-aware multipliers.

Установка — quickstart

В Claude Code:

/plugin marketplace add Isk4R1oT/llmops-cc
/plugin install llmops@llmops-cc
/llmops:setup       # interactive: writes secrets to ~/.claude/settings.json
# (restart Claude Code so MCP servers pick up the new env)
/llmops:doctor      # verify install
/llmops:explore     # first useful command

/llmops:setup работает по паттерну git config --edit: открывает ~/.claude/settings.json в твоём редакторе ($VISUAL / $EDITOR / платформенный дефолт — TextEdit на mac, Notepad на Windows, nano/vi на Linux). Если файла нет — создаёт заготовку с понятными плейсхолдерами:

{
  "env": {
    "HF_TOKEN": "<paste hf_... from https://huggingface.co/settings/tokens>",
    "RUNPOD_API_KEY": "<paste rpa_... from https://www.runpod.io/console/user/settings>",
    "CONTEXT7_API_KEY": "<paste from https://context7.com/dashboard, or remove this key>"
  }
}

Ты вставляешь токены прямо в редакторе, сохраняешь, закрываешь. Скрипт валидирует JSON. Токены никогда не попадают ни в чат-транскрипт, ни в shell history. После — рестарт Claude Code и /llmops:doctor.

Альтернатива — открой ~/.claude/settings.json руками в любом редакторе и добавь блок env. /llmops:doctor печатает готовый JSON-сниппет для отсутствующих переменных.

/llmops:doctor затем проверит:

Python ≥3.11 + pyyaml + jinja2
env vars (HF_TOKEN обязателен; RUNPOD_API_KEY, CONTEXT7_API_KEY рекомендованы)
Plugin file integrity (23 skills + 4 agents + lib + data + llmops_calc)
Optional tools (docker, nvidia-smi, dcgmi, nsys, ncu, vllm) — какой skill их требует
data/gpu-pricing.json freshness (TTL Rule 10)

Doctor выведет markdown-отчёт с ✅/❌ + конкретный fix command для каждой не-passing проверки.

Where do secrets live?

Канонический путь — ~/.claude/settings.json, поле env. Это работает одинаково на macOS, Linux и Windows (Claude Code сам читает этот файл независимо от платформы). Пример:

{
  "env": {
    "HF_TOKEN": "hf_...",
    "RUNPOD_API_KEY": "rpa_...",
    "CONTEXT7_API_KEY": "..."
  }
}

.mcp.json плагина использует ${HF_TOKEN}/${RUNPOD_API_KEY}/ ${CONTEXT7_API_KEY} — Claude Code подставляет значения из settings.json в окружение MCP-серверов при старте. Поэтому не нужно ничего экспортировать в ~/.zshrc/~/.bashrc/PowerShell profile — это раньше было unix-only и ломало fresh-install UX на Windows. После правки settings.json обязательно перезапустить Claude Code.

Python deps

Минимум: pyyaml, jinja2 (всё что плагин использует напрямую). Установка:

pip install pyyaml jinja2

Опциональные (для конкретных skills):

docker (для /llmops:deploy --target=local)
nvidia-smi или dcgmi (для /llmops:profile --level=gpu)
nsys + ncu (Nsight, для /llmops:profile --level=kernel)
vllm CLI (для /llmops:profile --level=app)

Recommended companion skills (RunPod ops)

Этот плагин delegируется к RunPod MCP для всех инфраструктурных операций — мы даём дисциплину, RunPod даёт поды. Дополнительно рекомендуется установить нативные RunPod агент-скиллы для прямых ops вне нашего Tier 3 пайплайна:

npx skills add runpod/skills

Это добавит flash (serverless @Endpoint deploys) и runpodctl (CLI: пулс, файлы, SSH, billing). Подробнее в RUNPOD_INTEGRATION.md.

Документация

LLMOPS_PLUGIN_FINAL_PLAN.md — полный архитектурный план (источник истины)
DISCIPLINE.md — 12 правил которые НИКОГДА не пропускаются
MIGRATIONS.md — version-keyed breaking changes от upstream
RUNPOD_INTEGRATION.md — как наш плагин связывается с RunPod MCP + agent skills

Roadmap

MVP (6.5 недель): все 8 skills + 4 agents + llmops_calc 5 layers + vLLM + SGLang
Phase 2: TensorRT-LLM, Bedrock, AWS/GCP/Azure MCP
Phase 3: Langfuse/Opik tracing, multi-region deployments

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 58 Commits
.claude-plugin		.claude-plugin
.github/workflows		.github/workflows
agents		agents
data		data
hooks		hooks
lib		lib
llmops_calc		llmops_calc
profiles		profiles
runbooks		runbooks
skills		skills
templates		templates
tests		tests
.gitignore		.gitignore
.mcp.json		.mcp.json
DISCIPLINE.md		DISCIPLINE.md
LLMOPS_PLUGIN_FINAL_PLAN.md		LLMOPS_PLUGIN_FINAL_PLAN.md
MIGRATIONS.md		MIGRATIONS.md
README.md		README.md
RUNPOD_INTEGRATION.md		RUNPOD_INTEGRATION.md
pytest.ini		pytest.ini

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLMOps Plugin для Claude Code

Что это

Что плагин делает

Установка — quickstart

Where do secrets live?

Python deps

Recommended companion skills (RunPod ops)

Документация

Roadmap

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

LLMOps Plugin для Claude Code

Что это

Что плагин делает

Установка — quickstart

Where do secrets live?

Python deps

Recommended companion skills (RunPod ops)

Документация

Roadmap

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages