Incidentes, executados em piloto automático até que um ser humano necessite de decidir
Quando um alerta é acionado, o agente faz a triagem, extrai a telemetria, cruza as referências de incidentes anteriores e conduz o runbook – para que os humanos cheguem a um incidente quente, e não a um incidente frio.
O custo dos incidentes não é apenas a interrupção; é o tempo humano perdido para reunir contexto. Os agentes podem fazer a recolha (e a maioria dos passos de correção conhecidos) em segundos, para que os inquiridos cheguem com uma situação já definida.
Os primeiros 5 minutos de um incidente
- 01
Triagem e enriquecimento
Os alertas são desduplicados, correlacionados com alterações recentes e atribuídos a uma severidade ponderada pela confiança.
- 02
Execução de runbook
Para padrões conhecidos, o agente conduz o runbook — reversões, escalabilidade, failovers — com registos anexados ao incidente.
- 03
Entregar ou resolver
Os incidentes resolvidos são encerrados com um esboço postmortem; os não resolvidos são transferidos para o médico de serviço com contexto completo.
Capacidades
Biblioteca de runbooks
Os seus runbooks tornam-se executáveis pelo agente, com modos de simulação para fluxos não fiáveis.
Preparação pós-morte
A linha do tempo, as diferenças e a área de superfície afetada são montadas automaticamente para cada incidente.
Estimativa do raio da explosão
Os agentes quantificam o âmbito – inquilinos, utilizadores, serviços – como parte da triagem.
Correlação de alterações
As implementações recentes, alterações de configuração e inversões de sinalizadores têm referência cruzada com janelas de alerta.