Gli incidenti vengono gestiti con il pilota automatico finché un essere umano non ha bisogno di decidere
Quando viene attivato un avviso, l'agente esegue il triage, esegue la telemetria, fa riferimenti incrociati agli incidenti precedenti e gestisce il runbook, in modo che gli esseri umani arrivino a un incidente caldo, non a uno freddo.
Il costo degli incidenti non riguarda solo le interruzioni; è il tempo umano perso per raccogliere il contesto. Gli agenti possono eseguire la raccolta (e la maggior parte dei passaggi di risoluzione noti) in pochi secondi, in modo che gli operatori arrivino con una situazione già definita.
I primi 5 minuti di un incidente
- 01
Triage e arricchimento
Gli avvisi vengono deduplicati, correlati alle modifiche recenti e a cui viene assegnata una gravità ponderata con confidenza.
- 02
Esecuzione del runbook
Per i modelli noti, l'agente gestisce il runbook (rollback, ridimensionamento, failover) con i log allegati all'incidente.
- 03
Consegna o risolvi
Gli incidenti risolti si chiudono con uno stub post-mortem; quelli irrisolti vengono consegnati al servizio di guardia con il contesto completo.
Capacità
Libreria runbook
I tuoi runbook diventano eseguibili dall'agente, con modalità di prova per flussi non attendibili.
Preparazione post-mortem
La sequenza temporale, le differenze e la superficie interessata vengono assemblate automaticamente per ogni incidente.
Stima del raggio di esplosione
Gli agenti quantificano l'ambito (inquilini, utenti, servizi) come parte del triage.
Modificare la correlazione
Le distribuzioni recenti, le modifiche alla configurazione e i cambiamenti di flag vengono incrociati con le finestre di avviso.