Nota: O seguinte artigo irá ajudá-lo com: Prepare-se para AIOps preparando seus dados
O mercado de inteligência artificial para operações de TI (AIOps) crescerá de US$ 13,5 bilhões em 2020 para mais de US$ 40 bilhões em 2026, de acordo com a Mordor Intelligence. Esse crescimento maciço revela a crescente importância da disponibilidade contínua ou de garantir que os aplicativos e serviços essenciais de uma empresa estejam sempre ativos e com bom desempenho.
Alcançar alta disponibilidade tornou-se um imperativo absoluto para os negócios — basta perguntar ao Slack ou ao Facebook o que acontece quando os serviços ficam inativos. O tempo de inatividade pode fazer com que as empresas percam receita (às vezes na ordem de milhões de dólares por hora), interrompam as operações internas e comprometam a fidelidade do cliente.
Mas, embora manter a disponibilidade seja fundamental, evitar interrupções de serviço em nossos ecossistemas de TI complexos e distribuídos também é muito difícil.
É aqui que o uso estratégico de AIOps pode ajudar. Uma solução AIOps de última geração pode ajudar as equipes de DevOps e de engenharia de confiabilidade do site (SRE) a melhorar a confiabilidade do serviço, detectando possíveis problemas no início do ciclo de vida do incidente, antes que eles afetem os negócios. E uma ferramenta bem implementada pode agilizar a resposta a incidentes, identificando quem deve responder, dando a essa equipe contexto para determinar o curso de ação correto e reconhecendo padrões para garantir que esses problemas não ocorram novamente.
Ao garantir menos tempo de inatividade e mais continuidade dos negócios, o AIOps está se tornando rapidamente a solução sem a qual as empresas modernas não podem viver. Mas há uma ressalva bastante grande: resultados bem-sucedidos dependem de bons dados.
VEJA: Analytics: transformando a ciência de big data em estratégia de negócios (PDF gratuito) (TechRepublic)
Lixo dentro, lixo fora
A diferença entre um resultado de AIOps bem-sucedido e um com falha está na configuração e implementação da ferramenta. Algumas pessoas esperam poder comprar uma solução AIOps, jogar dados na tecnologia e ela funciona magicamente. A realidade é: as equipes de tecnologia precisam orquestrar as soluções de AIOps — e toda a tecnologia orientada por IA, aliás — para gerar resultados de negócios bem-sucedidos.
Os melhores resultados geralmente ocorrem quando um provedor de AIOps ajuda o cliente a criar uma estratégia de AIOps antes de implementar a ferramenta.
Em muitos casos, os fornecedores de AIOps ajudam os clientes a orquestrar a tecnologia para resolver seus problemas específicos. Eles podem ajudar as equipes de tecnologia a entender a diferença entre dados bons e ruins, escolher os dados corretos e definir expectativas.
Se implementado corretamente, o AIOps pode ajudar as equipes de DevOps e SRE a resolver incidentes com confiança, economizando tempo para tarefas de maior valor. Se a implementação falhar, bem, as pessoas encontrarão a verdade por trás do velho ditado “entrar lixo, sair lixo”.
De quantos dados você precisa?
Resultados bem-sucedidos orientados por IA são frequentemente associados a projetos multibilionários e big data em toda a empresa. A realidade é que a maioria das empresas modernas produz muitos dados para colher os benefícios da adoção de AIOps. E as próprias empresas também não precisam ser particularmente grandes. Desde que a ferramenta AIOps tenha o a dados de qualidade, a quantidade de dados necessária é muito baixa.
Por exemplo, um dos clientes de AIOps mais ativos com quem trabalhei também tem uma das menores equipes de tecnologia. Para ser claro, esse cliente aplicou práticas modernas de DevOps para eliminar a labuta automatizando todos os processos manuais possíveis e, assim, manteve um departamento de TI elegante. Mas, como resultado, a solução AIOps totalmente implementada faz muito trabalho pesado nos bastidores, com um sucesso surpreendente.
VEJA: Melhores ferramentas e serviços de monitoramento de sites 2022 (TechRepublic)
Como você pode obter dados melhores?
O Manual SRE do Google descreve como melhorar a qualidade dos dados e quais dados são mais importantes para o monitoramento. O princípio abrangente: Mantenha-o simples. Mais dados levam à confusão e complexidade, o que causa problemas.
O Google usa quatro métricas específicas voltadas para o consumidor, o que chama de “sinais dourados”, para monitorar o desempenho de um aplicativo ou serviço:
- Latência: o tempo que leva para atender uma solicitação bem-sucedida e uma solicitação com falha
- Tráfego: a demanda total na rede
- Erros: o número de solicitações com falha
- Saturação: a carga em serviços e redes
Embora os sinais dourados do Google possam funcionar para algumas empresas, eles certamente não são uma solução para todos. Afinal, os AIOps podem atender a uma ampla variedade de casos de uso de TI.
Em vez de lançar todos os dados disponíveis em um problema específico, as empresas devem descobrir seus próprios sinais de ouro.
Mas isso é apenas o sinal (ou Indicador de Nível de Serviço, na linguagem SRE). Diz-lhe o que aconteceu, não porque aconteceu. A sabedoria convencional afirma que você deve limitar sua coleta de dados apenas aos sinais dourados, pois todo o resto é ruído. Isso é verdade em termos de identificação de problemas, mas a outra telemetria pode fornecer contexto ou insights sobre por que o problema ocorreu. É aqui que o AIOps ajuda. Ao agrupar a telemetria contextual com os sinais dourados, você pode identificar a causalidade rapidamente, sem um aumento no volume de tickets ou paginação.
Em seguida, trata-se de garantir que os dados estejam limpos, completos e estruturados. Com fluxos de dados vazios, a ferramenta AIOps não pode aplicar seus recursos de aprendizado de máquina (ML). Tão importante quanto, os computadores gostam de dados consistentes e estruturados. Na verdade, o ML conta com recursos consistentes, essencialmente variáveis independentes, para produzir modelos e fazer previsões precisas.
Quais são os benefícios?
Fornecer uma ferramenta de AIOps com dados direcionados, limpos e estruturados pode ter grandes benefícios — pode essencialmente fazer a ciência de dados de uma empresa sem ter um cientista de dados na equipe! A ferramenta funciona ingerindo e normalizando dados em pilhas de tecnologia em silos, enquanto a inteligência artificial (IA) e o ML analisam essas informações para determinar os comportamentos operacionais normais do sistema. A solução então organiza os dados, dando às equipes de DevOps e SRE uma visão de 360 graus de toda a pilha de produção a partir de um sistema central de engajamento.
A solução AIOps também reduz o ruído do evento, isolando apenas os alertas relevantes para a resolução de problemas pertinentes. E ao enriquecer automaticamente os dados, ele fornece contexto adicional aos alertas que apresenta. Esse contexto ajuda as equipes de DevOps e SRE a entender e resolver rapidamente incidentes disruptivos.
Uma ferramenta AIOps robusta com dados suficientes também adota uma abordagem algorítmica para a análise da causa raiz. Com a análise de causa raiz, as equipes de DevOps e SRE sabem imediatamente por onde começar a solucionar problemas e podem diagnosticar o problema assim que abrirem um tíquete de incidente. Com um diagnóstico profundo, as equipes podem acelerar a resposta a incidentes, mas talvez o mais importante, corrigir essas causas-raiz para melhorar o modelo operacional.
À medida que as empresas lançam inovações em velocidade crescente, consumidores e equipes internas contam com esses aplicativos e serviços inovadores para funcionar perfeitamente. E AIOps é a tecnologia contemporânea que está gerando melhorias na disponibilidade. Mas, embora os benefícios sejam poderosos, a chave para alcançá-los é por meio de dados.