Metodologia CRISP-DM
Criado em 1996, CRISP-DM (Cross Industry Standard Process for Data Mining) consiste em um conjunto de boas práticas (aka metodologia) para se executar um projeto em Ciência de Dados, ou nos dias de hoje, popularmente chamado de Data Science.
ETAPAS DO MÉTODO
Entendimento do negócio
Entendimento dos dados
Preparação dos dados
Modelagem dos dados
Avaliação do Modelo
Deployment / Implementação
PILOTO: CEUSA & PORTINARI
ENTENDIMENTO DO NEGÓCIO:
O objetivo do projeto
Qual o objetivo deste trabalho?
O que queremos conhecer?
O que queremos mudar na área com esse projeto?
Já existe algo realizado ou em andamento feito por alguém? Quais os resultados?
Supondo que consigamos atingir o objetivo, o que vem depois? Como este trabalho será usado?
As premissas
Após a etapa de Análise Exploratória dos Dados muitas vezes temos mais clareza das premissas que devem ser assumidas. Sempre volte para a sua “Lista de Premissas” à medida que vai conhecendo melhor sua base de dados.
As premissas devem ser informadas para seu cliente desde o início. Isso é muito importante para que o cliente tenha clareza se o resultado da análise será realmente útil para ele. Infelizmente, vários trabalhos de análise são “invalidados” em uma reunião com o gestor ou cliente da análise pelo simples fato da premissa não ter sido informada antes do projeto iniciar. Exemplo: “Nossa, eu não sabia que você tinha pego dados do sistema XPTO. Esse sistema está cheio de problemas. Como vamos confiar em todas as análises que fez?”
Critérios de Sucesso
Diminuição esperada de 10% na taxa de churn de clientes (Métrica de Negócio);
Melhoria do KS do modelo de crédito para um patamar de pelo menos 30% (Métrica de Modelos);
Mitigar todos os riscos levantados pelo time de Controles Internos (Métrica Regulatória);
Planejamento do projeto
Roadmaps
Início da documentação
Todos os critérios e conhecimentos obtidos na etapa de “Entendimento de Negócio”;
Incluindo as premissas, riscos mapeados, custos x benefícios e critérios de sucesso.
Cronograma do projeto;
Análise exploratória e transformações de dados realizadas na base (filtros, correções, padronizações, tratamento de valores faltantes etc);
Estudo/modelo desenvolvido e suas conclusões;
Plano de implantação e acompanhamento;