O objetivo das validações é verificar por meio de estatísticas e ferramentas graficas se a distribuição dos dados está conforme o esperado, e identificar possíveis outliers ou alteração sistemica nos dados.
#Estatísticas Descritivas
Dados de produção
O notebook utilizado para esta validação se encontra no seguinte caminho dentro do repositório:
Path: jobs/dev/04__layers/2023-03-09__descritiva_production_line
A bibloteca utilizada para manipulação de dados e calculo de estatísticas é o pandas, e as responsáveis pela criação de gráficos são matplotlib e seaborn, que são responsaveis pela criação de gráficos e integração com o pandas respectivamente,
Os dados são importados da tabela golden_batch__silver.database__production_line
e convertidos para o objeto DataFrame da biblioteca Pandas
Criamos a função stats_and_outliers para calcular as estatísticas Q1 (
Add Comment