Skip to end of metadata
Go to start of metadata

You are viewing an old version of this content. View the current version.

Compare with Current Restore this Version View Version History

« Previous Version 3 Next »

O objetivo das validações é verificar por meio de estatísticas e ferramentas graficas se a distribuição dos dados está conforme o esperado, e identificar possíveis outliers ou alteração sistemica nos dados.

#Estatísticas Descritivas

Dados de produção

O notebook utilizado para esta validação se encontra no seguinte caminho dentro do repositório:

Path: jobs/dev/04__layers/2023-03-09__descritiva_production_line

A bibloteca utilizada para manipulação de dados e calculo de estatísticas é o pandas, e as responsáveis pela criação de gráficos são matplotlib e seaborn, que são responsaveis pela criação de gráficos e integração com o pandas respectivamente,

Os dados são importados da tabela golden_batch__silver.database__production_line e convertidos para o objeto DataFrame da biblioteca Pandas

Criamos a função stats_and_outliers para calcular as estatísticas Q1 (