Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

O objetivo das validações é verificar por meio de estatísticas e ferramentas graficas se a distribuição dos dados está conforme o esperado, e identificar possíveis outliers ou alteração sistemica nos dados.

#Estatísticas Descritivas

Dados de produção

O notebook utilizado para esta validação se encontra no seguinte caminho dentro do repositório:

Path: jobs/dev/04__layers/2023-03-09__descritiva_production_line

A bibloteca utilizada para manipulação de dados e calculo de estatísticas é o pandas, e as responsáveis pela criação de gráficos são matplotlib e seaborn, que são responsaveis pela criação de gráficos e integração com o pandas respectivamente,

...

Os dados são importados da tabela golden_batch__silver.database__production_line e convertidos para o objeto DataFrame da biblioteca Pandas

...

Criamos a função stats_and_outliers para calcular as estatísticas Q1 (