Skip to end of metadata
Go to start of metadata

You are viewing an old version of this content. View the current version.

Compare with Current Restore this Version View Version History

« Previous Version 7 Next »

O objetivo das validações é verificar por meio de estatísticas e ferramentas graficas se a distribuição dos dados está conforme o esperado, e identificar possíveis outliers ou alteração sistêmica nos dados.

Estatisticas Descritivas

Nesta análise utilizaremos estatísticas descritivas que explicam a distribuição dos dados

Quartis:

São valores que dividem um conjunto de elementos ordenados em quatro partes iguais, ou seja, cada parte contém 25% dessas observações.

Mínimo: Menor valor entre as observações

Q1 – Divide as observações no qual 25% das observações são menores e 75% das observações são maiores que este valor

Q2 (Mediana) – Divide as observações no qual 50% das observações são menores e 50% das observações são maiores que este valor

Q3 Divide as observações no qual 75%das observações são menores e 25% das observações são maiores que este valor

Máximo: Maior valor entre as observações

Outliers:

São observações consideradas discrepantes das demais, podendo existir ou não dentro de uma amostra, que são menores que Q1 - (Q3 - Q1) * 1,5 ou maiores que Q3 + (Q3 - Q1) * 1,5

Explicação dos Gráficos

Boxplot:

O gráfico do tipo Boxplot, mostra a visualização das estatísticas Q1, Q2, Q3 e Outliers e seus pontos distribuídos ao longo de uma reta, auxiliando graficamente no entendimento da distribuição dos dados.

Lineplot:

O Lineplot mostra os dados distribuidos ao longo do tempo, sendo seus valores indicados no Eixo Y e o tempo indicado no Eixo X

Dados de produção

O notebook utilizado para esta validação se encontra no seguinte caminho dentro do repositório:

Path: jobs/dev/04__layers/2023-03-09__descritiva_production_line

A bibloteca utilizada para manipulação de dados e calculo de estatísticas é o pandas, e as responsáveis pela criação de gráficos são matplotlib e seaborn, que são responsaveis pela criação de gráficos e integração com o pandas respectivamente,

Os dados são importados da tabela golden_batch__silver.database__production_line e convertidos para o objeto DataFrame da biblioteca Pandas

Criamos a função stats_and_outliers para calcular as estatísticas e outliers:

Q1, Q2 (Mediana), Q3, Maximo, Minimo, Numero de Observações, Numero de Outliers e Porcentagem de Outliers

Para cada variável foi gerado um gráfico boxplot e aplicado a função stats_and_outliers e registrado seus valores em uma lista

Os gráficos de cada variavel de produção podem ser encontrados no notebook utilizado.

A tabela de estatísticas e outliers é convertida em um objeto DataFrame Pandas e ordenados da maior para a menor porcentagem de outliers

A tabela é convertida para o objeto DataFrame Spark e pode ser feito o download pelo próprio notebook ou acessadas no link:

https://duratexsa.sharepoint.com/:x:/r/sites/MurabeiDexcoGoldenBatch/Documentos%20Compartilhados/General/stats_ands_outliers.csv?d=w563d9992238b4117b5d121fe6d407fd4&csf=1&web=1&e=v8UQLF

Para cada variável os gráficos de linha tambem foram gerados e podem ser consultados no notebook utilizado

0 Comments

You are not logged in. Any changes you make will be marked as anonymous. You may want to Log In if you already have an account.