Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

O objetivo das validações é verificar por meio de estatísticas e ferramentas graficas se a distribuição dos dados está conforme o esperado, e identificar possíveis outliers ou alteração sistemica nos dados.

#Estatísticas Descritivas

Estatisticas Descritivas

Nesta analise utilizaremos estatísticas descritivas que explicam sobre a distribuição dos dados

Quartis:

...

São valores que dividem um conjunto de elementos ordenados em quatro partes iguais, ou seja, cada parte contém 25% dessas observações.

Minimo: Menor valor entre as observações

Q1 – Divide as observações no qual 25% das observações são menores e 75% das observações são maiores que este valor

Q2 (Mediana) – Divide as observações no qual 50% das observações são menores e 50% das observações são maiores que este valor

Q3 Divide as observações no qual 75%das observações são menores e 25% das observações são maiores que este valor

Máximo: Maior valor entre as observações

Outliers:

São observações consideradas discrepantes das demais, podendo existir ou não dentro de uma amostra, que são menores que Q1 - (Q3 - Q1) * 1,5 ou maiores que Q3 + (Q3 - Q1) * 1,5

Explicação Gráficos

Boxplot:

O grafico do tipo Boxplot que mostram a visualização das estatísticas estatísticas Q1, Q2, Q3 e Outliers e seus pontos distribuidos ao longo de uma reta, auxiliando graficamente no entendimento da distribuição dos dados

...

Lineplot:

O Lineplot mostra os dados distribuidos ao longo do tempo, sendo seus valores indicados no Eixo Y e o tempo indicado no Eixo X

...

Dados de produção

O notebook utilizado para esta validação se encontra no seguinte caminho dentro do repositório:

...

Criamos a função stats_and_outliers para calcular as estatísticas e outliers:

Q1, Q2 (Mediana), Q3, Maximo, Minimo, Numero de Observações, Numero de Outliers e Porcentagem de Outliers

...

Para cada variável foi gerado um gráfico boxplot e aplicado a função stats_and_outliers e registrado seus valores em uma lista

...

Os gráficos de cada variavel de produção podem ser encontrados no notebook utilizado.

A tabela de estatísticas e outliers é convertida em um objeto DataFrame Pandas e ordenados da maior para a menor porcentagem de outliers

...

A tabela é convertida para o objeto DataFrame Spark e pode ser feito o download pelo próprio notebook ou acessadas no link:

https://duratexsa.sharepoint.com/:x:/r/sites/MurabeiDexcoGoldenBatch/Documentos%20Compartilhados/General/stats_ands_outliers.csv?d=w563d9992238b4117b5d121fe6d407fd4&csf=1&web=1&e=v8UQLF

...

Para cada variável os gráficos de linha tambem foram gerados e podem ser consultados no notebook utilizado

...