Content Comparison

...

Foram importadas as bibliotecas necessárias

...

Para facilitar a carga de dados são gerados intervalos de tempo para que os dados sejam processados em lotes, salvando na base de dados e posteriormente descartados para a consulta para o próximo intervalo.

A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados

...

Image Removed

Foram identificados os valores únicos das colunas do tipo string e removido as colunas que não continham informações relevantes

...

O formato da tabela foi alterado função gera_timestamps cria a partir de uma data maxima e minima uma lista de timestamps dado uma janela de tempo de um dia.

...

As consultas são feitas a partir do SQL na tabela golden_batch__bronze.databse__production_line com as datas coletadas pela lista de timestamp

...

Outras funções tambem são utilizadas para a carga dos dados, bem como a função de mudar nome das colunas

...

É necessário excluir as colunas que não representam parametros de produção mensuráveis

...

Mudamos a tabela do formato wide para o formato long e foram excluídos os valores nulos.

...

Image Removed

afim de facilitar a carga de novas variáveis, tambem excluimos os valores nulos

...

Criamos uma função que faz todos os processamentos para um mesmo lote

...

Salvamos o processamento em lote no modo “append” para acrescentar esses novos dados a carga histórica

...

Rodamos todo o processo e salvamos o lote por meio das funções que foram criadas, usando datas máximas e mínimas da tabela golden_batch__bronze.database__production_line.

...

E os dados foram transformado no objeto Spark Dataframe e registrados na Camada Silver . A tabela é salva no banco de dados golden_batch__silver com o nome golden_batch__silver.database__production_line.

...

Dados de Laboratóro

O notebook utilizado para este processamento se encontra no seguinte caminho dentro do repositório:

...

A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados

...

Foram selecionadas as colunas que serão utilizadas na camada silver

...

selecionadas e padronizadas

...

O formato da tabela foi transformado do formato wide para o formato long e foram excluidos os valores nulos

...

Version	Old Version 14	New Version 15
Changes made by	Felipe Ribeiro (Unlicensed)	jesse rocha (Unlicensed)
Saved on	Mar 22, 2023	May 02, 2023

Versions Compared

Key

Dados de Laboratóro