...
Foram importadas as bibliotecas necessárias
...
Para facilitar a carga de dados são gerados intervalos de tempo para que os dados sejam processados em lotes, salvando na base de dados e posteriormente descartados para a consulta para o próximo intervalo.
A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados
...
Foram identificados os valores únicos das colunas do tipo string e removido as colunas que não continham informações relevantes
...
O formato da tabela foi alterado função gera_timestamps cria a partir de uma data maxima e minima uma lista de timestamps dado uma janela de tempo de um dia.
...
As consultas são feitas a partir do SQL na tabela golden_batch__bronze.databse__production_line
com as datas coletadas pela lista de timestamp
...
Outras funções tambem são utilizadas para a carga dos dados, bem como a função de mudar nome das colunas
...
É necessário excluir as colunas que não representam parametros de produção mensuráveis
...
Mudamos a tabela do formato wide para o formato long e foram excluídos os valores nulos.
...
afim de facilitar a carga de novas variáveis, tambem excluimos os valores nulos
...
Criamos uma função que faz todos os processamentos para um mesmo lote
...
Salvamos o processamento em lote no modo “append” para acrescentar esses novos dados a carga histórica
...
Rodamos todo o processo e salvamos o lote por meio das funções que foram criadas, usando datas máximas e mínimas da tabela golden_batch__bronze.database__production_line
.
...
E os dados foram transformado no objeto Spark Dataframe e registrados na Camada Silver . A tabela é salva no banco de dados golden_batch__silver
com o nome golden_batch__silver.database__production_line
.
...
Dados de Laboratóro
O notebook utilizado para este processamento se encontra no seguinte caminho dentro do repositório:
...
A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados
...
Foram selecionadas as colunas que serão utilizadas na camada silver
...
selecionadas e padronizadas
...
O formato da tabela foi transformado do formato wide para o formato long e foram excluidos os valores nulos
...