Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Camada Bronze

Dados de Produção

O notebook utilizado para este processamento se encontra no seguinte caminho dentro do repositório:

Path: jobs/dev/03__layers/01__bronze/2023-02-03__bronze__variaveis_de_producao

É necessário a instalação do pacote unidecode para remoção de caracteres especiais para os nomes das colunas.

...

Verificamos a existencia da pasta para carregamento de dados de origem no Amazon S3 Storage por meio da função path_exists

Image RemovedImage Added

Função que executa a carga de dados, remove caracteres especiais e salva a tabela na Camada Bronze no hive_metastorage dentro do DataBricks. A tabela é salva no banco de dados golden_batch__bronzecom o nome golden_batch__bronze.database__production_line.

...

Camada Silver

Dados de Produção

O notebook utilizado para este processamento se encontra no seguinte caminho dentro do repositório:

Path: jobs/dev/03__layers/02__silver/2023_03_09__silver__production_line

É necessário a instalação do pacote slugify para a padronização dos caracteres em letras minúsculas para os nomes das colunas e utilização de underline como separador.

...

A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados

...

As colunas com valores nulos foram indetificadas e aquelas com apenas valores nulos foram removidas

...

Foram ideintificados os valores unicos das colunas do tipo string e removido as colunas que não continham informações relevantes

...

O formato da tabela foi mudado do formato wide para o formato long

...

E os dados foram transformado no objeto Spark Dataframe e registrados na Camada Silver . A tabela é salva no banco de dados golden_batch__silver com o nome golden_batch__silver.database__production_line.

...