...
Dados mensurados nas linhas de produção sobre os parametros utilizados em diferentes etapas, maquinas e processos para a produção de MDF.
Path: Caminho_para_dados_de_produção'dbfs:/mnt/dexco-dev-da-databricks-storage-in-pae/Golden Batch Produção - Agudos FA2/'
Dados de Laboratório:
Medição feita em laboratório sobre características que descrevem a qualidade do MDF como densidade, tração média e tração perpendicular média.
Path: Caminho_para_dados_de_laboratório'dbfs:/mnt/dexco-dev-da-databricks-storage-in-pae/Golden Batch Laboratório - Agudos FA2/'
Camadas de Carregamento
O carregamento e tratamento dos dados é feito em camadas estruturadas, onde as tabelas são registradas em cada camada e o código de tratamento acessa apenas as tabelas desta mesma camada, criando blocos fechados de forma que os códigos podem ser desenvolvidos de forma indepedente.
...
path_exists(path):
Verifica se o caminho que foi passado existe
Input: caminho a ser verificado
Output: True/False a depender da existência
...
executa(path_origin, path_destination):
Importa dados do S3 Storage, corrrige nome das colunas removendo caracteres especiais e salva a tabela na camada bronze
Input: caminho de origem dos dados e destino
...
.
O Processo ocorre em cargas incrementais, são analisados os parquets mais recentes publicados em S3 comparando com a data do ultimo parquet processado ns camada bronze, além disso ocorre a exclusão de registros salvos na camada bronze posteriores a data minima da carga incremental.
...
Dados de Produção
O notebook utilizado para este processamento se encontra no seguinte caminho dentro do repositório:
Path: jobs/dev/03__layers/01__bronze/processo/2023-02-03__bronze__variaveis_de_producao
...
Após a execução os dados são enviados para a Camada Bronze no hive_metastorage
dentro do DataBricks. A tabela é salva no banco de dados golden_batch__bronze
com o nome golden_batch__bronze.database__production_line
.
...
Path: jobs/dev/03__layers/01__bronze/laboratorio/2023-03-20__bronze__variaveis_de_laboratorio
...
Após a execução os dados são enviados para a Camada Bronze no hive_metastorage
dentro do DataBricks. A tabela é salva no banco de dados golden_batch__bronze
com o nome golden_batch__bronze.database__laboratory_variables
.
...