...
Verificamos a existencia da pasta para carregamento de dados de origem no Amazon S3 Storage por meio da função path_exists
Função que executa a carga de dados, remove caracteres especiais e salva a tabela na Camada Bronze no hive_metastore dentro do DataBricks. A tabela é salva no banco de dados golden_batch__bronze na tabela com o nome golden_batch__bronze.database__production_line.
...
A tabela foi salva como Pandas Dataframe e os nomes das colunas foram padronizados
...
As colunas com valores nulos foram indetificadas e aquelas com apenas valores nulos foram removidas
...
Foram ideintificados os valores unicos das colunas do tipo string e removido as colunas que não continham informações relevantes
...
O formato da tabela foi mudado do formato wide para o formato long
...
E os dados foram transformado no objeto Spark Dataframe e registrados na Camada Silver . A tabela é salva no banco de dados golden_batch__silver com o nome golden_batch__silver.database__production_line.
...