Sempre em Pyspark
Pode haver renomeação de colunas unicamente para estruturação
Transforma tudo em relacional
Pode gerar mais de uma tabela nos casos em que a base não é relacional
Normalmente não se cria novas colunas com novas informações nesta etapa (o ideal é que aconteça na bronze)
Situações onde se precisa criar um campo primary key (usando o
monotonically_increasing_id
, por exemplo) para uma tabela relacional, o ideal é fazê-lo na etapa gold, quando necessárioNão há filtros nos dados
Realizar Tratamento de tipos, nulos, etc
Tradução do nome de colunas e tabelas do pt-br para o inglês
Regras
No notebook preencha a primeira célula com as informações:
Nome do schema e tabela sendo gerada
O link do Jira e o ID da tarefa
@ do responsável pela tarefa
Data de atualização do script
Add Comment