...
Sempre em Pyspark
...
Pode haver renomeação de colunas unicamente para estruturação
...
Transforma tudo em relacional
...
Pode gerar mais de uma tabela nos casos em que a base não é relacional
...
Normalmente não se cria novas colunas com novas informações nesta etapa (o ideal é que aconteça na bronze)
...
Situações onde se precisa criar um campo primary key (usando o monotonically_increasing_id
, por exemplo) para uma tabela relacional, o ideal é fazê-lo na etapa gold, quando necessário
...
Não há filtros nos dados
...
Sistemas
SAP → Junção SAP_ECC + SAP_S4 (Layout único baseado no S4)
SALES_FORCE → tabelas SF saneada
Regras
No notebook preencha a primeira célula com as informações:
...