...
Sempre em Pyspark
...
Pode haver renomeação de colunas unicamente para estruturação
...
Transforma tudo em relacional
...
Pode gerar mais de uma tabela nos casos em que a base não é relacional
...
Normalmente não se cria novas colunas com novas informações nesta etapa (o ideal é que aconteça na bronze)
...
Situações onde se precisa criar um campo primary key (usando o monotonically_increasing_id
, por exemplo) para uma tabela relacional, o ideal é fazê-lo na etapa gold, quando necessário
...
Não há filtros nos dados
...
Uma tabela intermediária silver é importante porque deve servir a múltiplas tabelas gold, controladas por diferentes business units e diferentes usuários. Com o propósito de realizar um processo de ETL válido para todos, , esse passo evita confusões referentes a dados divergentes, como business units separadas calculando a mesma métrica de forma diferente.
Read Only para todas as áreas de negócios / times.
Sistemas
SAP → Junção SAP_ECC + SAP_S4 (Layout único baseado no S4)
SALES_FORCE → tabelas SF saneadas
Regras
No notebook preencha a primeira célula com as informações:
...