Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Sempre em Pyspark

...

Pode haver renomeação de colunas unicamente para estruturação

...

Transforma tudo em relacional

...

Pode gerar mais de uma tabela nos casos em que a base não é relacional

...

Normalmente não se cria novas colunas com novas informações nesta etapa (o ideal é que aconteça na bronze)

...

Situações onde se precisa criar um campo primary key (usando o monotonically_increasing_id , por exemplo) para uma tabela relacional, o ideal é fazê-lo na etapa gold, quando necessário

...

Não há filtros nos dados

...

Realizar Tratamento de tipos, nulos, etc

...

Uma tabela intermediária silver é importante porque deve servir a múltiplas tabelas gold, controladas por diferentes business units e diferentes usuários. Com o propósito de realizar um processo de ETL válido para todos, , esse passo evita confusões referentes a dados divergentes, como business units separadas calculando a mesma métrica de forma diferente.

Read Only para todas as áreas de negócios / times.

Sistemas

SAP → Junção SAP_ECC + SAP_S4 (Layout único baseado no S4)

SALES_FORCE → tabelas SF saneadas

Regras

No notebook preencha a primeira célula com as informações:

...