Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
  • Sempre em Pyspark

  • Pode haver renomeação de colunas unicamente para estruturação

  • Transforma tudo em relacional

  • Pode gerar mais de uma tabela nos casos em que a base não é relacional

  • Normalmente não se cria novas colunas com novas informações nesta etapa (o ideal é que aconteça na bronze)

  • Situações onde se precisa criar um campo primary key (usando o monotonically_increasing_id , por exemplo) para uma tabela relacional, o ideal é fazê-lo na etapa gold, quando necessário

  • Não há filtros nos dados

  • Realizar Tratamento de tipos, nulos, etc

  • Tradução do nome de colunas e tabelas do pt-br para o inglês

Regras

No notebook preencha a primeira célula com as informações:

...