Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Regras

...

Tip 1

...

Campos do tipo timestamp finalizam com “at”.

...

Se um campo é um timestamp, certifique-se de terminar o nome com "at". Portanto, por exemplo, o registro de data e hora de quando um usuário foi criado no sistema ficaria desta forma : "user_created_at".

...

Tip 2

...

Campos do tipo date finalizam com "date".

...

Nos casos em que você tem apenas a data, finalize o nome do campo com "date". Um exemplo de data de nascimento de um usuário no seu banco de dados seria: "user_birth_date".

...

Tip 3

...

Campos booleanos começam com "is" ou "has" ou "was".

...

inicie o nome de cada campo booleano com "is" ou "has" ou "was": "is_first_transaction".

...

Tip 4

...

Todos os nomes devem estar em letras minúsculas.

...

Tip 5

...

Use underline entre palavras.

...

Para nomes que contenham mais de uma palavra, coloque um sublinhado (_) entre as palavras, ex: Ao invés de createdat, escreva : created_at.

...

Tip 6

...

Campos identificadores finalizam com id.

...

Ex: rg_id, cpf_id.

...

Tip 7

...

Todas as chaves primárias tem o nome da tabela seguido de _id.

...

PySpark é uma linguagem que permite aos usuários interagir com um back-end Apache Spark para processar dados rapidamente.

O Spark pode operar em grandes conjuntos de dados em uma rede distribuída de servidores, oferecendo grandes benefícios de desempenho e confiabilidade quando utilizado corretamente.

Este guia apresenta situações comuns que encontramos e as práticas recomendadas associadas.

Prefira a seleção de coluna implícita para acesso direto, exceto para desambiguação

Code Block
languagepy
# ruim
df = df.select(F.lower(df1.colA). F.upper(df2.colB))
# bom
df = df.select(F.lower(F.col('colA')), F.upper(F.col('colB')))
# melhor - desde Spark 3.0
df = df.select(F.lower('colA'), F.upper('colB'))

Na maioria das situações, é melhor evitar o primeiro e segundo estilos e apenas referenciar a coluna pelo nome, usando uma string, como no terceiro exemplo. O Spark 3.0 expandiu bastante os casos em que o terceiro estilo funciona. Quando o método string não é possível, entretanto, devemos recorrer a uma abordagem mais detalhada.

  • Se o nome da variável do dataframe for grande, as expressões que o envolvem rapidamente se tornarão complicadas;

  • Se o nome da coluna tiver um espaço ou outro caractere não suportado, o operador colchete deverá ser usado. Isso gera inconsistência, e df1['colA'] é tão difícil de escrever quanto F.col('colA');

  • As expressões de coluna envolvendo o dataframe não são reutilizáveis e não podem ser usadas para definir funções abstratas;

  • Renomear uma variável de dataframe pode ser propenso a erros, pois todas as referências de coluna devem ser atualizadas em conjunto.