...
Regras
...
Tip 1
...
Campos do tipo timestamp finalizam com “at”.
...
Se um campo é um timestamp, certifique-se de terminar o nome com "at". Portanto, por exemplo, o registro de data e hora de quando um usuário foi criado no sistema ficaria desta forma : "user_created_at".
...
Tip 2
...
Campos do tipo date finalizam com "date".
...
Nos casos em que você tem apenas a data, finalize o nome do campo com "date". Um exemplo de data de nascimento de um usuário no seu banco de dados seria: "user_birth_date".
...
Tip 3
...
Campos booleanos começam com "is" ou "has" ou "was".
...
inicie o nome de cada campo booleano com "is" ou "has" ou "was": "is_first_transaction".
...
Tip 4
...
Todos os nomes devem estar em letras minúsculas.
...
Tip 5
...
Use underline entre palavras.
...
Para nomes que contenham mais de uma palavra, coloque um sublinhado (_) entre as palavras, ex: Ao invés de createdat, escreva : created_at.
...
Tip 6
...
Campos identificadores finalizam com id.
...
Ex: rg_id, cpf_id.
...
Tip 7
...
Todas as chaves primárias tem o nome da tabela seguido de _id.
...
PySpark é uma linguagem que permite aos usuários interagir com um back-end Apache Spark para processar dados rapidamente.
O Spark pode operar em grandes conjuntos de dados em uma rede distribuída de servidores, oferecendo grandes benefícios de desempenho e confiabilidade quando utilizado corretamente.
Este guia apresenta situações comuns que encontramos e as práticas recomendadas associadas.
Prefira a seleção de coluna implícita para acesso direto, exceto para desambiguação
Code Block | ||
---|---|---|
| ||
# ruim
df = df.select(F.lower(df1.colA). F.upper(df2.colB))
# bom
df = df.select(F.lower(F.col('colA')), F.upper(F.col('colB')))
# melhor - desde Spark 3.0
df = df.select(F.lower('colA'), F.upper('colB')) |
Na maioria das situações, é melhor evitar o primeiro e segundo estilos e apenas referenciar a coluna pelo nome, usando uma string, como no terceiro exemplo. O Spark 3.0 expandiu bastante os casos em que o terceiro estilo funciona. Quando o método string não é possível, entretanto, devemos recorrer a uma abordagem mais detalhada.
Se o nome da variável do dataframe for grande, as expressões que o envolvem rapidamente se tornarão complicadas;
Se o nome da coluna tiver um espaço ou outro caractere não suportado, o operador colchete deverá ser usado. Isso gera inconsistência, e df1['colA'] é tão difícil de escrever quanto F.col('colA');
As expressões de coluna envolvendo o dataframe não são reutilizáveis e não podem ser usadas para definir funções abstratas;
Renomear uma variável de dataframe pode ser propenso a erros, pois todas as referências de coluna devem ser atualizadas em conjunto.