Skip to end of metadata
Go to start of metadata

You are viewing an old version of this content. View the current version.

Compare with Current Restore this Version View Version History

« Previous Version 3 Next »

Padrão para armazenamento de arquivos no S3 conforme o caso de uso.

Caso de uso

Nome do bucket

Injestão de dados automatizada

dexco-data-in

Caso de uso: Ingestão de dados vindos de ferramentas de automação de integração/extração/ETL.

Características:

  • Processo automático que é executado periodicamente por uma ferramenta externa

  • Armazenamento separado em pastas YYYY/MM/DD

  • Não necessita archiving, pois o arquivos são separados por pasta, para evitar sobrescrita. Em caso de reprocessamento, basta acessar a pasta do dia desejado.

Para efeito de exemplificação vamos considerar o cenário da empresa parceira chamada “marketdata” que nos envia diariamente um arquivo atualizado com cadastro de usuários da sua plataforma:

Nome do bucket padrão: /dexco-data-in

Pasta inicial: /marketdata (***importante***) 

Os arquivos devem ser separados por pasta no formato YYYY/MM/DD, por exemplo:

/marketdata/2022/03/10/<nome do arquivo>_HHMMSS.csv

Exemplo de caminho completo do arquivo incluindo o nome do bucket:

/dexco-data-in/marketdata/2022/03/10/<nome do arquivo>_HHMMSS.csv

Sendo HH = hora, MM = minuto, SS = segundos, todos com zeros a esquerda.

Os formatos permitidos para o arquivo são CSV ou PARQUET.

 

Importante: Para acesso via aplicativo de transferência de arquivo, como cyberduck e WinSCP por exemplo, é necessário configurar a pasta inicial, tendo em vista que a raiz do bucket não está acessível.

 

Observações: Permissões somente leitura/escrita, ou seja, sem permissão de exclusão de arquivo para manter o histórico.

Casos de uso: Upload manual de arquivos.

Casos de uso: Arquivamento de dados, backup, unload de tabelas do Redshift.

Casos de uso: Envio de arquivo para terceiros.

Casos de uso: Transferência de dados entre ambientes (DEV, STG, PRD) ou entre serviços, por exemplo do Databricks para o Redshift.