Casos de uso: Ingestão de dados vindos de ferramentas de automação de integração/extração/ETL.
Características:
Processo automático que é executado periodicamente
Não necessita archiving, pois o arquivos são separados por pasta, para evitar sobrescrita. Em caso de reprocessamento, basta acessar a pasta do dia desejado.
Para efeito de exemplificação vamos considerar o cenário da empresa parceira chamada “marketdata” que nos envia diariamente um arquivo atualizado com cadastro de usuários da sua plataforma:
Nome do bucket padrão: /Padrão para armazenamento de arquivos no S3 conforme o caso de uso.
...
Caso de uso | Nome do bucket | Cenário |
---|---|---|
Injestão de dados automatizada | dexco-data-in |
Pasta inicial: /marketdata
(***importante***)
Os arquivos devem ser separados por pasta no formato YYYY/MM/DD
, por exemplo:
/marketdata/2022/03/10/<nome do arquivo>_HHMMSS.csv
Exemplo de caminho completo do arquivo incluindo o nome do bucket:
/dexco-data-in/marketdata/2022/03/10/<nome do arquivo>_HHMMSS.csv
Sendo HH
= hora, MM
= minuto, SS
= segundos, todos com zeros a esquerda.
Os formatos permitidos para o arquivo são CSV
ou PARQUET
.
Importante: Para acesso via aplicativo de transferência de arquivo, como cyberduck e WinSCP por exemplo, é necessário configurar a pasta inicial, tendo em vista que a raiz do bucket não está acessível.
Observações: Permissões somente leitura/escrita, ou seja, sem permissão de exclusão de arquivo para manter o histórico.
Casos de uso: Upload manual de arquivos.
Casos de uso: Arquivamento de dados.
Envios automático de arquivo pelo Datastage (IBM), SAP Data Intelligence (SDI) ou por ferramentas de ETL de terceiros | ||
Envio de arquivo para terceiros | dexco-data-out | |
Upload manual | dexco-data-upload | |
Arquivamento de dados, backup | dexco-data-archive | |
Transferência de arquivos e arquivos temporários | dexco-data-transfer |
Lista de buckets no S3, conta AWS produção: