Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Code Block
{
...
"tasks": [
    {
        "task_key": "coletor_market_consensus",
        "notebook_task": {
            "notebook_path": "/Repos/paulo.werneck-ext@dex.co/analytics-databricks-inteligencia-mercado/Workspace/bronze/inteligencia-mercado/coletor-excel-sharepoint",
            "base_parameters": {
                "database": "indicadores_mercado",
                "base_url": "https://duratexsa.sharepoint.com/sites/JornadaCrescimento",
                "schema": "{'data': 'date', 'ebitda_2022': 'smallint', 'ebitda_2023': 'smallint', 'ebitda_2024': 'smallint', 'ebitda_2025': 'smallint', 'ebitda_2026': 'smallint', 'ev_ebitda': 'float', 'media_5y': 'float', 'maior_1dp': 'float', 'menor_1dp': 'float'}",
                "remove_columns": "[]",
                "file": "/sites/JornadaCrescimento/Documentos Partilhados/Processar/Market Consensus/Market Consensus.xlsx",
                "sheet_name": "Consensus",
                "remove_lines": "[0, 1]",
                "table": "market_consensus"
            },
            "source": "WORKSPACE"
        },
        "existing_cluster_id": "0523-180911-cnxb45ry",
        "timeout_seconds": 0,
        "email_notifications": {}
    }
  ],
...
}

OBS: É possível adicionar mais de uma task, de acordo com a necessidade.

Para cada Task de um job, os seguintes parâmetros serão necessários serem informados:

  • “base_url“ (String) : URL do Diretório base onde os arquivos Excel estão armazenados dentro do Sharepoint

  • “file“ (String) : Caminho dentro da pasta do Sharepoint onde o arquivo Excel que será coletado

  • “sheet_name“ (String) : Nome da Aba do Excel no Sharepoint que será aberto para realizar a extração

  • “remove_lines“ ( Lista de Inteiros -> [0,1] ) : Números das linhas que serão puladas/removidas da extração dos dados (inicia sempre em zero e incremental em 1 para várias linhas sendo separado por vírgula), informe [] para não remover nenhuma linha.

  • “remove_columns” ( Lista de String -> ['Col1', 'Col2'] ) : Nome das colunas que serão puladas/removidas da extração dos dados, , informe [] para não remover nenhuma coluna.

  • “schema“ (Dict de Key (String) e Value (String) -> { 'Col1' : 'date', 'Col2' : 'smallint' }) :

  • “database” (String) : Nome do Banco de dados a ser criado a tabela

  • “table” (String): Nome da Tabela no Banco de dados do parâmetro “database“ que será criado a tabela

Tabelas que serão ingeridas pelo Coletor Sharepoint:

Repositório: https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado/src/master/

Job: coletor_excel_sharepoint_bases_modelos_projecao

  • Task: coletor_demanda_deca

Nome do Parâmetro

Valor

base_url

https://duratexsa.sharepoint.com/sites/JornadaCrescimento

file

/sites/JornadaCrescimento/Documentos Partilhados/Processar/Onda 3/Demanda Deca.xlsx

sheet_name

Onda3

remove_lines

[0]

remove_columns

[]

schema

{'Data':'date','Metais_Basicos':'int','Metais_Competitivos':'int','Metais_Medio_Luxo':'int','Metais_Exportacao':'int','Loucas_Bacias_Competitivas':'int','Loucas_Bacias_Izy':'int','Loucas_Bacias_Medio_Luxo':'int','Loucas_Cubas':'int','Loucas_Outros':'int','Loucas_Exportacao':'int','Chuveiros_Duchas':'int','Chuveiros_Torneiras_Eletricas':'int','Chuveiros_Torneiras_Plasticas':'int','Chuveiros_Outros':'int','Chuveiros_Exportacao':'int'}

database

bases_modelos_projecoes

table

demanda_deca

Metadados da Tabela de Destino em CSV:

  • Task: coletor_demanda_madeira

Nome do Parâmetro

Valor

base_url

https://duratexsa.sharepoint.com/sites/JornadaCrescimento

file

/sites/JornadaCrescimento/Documentos Partilhados/Processar/Onda 3/Demanda Madeira.xlsx

sheet_name

Onda3

remove_lines

[0]

remove_columns

[]

schema

{'Data':'date','MDP_Revestido':'int','MDP_Cru':'int','MDF_Revestido':'int','MDF_Cru':'int'}

database

bases_modelos_projecoes

table

demanda_madeira

Metadados da Tabela de Destino em CSV:

  • Task: coletor_demanda_rc

Nome do Parâmetro

Valor

base_url

https://duratexsa.sharepoint.com/sites/JornadaCrescimento

file

/sites/JornadaCrescimento/Documentos Partilhados/Processar/Onda 3/Demanda RC.xlsx

sheet_name

Onda3

remove_lines

[0]

remove_columns

[]

schema

{'Data':'date','Porcelanato':'int'}

database

bases_modelos_projecoes

table

demanda_rc

Metadados da Tabela de Destino em CSV:

  • Task: coletor_dias_de_estoque_deca

Nome do Parâmetro

Valor

base_url

https://duratexsa.sharepoint.com/sites/JornadaCrescimento

file

/sites/JornadaCrescimento/Documentos Partilhados/Processar/Onda 3/Dias de Estoque Deca.xlsx

sheet_name

Onda3

remove_lines

[0]

remove_columns

[]

schema

{'Data':'date','Hydra':'int','Loucas':'int','Metais':'int','RC':'int'}

database

bases_modelos_projecoes

table

dias_de_estoque_deca

Metadados da Tabela de Destino em CSV:

  • Task: coletor_dias_de_estoque_madeira

Nome do Parâmetro

Valor

base_url

https://duratexsa.sharepoint.com/sites/JornadaCrescimento

file

/sites/JornadaCrescimento/Documentos Partilhados/Processar/Onda 3/Dias de Estoque Madeira.xlsx

sheet_name

Onda3

remove_lines

[0]

remove_columns

[]

schema

{'Data':'date','Industria_PA':'int','Industria_Chapas':'int','Varejo_Madeirado':'int','Varejo_Brancos':'int'}

database

bases_modelos_projecoes

table

dias_de_estoque_madeira

Metadados da Tabela de Destino em CSV: