Coletor Sharepoint

Esta página tem como finalidade documentar o processo de coleta dos dados de planilhas presentes no Sharepoint.

A extração dos dados foi realizada utilizando linguagem de programação Python, com framework Spark em um Cluster Databrics da Dexco.

Este processo consome as APIs oficiais do Sharepoint via biblioteca escrita em Python.

Resumo do Processo

Baseado em configurações informadas ao job no momento de configuração, o coletor realiza as seguintes etapas:

Recupera secrets de chave USER e PASSWORD do escopo USER_DIEGO
Autentica no Sharepoint
Realiza o download da planilha em ambiente local do cluster
Transforma os dados da planilha e aba especificada durante a etapa de configuração do job em tabela Spark

Configuração do Job

Embaixo da chave tasks do arquivo .json de configuração de um agendamento de job do Databricks, utilize a seguinte estrutura, conforme utilizada na orquestração da extração da planilha Market Consensus.xlsx :

{
...
"tasks": [
    {
        "task_key": "coletor_market_consensus",
        "notebook_task": {
            "notebook_path": "/Repos/paulo.werneck-ext@dex.co/analytics-databricks-inteligencia-mercado/Workspace/bronze/inteligencia-mercado/coletor-excel-sharepoint",
            "base_parameters": {
                "database": "indicadores_mercado",
                "base_url": "https://duratexsa.sharepoint.com/sites/JornadaCrescimento",
                "schema": "{'data': 'date', 'ebitda_2022': 'smallint', 'ebitda_2023': 'smallint', 'ebitda_2024': 'smallint', 'ebitda_2025': 'smallint', 'ebitda_2026': 'smallint', 'ev_ebitda': 'float', 'media_5y': 'float', 'maior_1dp': 'float', 'menor_1dp': 'float'}",
                "remove_columns": "[]",
                "file": "/sites/JornadaCrescimento/Documentos Partilhados/Processar/Market Consensus/Market Consensus.xlsx",
                "sheet_name": "Consensus",
                "remove_lines": "[0, 1]",
                "table": "market_consensus"
            },
            "source": "WORKSPACE"
        },
        "existing_cluster_id": "0523-180911-cnxb45ry",
        "timeout_seconds": 0,
        "email_notifications": {}
    }
  ],
...
}

É possível adicionar mais de uma task, de acordo com a necessidade.

Coletor Sharepoint

Resumo do Processo

Configuração do Job

0 Comments