Coletor Way Carbon
Esta página tem como finalidade documentar o processo de coleta dos dados oriundos do sistema Way Carbon (https://climas.waycarbon.com/#/authentication/login).
A extração dos dados foi realizada utilizando linguagem de programação Python, biblioteca Selenium, com framework Spark em um Cluster Databrics da Dexco.
Este processo realiza um web crawler no sistema listado acima.
Devido ser um processo que envolve acessar uma página Web, realizar download do relatório em csv, há a grande possibilidade de o processo mudar (seja a URL acima, formato de navegação da página, endereço de download do arquivo e também formatação/reposicionamento dos campos dentro do csv) devendo haver um constante monitoramento e ajuste do código pela equipe da Dexco.
Este documento visa destacar abaixo os principais pontos do processo de coleta dos dados do Way Carbon.
Resumo do Processo
Recorrentemente, o processo que emula o acesso por um navegador, desenvolvido com o suporte da biblioteca Selenium, do Python, busca informações sobre quatro indicadores:
Emissões de GEE
Evolução Mensal de Energia
Resíduos Gerados
Reuso da Água
Os dados são coletados a partir da extração de arquivos .xlsx
exportados do sistema Way Carbon. O processo faz o download do arquivo Excel no disco do cluster, acessa esses dados, transforma e sobe na camada bronze. Após o processo terminado, o arquivo original – que viveu no disco do cluster – é descartado pelo processo.
Databricks
Nesta seção será apresentada os artefatos criados para suportar o processo descrito.
Job vs. Notebook
Job | Parâmetros | Periodicidade | Notebook | Repositório |
---|---|---|---|---|
evolucao_emissoes_de_gee | url: “https://climas.waycarbon.com/#/authentication/login” | Diariamente | bronze/inteligencia-mercado/way_carbon_climas/evolucao_emissoes_de_gee | https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
evolucao_energia_total | url: “https://climas.waycarbon.com/#/authentication/login” | Diariamente | bronze/inteligencia-mercado/way_carbon_climas/evolucao_energia_total | https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
evolucao_residuos_gerados | url: “https://climas.waycarbon.com/#/authentication/login” | Diariamente | bronze/inteligencia-mercado/way_carbon_climas/evolucao_residuos_gerados | https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
evolucao_reuso_agua | url: “https://climas.waycarbon.com/#/authentication/login” | Diariamente | bronze/inteligencia-mercado/way_carbon_climas/evolucao_reuso_agua | https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
Tabelas
waycarbon.evolucao_emissoes_gee_mensal (Tabela de Indicadores de Emissão de GEE - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
natureza_ou_unidade_de_negocio | Não | Não | Não |
| string |
|
| Nome da Natureza ou da Unidade de Negócio |
periodo | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |
waycarbon.evolucao_energia_total_mensal (Tabela de Indicadores de Evolução de Energia Total - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
natureza_ou_unidade_de_negocio | Não | Não | Não |
| string |
|
| Nome da Natureza ou da Unidade de Negócio |
grupo_de_precursores | Não | Não | Não |
| string |
|
| Nome do Grupo de Precursores |
ano | Não | Não | Não |
| string |
|
| Ano de Referencia do Indicador |
mes | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |
waycarbon.evolucao_residuos_gerados (Tabela de Indicadores de Evolução de Resíduos Gerados - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
natureza_ou_unidade_de_negocio | Não | Não | Não |
| string |
|
| Nome da Natureza ou da Unidade de Negócio |
ano | Não | Não | Não |
| string |
|
| Ano de Referencia do Indicador |
mes | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |
waycarbon.evolucao_reuso_agua_1 (Tabela de Indicadores de Evolução de Reuso da Água - Planilha 1 - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
unidade_operacional | Não | Não | Não |
| string |
|
| Nome da Unidade de Operacional |
unidade_medida | Não | Não | Não |
| string |
|
| Unidade de Medida |
ano | Não | Não | Não |
| string |
|
| Ano de Referencia do Indicador |
mes | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |
waycarbon.evolucao_reuso_agua_2 (Tabela de Indicadores de Evolução de Reuso da Água - Planilha 2 - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
unidade_operacional | Não | Não | Não |
| string |
|
| Nome da Unidade de Operacional |
unidade_medida | Não | Não | Não |
| string |
|
| Unidade de Medida |
ano | Não | Não | Não |
| string |
|
| Ano de Referencia do Indicador |
mes | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |
waycarbon.evolucao_reuso_agua_3 (Tabela de Indicadores de Evolução de Reuso da Água - Planilha 3 - por mes de cada ano, disponibilizada pela Way Carbon - Climas) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
unidade_operacional | Não | Não | Não |
| string |
|
| Nome da Unidade de Operacional |
unidade_medida | Não | Não | Não |
| string |
|
| Unidade de Medida |
ano | Não | Não | Não |
| string |
|
| Ano de Referencia do Indicador |
mes | Não | Não | Não |
| string |
|
| Mes de Referencia do Indicador |
valor | Não | Não | Não |
| string |
|
| Valor de Referencia do Indicador |
data_carga | Não | Não | Não |
| string |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| string |
|
| Primeiro dia do mês de referencia do arquivo |